AI/Projects

Project Joing: StoryBoard Generator(콘티 생성기) - 이미지 생성 모델 선정 1

문괜 2024. 11. 19. 19:39
반응형

이번 포스트에서는 콘티 생성기에 사용될 모델에 대한 선정과정을 정리해 봤다.

 

Diffusion Model에 대해서는 추가적으로 '도대체 Diffusion Model은 뭘까?'에서 설명할 예정이다.

 

먼저 현재 가장 많이 쓰이고 있는 모델들을 추려냈다. 처음 사용하다 보니 사용경험들이나 관련 정보가 많아야 한다는 게 첫 번째 기준이었다. 

 

그래서 추려낸 모댈은 Stable Diffusion(이하 SDXL)과 Flux다.

 

선정기준은 아래와 같았다.

  1. 콘티를 생성해야하니 스케치의 특징인 핵심 표현 가능 여부
    • 역으로 말하자면 쓸데 없이 디테일한 생성은 필요가 없다.
  2. 비용, 물론 현재 로컬에서 클라우드 저장소로 업데이트를 하는 로직을 구상했으나 중요한 점은 로컬에서도 벅차서는 안된다.
    • 현재 사용하고 있는 로컬환경은 Colab으로 아래와 같은 스펙으로 작동하고 있다.
      • System RAM: 83.5 GB
      • GPU RAM: 40.0 GB
      • Disk: 235.7 GB
    • 개인적으로 준수하다고 생각한다.
  3. 마지막으로 Prompt변경에 따른  생성결과의 변화가 중요하다.

 

아래의 Prompt를 바탕으로 생성된 결과는 아래와 같다.

test_prompt = """
	a storyboard scene that two asian female and male talking to each other 
	while drinking alcohol on the wooden floor
	"""

왼쪽이 Stable Diffusion XL 오른쪽이 Flux

 

먼저 Storyboard(콘티)를 이해한 경우는 Stable Diffusion이지만 정확히는 콘티라고 할 수 없었다. 하지만 현재까지의 결과를 비교해 보면 아래와 같이 정리할 수 있다.

모델명 Stable Diffusion XL Flux-schnell
사용 GPU 14.4G 36.8G
생성결과 콘티와 유사하고 특징이 잘 들어남 콘티와 유사하지 않은 대신 세세한 부분까지 생성함(또한 의도 전달을 정확히 이해함)

 

그래서 아래와 같이 '흑백 만화'와 '스케치'를 기준으로 생성해달라고 했다.

test_prompt = """
	a stoaryboard scene with black and white cartoon style 
    that asian female and male talking to each other 
    while drinking alcohol on the wooden floor
    """

test_prompt = """
	a stoaryboard scene with black and white sketch 
	that asian female and male talking to each other 
    while drinking alcohol on the wooden floor
    """

 

왼쪽이 SDXL 오른쪽이 FLUX

둘 다 흑백만화를 그렸지만 여기서 FLUX의 장점이 드러나는데 FLUX의 경우 현실적인 그림체보다는 가상의 그림체에 특화돼 있다고 한다. 반면에  Stable Diffusion의 경우에는 반대로 극 현실주의 이미지 생성에 강점을 보인다고 한다. 그래서 아직 Fine tuning이전이기는 하나 생성된 현재까지의 결과를 봤을 때는 Flux가 좀 더 좋은 선택지라고 할 수 있다. 

 

하지만 여기서 문제는 Flux의 GPU 사용 용량이다. 위의 표에서와 같이 GPU를 SDXL에 비해 2배 넘게 사용하고 저 결과도 num_inference_step을 4에서 2로 낮췄기 때문에 가능했다. 이런 부분에 있어서는 FLUX를 사용하는 게 현실적으로 불가능하기도 하다. 

 

그럼 최종 결론은 어떻게 될까? 간단하게 최종 결론은 Prompt를 수정해서 좀 더 세부적인 출력과 파인튜닝 역량을 기준으로 판단해야겠다. 그래서 최종 결론은 'Project Joing: StoryBoard Generator(콘티 생성기) - 이미지 생성 모델 선정 2' 포스트에서 할 예정이다. 

 

아래의 링크로  SDXL과 Flux 설치 및 테스트 코드를 확인할 수 있다.(Google Colab에서 공식으로 만든게 있는데 작동이 되지 않아서 찾아서했다.)

 

Github: diffusion_model_test

 

Project-Joing-MVP-Dev/Joing-Dev/storyboard/diffusion_model_test.ipynb at main · jwywoo/Project-Joing-MVP-Dev

Contribute to jwywoo/Project-Joing-MVP-Dev development by creating an account on GitHub.

github.com

 

반응형