본문 바로가기

컨퍼런스/ASIA SIGGRAPH 2024

[Make it Yours - Customizing Image Generation] Customizing Text-to-Image Models with a Single Image Pair

https://dl.acm.org/doi/10.1145/3680528.3687642

 

Customizing Text-to-Image Models with a Single Image Pair | SIGGRAPH Asia 2024 Conference Papers

Publication History Published: 03 December 2024

dl.acm.org

 

Customizing Text-to-Image Models with a Single Image Pair

시그라프 아시아 2024에서 주목했던 논문 중 하나는 **"Customizing Text-to-Image Models with a Single Image Pair"**입니다. 이 논문은 스타일과 내용의 분리라는 오래된 문제를 효율적으로 해결하는 Dual LoRA 구조를 제안했습니다.


기존 방식의 한계: Overfitting 문제

기존 Text-to-Image 모델들은 스타일을 학습할 때 단일 이미지에 Overfitting되는 문제가 있었습니다. 예를 들어:

  • 스타일과 내용이 혼재되어 스타일만 학습하려 해도 원본 이미지의 주제(Subject)나 구조까지 함께 학습되어버립니다.
  • 그 결과 내용의 구조를 유지하지 못하거나, 새로운 컨텐츠에 스타일을 적용할 때도 오버피팅이 발생합니다.

해결책: Dual LoRA 구조

이 논문은 **Low-Rank Adaptation (LoRA)**을 활용해 StyleContent를 명확히 분리하는 구조를 제안했습니다.

  1. Content LoRA:
    • 이미지의 구조내용을 학습합니다.
    • 이를 통해 원본 이미지의 레이아웃과 형태를 유지합니다.
  2. Style LoRA:
    • 스타일만을 학습하도록 분리합니다.
    • 이 과정에서 Content LoRA의 영향을 받지 않도록 Orthogonality Constraint(직교 제약)를 적용해 두 LoRA가 독립적으로 학습되게 만듭니다.
  3. Style Guidance:
    • 기존 LoRA Scale 대신 Style Guidance를 도입해 스타일 강도를 더 세밀하게 제어할 수 있습니다.
    • 이는 **Classifier-Free Guidance (CFG)**와 유사하지만, Style LoRA의 출력을 활용해 스타일과 구조의 균형을 조절합니다.

학습 과정: Joint Optimization

학습은 Content → Style 순서로 진행되며, 각 LoRA는 서로 다른 Loss를 최적화합니다.

  • Content Loss: Content LoRA는 컨텐츠 이미지를 복원하도록 학습합니다.
  • Style Loss: Style LoRA는 스타일 이미지의 스타일만을 학습하며, Content LoRA의 가중치는 고정(Lock)된 상태에서 진행됩니다.

이 과정에서 Orthogonality Constraint가 적용되어 Content와 Style이 완전히 분리되도록 유도합니다.


활용성과 확장성

  • 이 방식은 Stable Diffusion XL(SDXL) 기반으로 동작하며, Style LoRA만을 활용해 새로운 이미지에 스타일을 적용할 수 있습니다.
  • CFG와 같은 방식으로 스타일 강도를 세밀하게 조절할 수 있어 실용성이 높습니다.
  • LoRA 기반의 구조이므로 다른 확장 모델(예: FLUX)과의 호환성도 충분히 예상됩니다.

개인적인 평가

이 논문은 단순한 Fine-tuning을 넘어서, 스타일과 내용을 명확히 분리하는 새로운 접근법을 제시했습니다. 특히 Dual LoRA와 Orthogonality Constraint의 결합은 Overfitting 문제를 해결하면서도 스타일 적용의 유연성을 극대화했습니다.

추가적으로 Style Guidance를 활용한 세밀한 제어는 Text-to-Image Personalization 연구에서 큰 발전이라고 생각됩니다.


Takeaway

  • 기존의 한계: 단일 이미지에서 스타일과 내용이 섞이는 문제.
  • 해결책: Content LoRAStyle LoRA를 분리하여 학습 + Style Guidance를 통한 세밀한 스타일 적용.
  • 의미: 스타일-내용의 완벽한 분리오버피팅 문제 해결.

추천할 만한 논문입니다. 이미지 커스터마이징과 스타일 학습에 관심이 있다면 꼭 살펴보시길 바랍니다.