https://dl.acm.org/doi/10.1145/3680528.3687642
Customizing Text-to-Image Models with a Single Image Pair
시그라프 아시아 2024에서 주목했던 논문 중 하나는 **"Customizing Text-to-Image Models with a Single Image Pair"**입니다. 이 논문은 스타일과 내용의 분리라는 오래된 문제를 효율적으로 해결하는 Dual LoRA 구조를 제안했습니다.
기존 방식의 한계: Overfitting 문제
기존 Text-to-Image 모델들은 스타일을 학습할 때 단일 이미지에 Overfitting되는 문제가 있었습니다. 예를 들어:
- 스타일과 내용이 혼재되어 스타일만 학습하려 해도 원본 이미지의 주제(Subject)나 구조까지 함께 학습되어버립니다.
- 그 결과 내용의 구조를 유지하지 못하거나, 새로운 컨텐츠에 스타일을 적용할 때도 오버피팅이 발생합니다.
해결책: Dual LoRA 구조
이 논문은 **Low-Rank Adaptation (LoRA)**을 활용해 Style과 Content를 명확히 분리하는 구조를 제안했습니다.
- Content LoRA:
- 이미지의 구조와 내용을 학습합니다.
- 이를 통해 원본 이미지의 레이아웃과 형태를 유지합니다.
- Style LoRA:
- 스타일만을 학습하도록 분리합니다.
- 이 과정에서 Content LoRA의 영향을 받지 않도록 Orthogonality Constraint(직교 제약)를 적용해 두 LoRA가 독립적으로 학습되게 만듭니다.
- Style Guidance:
- 기존 LoRA Scale 대신 Style Guidance를 도입해 스타일 강도를 더 세밀하게 제어할 수 있습니다.
- 이는 **Classifier-Free Guidance (CFG)**와 유사하지만, Style LoRA의 출력을 활용해 스타일과 구조의 균형을 조절합니다.
학습 과정: Joint Optimization
학습은 Content → Style 순서로 진행되며, 각 LoRA는 서로 다른 Loss를 최적화합니다.
- Content Loss: Content LoRA는 컨텐츠 이미지를 복원하도록 학습합니다.
- Style Loss: Style LoRA는 스타일 이미지의 스타일만을 학습하며, Content LoRA의 가중치는 고정(Lock)된 상태에서 진행됩니다.
이 과정에서 Orthogonality Constraint가 적용되어 Content와 Style이 완전히 분리되도록 유도합니다.
활용성과 확장성
- 이 방식은 Stable Diffusion XL(SDXL) 기반으로 동작하며, Style LoRA만을 활용해 새로운 이미지에 스타일을 적용할 수 있습니다.
- CFG와 같은 방식으로 스타일 강도를 세밀하게 조절할 수 있어 실용성이 높습니다.
- LoRA 기반의 구조이므로 다른 확장 모델(예: FLUX)과의 호환성도 충분히 예상됩니다.
개인적인 평가
이 논문은 단순한 Fine-tuning을 넘어서, 스타일과 내용을 명확히 분리하는 새로운 접근법을 제시했습니다. 특히 Dual LoRA와 Orthogonality Constraint의 결합은 Overfitting 문제를 해결하면서도 스타일 적용의 유연성을 극대화했습니다.
추가적으로 Style Guidance를 활용한 세밀한 제어는 Text-to-Image Personalization 연구에서 큰 발전이라고 생각됩니다.
Takeaway
- 기존의 한계: 단일 이미지에서 스타일과 내용이 섞이는 문제.
- 해결책: Content LoRA와 Style LoRA를 분리하여 학습 + Style Guidance를 통한 세밀한 스타일 적용.
- 의미: 스타일-내용의 완벽한 분리와 오버피팅 문제 해결.
추천할 만한 논문입니다. 이미지 커스터마이징과 스타일 학습에 관심이 있다면 꼭 살펴보시길 바랍니다.