[Make it Yours - Customizing Image Generation] Customizing Text-to-Image Models with a Single Image Pair

https://dl.acm.org/doi/10.1145/3680528.3687642

Customizing Text-to-Image Models with a Single Image Pair | SIGGRAPH Asia 2024 Conference Papers

Publication History Published: 03 December 2024

dl.acm.org

Customizing Text-to-Image Models with a Single Image Pair

시그라프 아시아 2024에서 주목했던 논문 중 하나는 **"Customizing Text-to-Image Models with a Single Image Pair"**입니다. 이 논문은 스타일과 내용의 분리라는 오래된 문제를 효율적으로 해결하는 Dual LoRA 구조를 제안했습니다.

기존 방식의 한계: Overfitting 문제

기존 Text-to-Image 모델들은 스타일을 학습할 때 단일 이미지에 Overfitting되는 문제가 있었습니다. 예를 들어:

스타일과 내용이 혼재되어 스타일만 학습하려 해도 원본 이미지의 주제(Subject)나 구조까지 함께 학습되어버립니다.
그 결과 내용의 구조를 유지하지 못하거나, 새로운 컨텐츠에 스타일을 적용할 때도 오버피팅이 발생합니다.

해결책: Dual LoRA 구조

이 논문은 **Low-Rank Adaptation (LoRA)**을 활용해 Style과 Content를 명확히 분리하는 구조를 제안했습니다.

Content LoRA:
- 이미지의 구조와 내용을 학습합니다.
- 이를 통해 원본 이미지의 레이아웃과 형태를 유지합니다.
Style LoRA:
- 스타일만을 학습하도록 분리합니다.
- 이 과정에서 Content LoRA의 영향을 받지 않도록 Orthogonality Constraint(직교 제약)를 적용해 두 LoRA가 독립적으로 학습되게 만듭니다.
Style Guidance:
- 기존 LoRA Scale 대신 Style Guidance를 도입해 스타일 강도를 더 세밀하게 제어할 수 있습니다.
- 이는 **Classifier-Free Guidance (CFG)**와 유사하지만, Style LoRA의 출력을 활용해 스타일과 구조의 균형을 조절합니다.

학습 과정: Joint Optimization

학습은 Content → Style 순서로 진행되며, 각 LoRA는 서로 다른 Loss를 최적화합니다.

Content Loss: Content LoRA는 컨텐츠 이미지를 복원하도록 학습합니다.
Style Loss: Style LoRA는 스타일 이미지의 스타일만을 학습하며, Content LoRA의 가중치는 고정(Lock)된 상태에서 진행됩니다.

이 과정에서 Orthogonality Constraint가 적용되어 Content와 Style이 완전히 분리되도록 유도합니다.

활용성과 확장성

이 방식은 Stable Diffusion XL(SDXL) 기반으로 동작하며, Style LoRA만을 활용해 새로운 이미지에 스타일을 적용할 수 있습니다.
CFG와 같은 방식으로 스타일 강도를 세밀하게 조절할 수 있어 실용성이 높습니다.
LoRA 기반의 구조이므로 다른 확장 모델(예: FLUX)과의 호환성도 충분히 예상됩니다.

개인적인 평가

이 논문은 단순한 Fine-tuning을 넘어서, 스타일과 내용을 명확히 분리하는 새로운 접근법을 제시했습니다. 특히 Dual LoRA와 Orthogonality Constraint의 결합은 Overfitting 문제를 해결하면서도 스타일 적용의 유연성을 극대화했습니다.

추가적으로 Style Guidance를 활용한 세밀한 제어는 Text-to-Image Personalization 연구에서 큰 발전이라고 생각됩니다.

Takeaway

기존의 한계: 단일 이미지에서 스타일과 내용이 섞이는 문제.
해결책: Content LoRA와 Style LoRA를 분리하여 학습 + Style Guidance를 통한 세밀한 스타일 적용.
의미: 스타일-내용의 완벽한 분리와 오버피팅 문제 해결.

추천할 만한 논문입니다. 이미지 커스터마이징과 스타일 학습에 관심이 있다면 꼭 살펴보시길 바랍니다.

'컨퍼런스 > ASIA SIGGRAPH 2024' 카테고리의 다른 글

[Make it Yours - Customizing Image Generation] Identity-Preserving Face Swapping via Dual Surrogate Generative Models (0)	2024.12.18
[Make it Yours - Customizing Image Generation] Customizing Text-to-Image Diffusion with Object Viewpoint Control (0)	2024.12.18
[Make it Yours - Customizing Image Generation] PALP: Prompt Aligned Personalization of Text-to-Image Models (0)	2024.12.17
[Make it Yours - Customizing Image Generation] ReVersion: Diffusion-Based Relation Inversion from Images (0)	2024.12.17
[Make it Yours - Customizing Image Generation] MoA: Mixture-of-Attention for Subject-Context Disentanglement in Personalized Image Generation (0)	2024.12.17

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

JunHan's AI Factory

[Make it Yours - Customizing Image Generation] Customizing Text-to-Image Models with a Single Image Pair

Customizing Text-to-Image Models with a Single Image Pair

기존 방식의 한계: Overfitting 문제

해결책: Dual LoRA 구조

학습 과정: Joint Optimization

활용성과 확장성

개인적인 평가

Takeaway

'컨퍼런스 > ASIA SIGGRAPH 2024' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

[Make it Yours - Customizing Image Generation] Customizing Text-to-Image Models with a Single Image Pair

Customizing Text-to-Image Models with a Single Image Pair

기존 방식의 한계: Overfitting 문제

해결책: Dual LoRA 구조

학습 과정: Joint Optimization

활용성과 확장성

개인적인 평가

Takeaway

'컨퍼런스 > ASIA SIGGRAPH 2024' 카테고리의 다른 글

'컨퍼런스/ASIA SIGGRAPH 2024' Related Articles

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역