[Make it Yours - Customizing Image Generation] MoA: Mixture-of-Attention for Subject-Context Disentanglement in Personalized Image Generation

https://dl.acm.org/doi/10.1145/3680528.3687662

MoA: Mixture-of-Attention for Subject-Context Disentanglement in Personalized Image Generation | SIGGRAPH Asia 2024 Conference P

Publication History Published: 03 December 2024

dl.acm.org

MoA: Mixture-of-Attention for Subject-Context Disentanglement

시그라프 아시아 2024에서 흥미롭게 들었던 논문 중 하나는 **"MoA: Mixture-of-Attention for Subject-Context Disentanglement in Personalized Image Generation"**입니다. 처음에는 Loss 구조에 집중해서 이해했지만, 논문을 다시 검토하면서 핵심이 다른 곳에 있다는 것을 깨달았습니다.

기존 Personalized Image Generation의 문제

기존 Text-to-Image 모델들은 **주제(Subject)**와 **맥락(Context)**을 구분하지 못하고 함께 학습해버리는 경우가 많습니다. 예를 들어, 특정 인물이나 객체를 학습하려고 하면 배경과 같이 엉뚱한 부분까지 모델이 학습해버려, 새로운 장면에 해당 주제를 자연스럽게 삽입하지 못하는 문제가 발생합니다.

해결책: Mixture-of-Attention (MoA)

MoA는 기존의 Attention 구조를 개선하기 위해 **Mixture-of-Experts (MoE)**에서 영감을 받아 두 개의 Attention Branch를 도입했습니다:

Prior Branch:
- 기존 모델의 고정된 Attention 레이어를 사용하여 맥락(Context)을 유지합니다.
- Stable Diffusion의 기존 학습된 지식을 활용합니다.
Personalization Branch:
- 학습 가능한 Attention 레이어를 추가하여 **주제(Subject)**에 대한 학습을 진행합니다.
- 객체나 특정 인물과 같은 새로운 주제에 대한 표현 능력을 개선합니다.
Router:
- 두 Branch의 출력을 픽셀 단위로 동적으로 조합합니다.
- 이를 통해 주제와 배경을 자연스럽게 분리하고 동시에 융합할 수 있습니다.

Loss 구조와 핵심 요소

발표 당시 Loss 구조(Denoising Loss, Router Loss, Object Loss 등)가 강조되었지만, 논문을 다시 보니 핵심은 Router의 역할과 Attention Disentanglement에 있었습니다.

Router Loss: 각 픽셀에 대해 Prior와 Personalization의 비중을 조절합니다.
Object Loss: AI 기반 분석을 통해 추출된 Ground Truth를 사용해 주제 학습을 보완합니다.

이 과정에서 Pseudo-word Embedding을 활용해 이미지 내에서 특정 객체(Subject)를 강조하는 방식이 중요한 역할을 합니다. 결과적으로 주제와 배경이 명확하게 분리된 고품질 이미지를 생성할 수 있었습니다.

활용성과 확장성

MoA는 Stable Diffusion 기반으로 동작하지만, 최근 모델인 FLUX에도 적용이 가능하다고 발표자가 언급했습니다. 데모에서 보여준 앱에서는 다음과 같은 성능이 눈에 띄었습니다:

Disentanglement: 주제와 배경이 완전히 분리된 이미지 생성
Multi-Subject Composition: 여러 객체를 새로운 배경과 자연스럽게 결합

개인적 시사점

MoA는 단순히 Loss 설계를 개선하는 논문이 아니라, Attention 구조를 혁신적으로 재구성함으로써 주제와 맥락을 분리하는 새로운 방법을 제시했습니다. 특히 Router의 역할과 Pseudo-word Embedding을 통해 주제 학습을 정교하게 조정한 점이 흥미로웠습니다.

Takeaway

기존 문제: 주제와 배경의 학습이 섞이는 문제
해결책: Mixture-of-Attention 구조를 활용한 Subject-Context Disentanglement
핵심: 두 Attention Branch와 Router의 동적 결합 + Pseudo-word Embedding

개인화된 이미지 생성과 주제 분리에 관심이 있다면 이 논문은 꼭 살펴볼 가치가 있습니다.

'컨퍼런스 > ASIA SIGGRAPH 2024' 카테고리의 다른 글

[Make it Yours - Customizing Image Generation] Identity-Preserving Face Swapping via Dual Surrogate Generative Models (0)	2024.12.18
[Make it Yours - Customizing Image Generation] Customizing Text-to-Image Diffusion with Object Viewpoint Control (0)	2024.12.18
[Make it Yours - Customizing Image Generation] Customizing Text-to-Image Models with a Single Image Pair (0)	2024.12.17
[Make it Yours - Customizing Image Generation] PALP: Prompt Aligned Personalization of Text-to-Image Models (0)	2024.12.17
[Make it Yours - Customizing Image Generation] ReVersion: Diffusion-Based Relation Inversion from Images (0)	2024.12.17

JunHan's AI Factory

[Make it Yours - Customizing Image Generation] MoA: Mixture-of-Attention for Subject-Context Disentanglement in Personalized Image Generation

MoA: Mixture-of-Attention for Subject-Context Disentanglement

기존 Personalized Image Generation의 문제

해결책: Mixture-of-Attention (MoA)

Loss 구조와 핵심 요소

활용성과 확장성

개인적 시사점

Takeaway

'컨퍼런스 > ASIA SIGGRAPH 2024' 카테고리의 다른 글

티스토리툴바

[Make it Yours - Customizing Image Generation] MoA: Mixture-of-Attention for Subject-Context Disentanglement in Personalized Image Generation

MoA: Mixture-of-Attention for Subject-Context Disentanglement

기존 Personalized Image Generation의 문제

해결책: Mixture-of-Attention (MoA)

Loss 구조와 핵심 요소

활용성과 확장성

개인적 시사점

Takeaway

'컨퍼런스 > ASIA SIGGRAPH 2024' 카테고리의 다른 글

'컨퍼런스/ASIA SIGGRAPH 2024' Related Articles

티스토리툴바