https://dl.acm.org/doi/10.1145/3680528.3687662
MoA: Mixture-of-Attention for Subject-Context Disentanglement
시그라프 아시아 2024에서 흥미롭게 들었던 논문 중 하나는 **"MoA: Mixture-of-Attention for Subject-Context Disentanglement in Personalized Image Generation"**입니다. 처음에는 Loss 구조에 집중해서 이해했지만, 논문을 다시 검토하면서 핵심이 다른 곳에 있다는 것을 깨달았습니다.
기존 Personalized Image Generation의 문제
기존 Text-to-Image 모델들은 **주제(Subject)**와 **맥락(Context)**을 구분하지 못하고 함께 학습해버리는 경우가 많습니다. 예를 들어, 특정 인물이나 객체를 학습하려고 하면 배경과 같이 엉뚱한 부분까지 모델이 학습해버려, 새로운 장면에 해당 주제를 자연스럽게 삽입하지 못하는 문제가 발생합니다.
해결책: Mixture-of-Attention (MoA)
MoA는 기존의 Attention 구조를 개선하기 위해 **Mixture-of-Experts (MoE)**에서 영감을 받아 두 개의 Attention Branch를 도입했습니다:
- Prior Branch:
- 기존 모델의 고정된 Attention 레이어를 사용하여 맥락(Context)을 유지합니다.
- Stable Diffusion의 기존 학습된 지식을 활용합니다.
- Personalization Branch:
- 학습 가능한 Attention 레이어를 추가하여 **주제(Subject)**에 대한 학습을 진행합니다.
- 객체나 특정 인물과 같은 새로운 주제에 대한 표현 능력을 개선합니다.
- Router:
- 두 Branch의 출력을 픽셀 단위로 동적으로 조합합니다.
- 이를 통해 주제와 배경을 자연스럽게 분리하고 동시에 융합할 수 있습니다.
Loss 구조와 핵심 요소
발표 당시 Loss 구조(Denoising Loss, Router Loss, Object Loss 등)가 강조되었지만, 논문을 다시 보니 핵심은 Router의 역할과 Attention Disentanglement에 있었습니다.
- Router Loss: 각 픽셀에 대해 Prior와 Personalization의 비중을 조절합니다.
- Object Loss: AI 기반 분석을 통해 추출된 Ground Truth를 사용해 주제 학습을 보완합니다.
이 과정에서 Pseudo-word Embedding을 활용해 이미지 내에서 특정 객체(Subject)를 강조하는 방식이 중요한 역할을 합니다. 결과적으로 주제와 배경이 명확하게 분리된 고품질 이미지를 생성할 수 있었습니다.
활용성과 확장성
MoA는 Stable Diffusion 기반으로 동작하지만, 최근 모델인 FLUX에도 적용이 가능하다고 발표자가 언급했습니다. 데모에서 보여준 앱에서는 다음과 같은 성능이 눈에 띄었습니다:
- Disentanglement: 주제와 배경이 완전히 분리된 이미지 생성
- Multi-Subject Composition: 여러 객체를 새로운 배경과 자연스럽게 결합
개인적 시사점
MoA는 단순히 Loss 설계를 개선하는 논문이 아니라, Attention 구조를 혁신적으로 재구성함으로써 주제와 맥락을 분리하는 새로운 방법을 제시했습니다. 특히 Router의 역할과 Pseudo-word Embedding을 통해 주제 학습을 정교하게 조정한 점이 흥미로웠습니다.
Takeaway
- 기존 문제: 주제와 배경의 학습이 섞이는 문제
- 해결책: Mixture-of-Attention 구조를 활용한 Subject-Context Disentanglement
- 핵심: 두 Attention Branch와 Router의 동적 결합 + Pseudo-word Embedding
개인화된 이미지 생성과 주제 분리에 관심이 있다면 이 논문은 꼭 살펴볼 가치가 있습니다.