본문 바로가기

컨퍼런스/ASIA SIGGRAPH 2024

[Make it Yours - Customizing Image Generation] MoA: Mixture-of-Attention for Subject-Context Disentanglement in Personalized Image Generation

https://dl.acm.org/doi/10.1145/3680528.3687662

 

MoA: Mixture-of-Attention for Subject-Context Disentanglement in Personalized Image Generation | SIGGRAPH Asia 2024 Conference P

Publication History Published: 03 December 2024

dl.acm.org

MoA: Mixture-of-Attention for Subject-Context Disentanglement

시그라프 아시아 2024에서 흥미롭게 들었던 논문 중 하나는 **"MoA: Mixture-of-Attention for Subject-Context Disentanglement in Personalized Image Generation"**입니다. 처음에는 Loss 구조에 집중해서 이해했지만, 논문을 다시 검토하면서 핵심이 다른 곳에 있다는 것을 깨달았습니다.


기존 Personalized Image Generation의 문제

기존 Text-to-Image 모델들은 **주제(Subject)**와 **맥락(Context)**을 구분하지 못하고 함께 학습해버리는 경우가 많습니다. 예를 들어, 특정 인물이나 객체를 학습하려고 하면 배경과 같이 엉뚱한 부분까지 모델이 학습해버려, 새로운 장면에 해당 주제를 자연스럽게 삽입하지 못하는 문제가 발생합니다.


해결책: Mixture-of-Attention (MoA)

MoA는 기존의 Attention 구조를 개선하기 위해 **Mixture-of-Experts (MoE)**에서 영감을 받아 두 개의 Attention Branch를 도입했습니다:

  1. Prior Branch:
    • 기존 모델의 고정된 Attention 레이어를 사용하여 맥락(Context)을 유지합니다.
    • Stable Diffusion의 기존 학습된 지식을 활용합니다.
  2. Personalization Branch:
    • 학습 가능한 Attention 레이어를 추가하여 **주제(Subject)**에 대한 학습을 진행합니다.
    • 객체나 특정 인물과 같은 새로운 주제에 대한 표현 능력을 개선합니다.
  3. Router:
    • 두 Branch의 출력을 픽셀 단위로 동적으로 조합합니다.
    • 이를 통해 주제와 배경을 자연스럽게 분리하고 동시에 융합할 수 있습니다.


Loss 구조와 핵심 요소

발표 당시 Loss 구조(Denoising Loss, Router Loss, Object Loss 등)가 강조되었지만, 논문을 다시 보니 핵심은 Router의 역할과 Attention Disentanglement에 있었습니다.

  • Router Loss: 각 픽셀에 대해 Prior와 Personalization의 비중을 조절합니다.
  • Object Loss: AI 기반 분석을 통해 추출된 Ground Truth를 사용해 주제 학습을 보완합니다.

이 과정에서 Pseudo-word Embedding을 활용해 이미지 내에서 특정 객체(Subject)를 강조하는 방식이 중요한 역할을 합니다. 결과적으로 주제와 배경이 명확하게 분리된 고품질 이미지를 생성할 수 있었습니다.


활용성과 확장성

MoA는 Stable Diffusion 기반으로 동작하지만, 최근 모델인 FLUX에도 적용이 가능하다고 발표자가 언급했습니다. 데모에서 보여준 앱에서는 다음과 같은 성능이 눈에 띄었습니다:

  1. Disentanglement: 주제와 배경이 완전히 분리된 이미지 생성
  2. Multi-Subject Composition: 여러 객체를 새로운 배경과 자연스럽게 결합

개인적 시사점

MoA는 단순히 Loss 설계를 개선하는 논문이 아니라, Attention 구조를 혁신적으로 재구성함으로써 주제와 맥락을 분리하는 새로운 방법을 제시했습니다. 특히 Router의 역할Pseudo-word Embedding을 통해 주제 학습을 정교하게 조정한 점이 흥미로웠습니다.


Takeaway

  • 기존 문제: 주제와 배경의 학습이 섞이는 문제
  • 해결책: Mixture-of-Attention 구조를 활용한 Subject-Context Disentanglement
  • 핵심: 두 Attention Branch와 Router의 동적 결합 + Pseudo-word Embedding

개인화된 이미지 생성과 주제 분리에 관심이 있다면 이 논문은 꼭 살펴볼 가치가 있습니다.