본문 바로가기

컨퍼런스/ASIA SIGGRAPH 2024

[Make it Yours - Customizing Image Generation] ReVersion: Diffusion-Based Relation Inversion from Images

https://dl.acm.org/doi/10.1145/3680528.3687658

 

ReVersion: Diffusion-Based Relation Inversion from Images | SIGGRAPH Asia 2024 Conference Papers

Publication History Published: 03 December 2024

dl.acm.org

ReVersion: Diffusion-Based Relation Inversion from Images

시그라프 아시아 2024에서 흥미롭게 들었던 논문 중 하나는 **"ReVersion: Diffusion-Based Relation Inversion from Images"**입니다. 발표에서는 다양한 Loss에 대해 설명했지만, 논문을 다시 검토하면서 관계 표현과 학습 방식이 핵심이라는 것을 깨달았습니다.


기존 방식의 한계

기존 Text-to-Image 모델들은 이미지 내 객체 간의 **관계(Relation)**를 명확하게 표현하지 못하고, 단순히 객체의 형태나 스타일에 집중하는 경향이 있었습니다.


ReVersion의 핵심 아이디어

ReVersion은 Diffusion 모델의 Latent 공간을 활용해 이미지 내 객체 간의 관계를 학습하는 새로운 접근법을 제안합니다.

  1. Pseudo-word Embedding:
    • 관계 표현을 위해 Prepositions(전치사, 예: "on", "beside")을 활성화시킵니다.
    • 이를 통해 객체 간의 상대적 위치나 관계를 단어 단위로 매핑합니다.
  2. Relation Inversion:
    • Diffusion 모델의 Latent 공간에서 **관계를 역추론(Invert)**하는 과정을 통해 관계를 학습하고 다시 이미지 생성에 반영합니다.
  3. Loss 구조:
    • Contrastive Loss: 객체 간 관계를 구별하고 일관되게 유지합니다.
    • Latent Reconstruction Loss: 관계가 유지된 상태에서 Latent 공간을 복원합니다.

주목할 점: Activated Prepositions

저자와의 대화에서 알게 된 점인데, 이 논문의 핵심은 Activated Prepositions를 활용해 관계를 효율적으로 학습한다는 것입니다.

  • 단순히 Loss를 최적화하는 것이 아니라, 관계 표현 자체를 텍스트 임베딩 공간에서 활성화시켜 학습하는 방식이 중요합니다.

개인적인 시사점

ReVersion은 기존 모델들이 놓쳤던 관계 표현에 집중한 점이 인상적이었습니다. 특히 Pseudo-word EmbeddingActivated Prepositions는 텍스트-이미지 간 일관성을 높이는 핵심 기술로 보입니다.

관계 중심의 이미지 생성이나 Text-to-Image Personalization에 관심이 있다면 이 논문은 꼭 살펴보시길 추천합니다.


Takeaway

  • 기존 문제: 객체 간 관계 표현의 부족
  • 해결책: Relation InversionActivated Prepositions를 통한 관계 학습
  • 핵심: Diffusion 모델의 Latent 공간을 활용해 관계를 텍스트로 표현하고 학습