https://dl.acm.org/doi/10.1145/3680528.3687658
ReVersion: Diffusion-Based Relation Inversion from Images
시그라프 아시아 2024에서 흥미롭게 들었던 논문 중 하나는 **"ReVersion: Diffusion-Based Relation Inversion from Images"**입니다. 발표에서는 다양한 Loss에 대해 설명했지만, 논문을 다시 검토하면서 관계 표현과 학습 방식이 핵심이라는 것을 깨달았습니다.
기존 방식의 한계
기존 Text-to-Image 모델들은 이미지 내 객체 간의 **관계(Relation)**를 명확하게 표현하지 못하고, 단순히 객체의 형태나 스타일에 집중하는 경향이 있었습니다.
ReVersion의 핵심 아이디어
ReVersion은 Diffusion 모델의 Latent 공간을 활용해 이미지 내 객체 간의 관계를 학습하는 새로운 접근법을 제안합니다.
- Pseudo-word Embedding:
- 관계 표현을 위해 Prepositions(전치사, 예: "on", "beside")을 활성화시킵니다.
- 이를 통해 객체 간의 상대적 위치나 관계를 단어 단위로 매핑합니다.
- Relation Inversion:
- Diffusion 모델의 Latent 공간에서 **관계를 역추론(Invert)**하는 과정을 통해 관계를 학습하고 다시 이미지 생성에 반영합니다.
- Loss 구조:
- Contrastive Loss: 객체 간 관계를 구별하고 일관되게 유지합니다.
- Latent Reconstruction Loss: 관계가 유지된 상태에서 Latent 공간을 복원합니다.
주목할 점: Activated Prepositions
저자와의 대화에서 알게 된 점인데, 이 논문의 핵심은 Activated Prepositions를 활용해 관계를 효율적으로 학습한다는 것입니다.
- 단순히 Loss를 최적화하는 것이 아니라, 관계 표현 자체를 텍스트 임베딩 공간에서 활성화시켜 학습하는 방식이 중요합니다.
개인적인 시사점
ReVersion은 기존 모델들이 놓쳤던 관계 표현에 집중한 점이 인상적이었습니다. 특히 Pseudo-word Embedding과 Activated Prepositions는 텍스트-이미지 간 일관성을 높이는 핵심 기술로 보입니다.
관계 중심의 이미지 생성이나 Text-to-Image Personalization에 관심이 있다면 이 논문은 꼭 살펴보시길 추천합니다.
Takeaway
- 기존 문제: 객체 간 관계 표현의 부족
- 해결책: Relation Inversion과 Activated Prepositions를 통한 관계 학습
- 핵심: Diffusion 모델의 Latent 공간을 활용해 관계를 텍스트로 표현하고 학습