본문 바로가기

컨퍼런스/ASIA SIGGRAPH 2024

[Make it Yours - Customizing Image Generation] Customizing Text-to-Image Diffusion with Object Viewpoint Control

https://dl.acm.org/doi/10.1145/3680528.3687564

 

Customizing Text-to-Image Diffusion with Object Viewpoint Control | SIGGRAPH Asia 2024 Conference Papers

Publication History Published: 03 December 2024

dl.acm.org

이 논문은 **3D 객체의 시점(Viewpoint)**을 제어하면서도 Text-to-Image Diffusion 모델을 커스터마이징하는 방법을 제시합니다. 기존 2D 기반 모델이 시점 제어에 한계를 보인다는 점을 개선한 것이 핵심입니다.


핵심 기술

  1. FeatureNeRF:
    • 다수의 이미지 시점 데이터를 학습해 3D Latent Feature를 생성합니다.
    • 이를 통해 Diffusion 모델이 원하는 시점(Viewpoint)에서 객체를 렌더링할 수 있습니다.
  2. Pose-Conditioned Transformer:
    • 객체의 시점 조건(예: 카메라 각도)을 Transformer 레이어에 추가합니다.
    • Text Prompt와 함께 시점 정보를 조건으로 활용해 3D 시점 제어를 가능하게 합니다.

한계와 개선점

  • Focal Length와 Vertical Translation:
    • 특정 시점의 정확도가 부족하며, 복잡한 Extreme Viewpoints에서는 성능 저하가 발생합니다.
  • 학습하지 않은 시점:
    • 학습된 시점 근처에서는 좋은 성능을 보이지만, 완전히 학습되지 않은 시점에 대한 일반화는 여전히 한계가 있습니다.

보완 아이디어

현재 방식은 다중 시점 데이터에 의존하기 때문에, 단일 이미지에서 3D를 생성하는 모델과 결합한다면 더 적은 데이터로 일반화된 성능을 기대할 수 있습니다. 구글이었나, NeurIPS 2024의 논문처럼 단일 이미지 기반 3D 생성 모델과의 결합은 흥미로운 연구 방향이 될 수 있습니다.


개인적 평가

이 논문은 3D 시점 제어를 Diffusion 모델에 적용한 점이 인상적이었으며, 특히 FeatureNeRF와 Pose-Conditioned Transformer의 결합은 실용적입니다. 다만, 아직 극단적인 시점이나 일반화된 성능에 대한 개선이 필요해 보입니다.


Takeaway

  • 기존 문제: 2D 기반 모델의 시점 제어 한계
  • 해결책: FeatureNeRFPose-Conditioned Transformer로 3D 객체 시점 제어 구현
  • 한계: Focal Length와 Vertical Translation에 대한 성능 저하