https://dl.acm.org/doi/10.1145/3680528.3687564
이 논문은 **3D 객체의 시점(Viewpoint)**을 제어하면서도 Text-to-Image Diffusion 모델을 커스터마이징하는 방법을 제시합니다. 기존 2D 기반 모델이 시점 제어에 한계를 보인다는 점을 개선한 것이 핵심입니다.
핵심 기술
- FeatureNeRF:
- 다수의 이미지 시점 데이터를 학습해 3D Latent Feature를 생성합니다.
- 이를 통해 Diffusion 모델이 원하는 시점(Viewpoint)에서 객체를 렌더링할 수 있습니다.
- Pose-Conditioned Transformer:
- 객체의 시점 조건(예: 카메라 각도)을 Transformer 레이어에 추가합니다.
- Text Prompt와 함께 시점 정보를 조건으로 활용해 3D 시점 제어를 가능하게 합니다.
한계와 개선점
- Focal Length와 Vertical Translation:
- 특정 시점의 정확도가 부족하며, 복잡한 Extreme Viewpoints에서는 성능 저하가 발생합니다.
- 학습하지 않은 시점:
- 학습된 시점 근처에서는 좋은 성능을 보이지만, 완전히 학습되지 않은 시점에 대한 일반화는 여전히 한계가 있습니다.
보완 아이디어
현재 방식은 다중 시점 데이터에 의존하기 때문에, 단일 이미지에서 3D를 생성하는 모델과 결합한다면 더 적은 데이터로 일반화된 성능을 기대할 수 있습니다. 구글이었나, NeurIPS 2024의 논문처럼 단일 이미지 기반 3D 생성 모델과의 결합은 흥미로운 연구 방향이 될 수 있습니다.
개인적 평가
이 논문은 3D 시점 제어를 Diffusion 모델에 적용한 점이 인상적이었으며, 특히 FeatureNeRF와 Pose-Conditioned Transformer의 결합은 실용적입니다. 다만, 아직 극단적인 시점이나 일반화된 성능에 대한 개선이 필요해 보입니다.
Takeaway
- 기존 문제: 2D 기반 모델의 시점 제어 한계
- 해결책: FeatureNeRF와 Pose-Conditioned Transformer로 3D 객체 시점 제어 구현
- 한계: Focal Length와 Vertical Translation에 대한 성능 저하