본문 바로가기

컨퍼런스/ASIA SIGGRAPH 2024

[Hand and Human] Human4DiT: 360-degree Human Video Generation with 4D Diffusion Transformer

https://dl.acm.org/doi/10.1145/3687980

 

360-degree Human Video Generation with 4D Diffusion Transformer | ACM Transactions on Graphics

We present a novel approach for generating 360-degree high-quality, spatiotemporally coherent human videos from a single image. Our framework combines the strengths of diffusion transformers for capturing global correlations across viewpoints and time, ...

dl.acm.org

1. 간단한 요약 및 소개

Human4DiT는 단일 이미지에서 시작해 360도 인간 비디오를 생성할 수 있는 4D Diffusion Transformer를 제안합니다. 이 모델은 공간적, 시간적, 시점 변화를 모두 통합적으로 학습하며, 고품질의 인간 비디오를 생성합니다.

2. 기존 문제점

  • 기존 GAN 및 CNN 기반 비디오 생성 모델은 텍스처 및 시간적 일관성이 부족하고, 뷰포인트 제어가 어려웠습니다.
  • 특히 360도 뷰에서 시점 간의 일관성을 유지하지 못하거나, 움직임이 복잡할 경우 왜곡이 발생했습니다.

3. 해결법

  • 4D Diffusion Transformer: 2D 이미지, 시점(View), 시간(Temporal)의 Transformer 블록을 결합해 4차원 데이터를 효율적으로 학습.
  • SMPL 모델 기반 제어: 3D 신체 구조 데이터를 기반으로 움직임과 시점을 세밀히 조정.
  • 효율적 샘플링 전략: 공간 및 시간 창(window)을 분리해 샘플링하여 메모리 사용량을 줄이고 일관성을 보장.

4. 기여

  • 혁신적 아키텍처: Transformer를 활용해 4D 공간의 글로벌 및 지역 정보를 학습.
  • 고품질 생성: PSNR, SSIM 등 주요 지표에서 기존 모델을 능가하며, 사실적이고 일관된 360도 비디오 생성.
  • 다중 데이터 학습: 2D 이미지, 비디오, 멀티뷰 비디오, 3D 및 4D 데이터셋을 통합해 학습.

5. 한계 및 개인적 생각

  • 계산 비용: 고성능 GPU 자원이 요구되며, 학습 속도가 느림.
  • 세부 표현 한계: 얼굴, 손과 같은 작은 디테일에서 아티팩트 발생.
  • 배경 다이내믹스: 정적 배경 데이터에 의존해 복잡한 배경 변화를 학습하지 못함.
  • 개인적으로 VR/AR, 영화 제작 등 다양한 응용 가능성은 흥미롭지만, 더 다양한 데이터셋과 최적화가 필요하다고 생각합니다.

논문 요약: Human4DIT: 360-Degree Human Video Generation with 4D Diffusion Transformer 이 논문은 **4D Diffusion Transformer (4D DiT)**를 사용하여 단일 이미지로부터 고품질의 360도 인체 영상을 생성하는 새로운 접근법을 제시합니다. 이 방법은 공간적(Spatial), 시간적(Temporal), 시점 (Viewpoint)의 4차원 데이터를 통합적으로 처리하여 기존 방식의 한계를 극복하고자 합니다. 주요 기여: 1. 4D Diffusion Transformer: * \*\*2D 이미지, 시점(View), 시간(Temporal)\*\*의 세 가지 Transformer 블록을 계층적으로 결합하여 4D 데이터를 효율적으로 학습. * 다중 시점 간의 상관관계를 처리하며, 공간-시간적 일관성을 유지. 2. 컨트롤 모듈: * SMPL 모델: 3D 신체 구조를 기반으로 모션 정보를 제어. * 카메라 제어: 카메라 매개변수(위치, 방향)를 통해 다양한 시점을 생성. * Temporal 및 Identity Embedding: 시간적 신호와 인물의 정체성을 Transformer에 통합. 3. 다중 차원 데이터셋 및 학습 전략: * 단일 이미지, 비디오, 다중 시점 비디오, 3D 스캔 데이터를 포함한 대규모 데이터셋으로 학습. * 데이터 유형에 따라 Transformer의 특정 블록만 학습하는 효율적 학습 전략 제안. 4. 효율적 샘플링 전략: * 공간 및 시간의 창(Window)을 나누어 샘플링하여 메모리 사용량을 줄이고 360도 비디오에서의 일관성을 보장. 강점 1. Transformer 기반 혁신: • U-Net 대신 Transformer를 활용해 전역(Global) 및 지역(Local) 정보를 모두 처리. • 특히 4D 공간에서의 상호작용을 효과적으로 모델링. • 다양한 데이터 형식 통합: • 2D, 3D, 4D 데이터를 모두 학습하여 높은 일반화 성능 확보. • 단일 이미지에서 360도 비디오를 생성할 수 있는 독창적 접근법. • 높은 품질의 생성 결과: • 기존 GAN 및 Diffusion 기반 모델을 뛰어넘는 세부 묘사와 일관성. • 다양한 실험에서 PSNR, SSIM, LPIPS, FVD와 같은 지표에서 우수한 성능. • 확장 가능성: • VR/AR, 영화 제작, 게임 디자인 등 다양한 응용 가능성. 약점 • 복잡성 및 계산 비용: • Transformer의 고비용 연산으로 인해 학습 및 추론 속도가 느림. • GPU 리소스 요구량이 높아 대규모 데이터셋 훈련에 제약. • 제한된 세부 표현: • 얼굴이나 손과 같은 작은 부분의 디테일 재현에 한계. • 배경 다이나믹스 모델링이 부족. • 4D 표현의 암묵적 한계: • 명시적 4D 모델이 아니라 Attention을 통해 암묵적으로 4D 정보를 학습. • 일부 복잡한 시점 이동에서 인공물이 발생. • 데이터셋의 한계: • 정적 배경을 가진 데이터에 의존해 동적 배경 학습이 어려움. 발표자에게 질문할 거리 1. 계산 비용 문제: • Transformer 기반 4D 모델에서 연산 속도와 메모리 요구 사항을 줄이기 위한 최적화 방법이 있나요? 2. 작은 구조의 디테일 개선: • 손, 얼굴과 같은 작은 구조를 더 정교하게 모델링하기 위한 계획은 무엇인가요? 3. 다양한 데이터셋 활용: • 현재 데이터셋이 정적 배경에 한정되어 있는데, 동적 배경이나 더 복잡한 환경에서 모델을 확장할 계획이 있나요? 4. 4D 표현의 명시적 모델링: • 암묵적 4D 표현 대신 명시적 4D 모델링으로의 전환 가능성은 무엇인가요? 5. 응용 분야: • 이 기술이 VR/AR 외의 의료, 스포츠 분석, 엔터테인먼트 등 다른 분야에 어떻게 적용될 수 있나요?