MusicInfuser: Making Video Diffusion Listen and Dance

https://susunghong.github.io/MusicInfuser/

MusicInfuser: Making Video Diffusion Listen and Dance Please turn on your audio! 🔈 Comparison with Prior Work MusicInfuser infuses listening capability into the text-to-video model (Mochi) and produces dancing videos while preserving prompt adherence. Y

susunghong.github.io

본 논문에서는 지정된 음악 트랙과 동기화된 고품질의 춤 영상을 생성하는 방법인 MusicInfuser를 소개한다. 기존의 멀티모달 오디오-비디오 모델을 새로 설계하거나 훈련하는 대신, 본 연구는 이미 존재하는 비디오 확산 모델(video diffusion models)을 경량의 음악-비디오 교차 어텐션(cross-attention)과 저랭크 어댑터(low-rank adapter)를 활용하여 음악 입력과 정렬할 수 있도록 변형한다. 기존 연구들과 달리 모션 캡처(motion capture) 데이터가 아닌 오직 춤 영상만을 사용하여 모델을 파인튜닝한다. 이로써 MusicInfuser는 기본 모델의 유연성과 생성 능력을 유지하면서도 음악 기반의 고품질 영상 생성이 가능하다. 또한 본 연구에서는 비디오 기반 대형 언어 모델(Video-LLMs)을 이용한 평가 프레임워크를 도입하여 춤 생성의 다양한 품질 측면을 평가하였다. 프로젝트 페이지 및 코드는 다음 링크에서 확인 가능하다: https://susunghong.github.io/MusicInfuser

MusicInfuser: Making Video Diffusion Listen and Dance

susunghong.github.io

그림 1:
MusicInfuser는 비디오 확산 모델(video diffusion models)을 음악에 맞춰 적응시켜, 음악을 듣고 이에 따라 춤추는 영상을 생성하도록 만든다. 이러한 적응 과정은 기존 모델이 가진 표현 능력을 유지하는(prior-preserving) 방식으로 진행되어, 프롬프트를 통해 스타일을 지정하면서도 움직임을 음악에 동기화할 수 있다. 실제 움직임은 프레임 샘플링 속도로 인해 다소 느리게 보일 수 있으므로, 프로젝트 페이지의 예제 영상을 참고하기 바란다.

1. 서론

최근 주목받는 인공지능 기반 비디오 생성 도구들(예: Sora, Gen, Veo)은 대체로 소리가 없는 영상을 생성한다. 비디오 생성 후 음악을 별도로 추가할 수는 있지만, 특정 음악 트랙에 정확히 동기화된 움직임을 자동으로 생성하기는 어렵다. 일부 연구에서는 오디오와 비디오를 함께 생성하는 방법을 탐색하기 시작했으나[39], 해당 분야는 아직 초기 단계이며 더욱 크고 복잡한 멀티모달 모델(multi-modal models)의 학습이 요구된다.

본 논문에서는 사전 훈련된 텍스트-비디오 모델(Text-to-Video, T2V)을 음악 트랙에 맞춰 조건화(conditioning)하는 방법을 소개한다. MusicInfuser라고 이름 지은 본 기법은 입력된 음악과 동기화된 영상을 생성하며, 텍스트 프롬프트를 통해 영상의 스타일과 외형을 제어할 수 있게 해준다. 특히 춤을 추는 인물을 현실감 있게 생성하고 음악에 따라 움직임을 자연스럽게 조정 및 동기화하는 응용 사례에 중점을 둔다.

음악으로부터 춤 동작을 자동으로 생성하는 작업은 여러 측면에서 큰 어려움을 지닌다. 춤의 스타일과 비트, 그리고 동일한 자세에서 파생될 수 있는 여러 가지 가능한 움직임을 고려해야 하는 다중 양상(multimodal)의 성격을 동시에 처리해야 하기 때문이다[30]. 안무 원리(choreography principles)[48]는 춤 생성의 전산적 접근 방식에 영감을 주었으며, 그래프 기반 접근법[28, 12]에서부터 현대의 심층 신경망(deep neural networks) 기법[50, 51, 45]에 이르기까지 다양한 연구가 이루어져 왔다. 그러나 기존의 춤 생성 방법은 대부분 모션 캡처 데이터(motion capture data)[2]를 필요로 하여 자원 집약적이거나, 재구성된 움직임(reconstructed motions)을 사용하는 경우 부자연스러운 움직임과 떨림(jitter) 등의 문제를 자주 야기하였다[32, 2].

본 연구는 사전 훈련된 텍스트-비디오 모델(T2V)[44]이 생성한 비디오를 음악과 정렬(align)하는 방식으로 접근하여 기존 방식과 차별점을 둔다. MusicInfuser는 모션 캡처나 움직임 재구성을 요구하지 않고, 단지 춤을 담은 비디오 데이터만으로 학습을 수행한다. 구체적으로는 음악-비디오 교차 어텐션(music-video cross-attention) 모듈과 저랭크 어댑터(low-rank adapter)로 구성된 어댑터 네트워크를 제안하며, 이를 학습하기 위한 새로운 훈련 방식과, 서로 간의 큰 간극이 존재하는 여러 양상(modality)의 균형 있는 표현을 유지하기 위한 교차 어텐션 계층(layer) 선택 전략을 제시한다.

MusicInfuser는 비디오 확산 모델에 음악을 ‘들을’ 수 있는 능력을 부여하는 동시에, 텍스트 양상(text modality)에 축적된 풍부한 지식을 유지하므로 생성 과정을 유연하게 제어할 수 있는 인터페이스를 제공한다. 따라서 사용자는 여전히 텍스트 프롬프트를 통해 춤의 스타일, 배경, 미학적 요소를 자유롭게 지정하면서도, 움직임을 음악과 정확히 동기화시킬 수 있다(그림 1 참조). 나아가 제안된 프레임워크는 군무(group choreography, 그림 2 참조) 및 사전에 보지 못한 음악 트랙에 맞춘 긴 춤 영상(그림 3 참조)으로도 일반화할 수 있다. 결과를 체계적으로 평가하기 위해 우리는 영상, 음성 및 언어 정보를 동시에 처리할 수 있는 비디오 기반 대형 언어 모델(Video-LLMs)[31]을 활용한 자동 평가 프레임워크를 개발하였다. 이를 통해 춤 품질, 비디오 품질, 프롬프트와의 일치성 등 다양한 측면을 포괄적으로 평가할 수 있다.

본 실험 결과는 MusicInfuser가 특수한 움직임 데이터 없이 음악과 영상 간의 간극을 효과적으로 메워준다는 것을 보여준다. 기존 비디오 확산 모델의 표적화된 적응을 통해 음악의 리듬과 패턴에 자연스럽게 반응하는 고품질의 새로운 춤 동작을 생성할 수 있으며, 프롬프트에 대한 유연한 반응성도 갖추어 음악 기반 안무 생성 연구에 새로운 방향을 제시할 수 있음을 확인하였다.

2. 관련 연구

음악에서 춤 생성하기 (Music-to-Dance Generation)

초기 음악 기반 춤 생성 연구에서는 음악의 기본 요소를 춤 동작과 연결하는 프레임워크를 개발하여, 주로 은닉 마르코프 모델(Hidden Markov Models)을 활용하였다[35]. 이후의 그래프 기반 접근법에서는 품질 평가 함수(quality rating functions)와 제약 기반 동적 프로그래밍(constraint-based dynamic programming)을 통해 음악 비트에 맞춘 움직임 전이 그래프(movement transition graph)를 생성했다[28, 15]. 연구가 진행됨에 따라 가우시안 프로세스(Gaussian processes)[16], 조건부 제한 볼츠만 머신(Conditional Restricted Boltzmann Machines), 순환 신경망(Recurrent Neural Networks, RNN)[1], 컨볼루션 신경망(Convolutional Neural Networks, CNN)[50, 51] 등의 다양한 기법이 도입되었다. 최근에는 트랜스포머(transformer) 기반 접근법[50, 32]이 주목받고 있다. 예를 들어, 전체 어텐션 교차 모달 트랜스포머(Full-Attention Cross-Modal Transformer)는 초기 움직임과 오디오 정보를 바탕으로 춤 시퀀스를 예측한다[32]. 그러나 전통적 접근법은 비트에 맞춰진 움직임을 생성하지만, 움직임의 맥락적 의미가 부족하거나 반복이 과도한 경우가 많았고[3], 안무의 다양성(choreographic diversity)이 제한적이며[4], 일반화(generalization)에 어려움을 겪는다는 단점이 있었다. 최근의 춤 생성 연구는 기존 접근법의 한계를 극복하기 위해 확산 기반(diffusion-based) 방법으로 전환되고 있다[36, 2, 45, 37, 29]. 기존 확산 기반 방법이 음악을 기반으로 주로 동작 스켈레톤(motion skeleton)을 합성하는 데 집중한 것과 달리, 본 연구의 MusicInfuser는 미리 학습된 텍스트-비디오 확산 모델(text-to-video diffusion models)을 음악 입력에 맞춰 독창적으로 변형함으로써, 춤 영상과 안무를 직접 합성하는 한편 다양한 춤 스타일과 인간의 움직임에 대한 기존 모델의 지식을 유지한다.

제어 가능한 접근법 (Controllable Approaches)

춤 생성 시스템은 보다 풍부한 안무 제어를 위해 다양한 입력 양상(input modality)을 통합하는 방향으로 발전해 왔다[8, 34, 18]. 특히 텍스트는 별도의 학습 없이(zero-shot) 즉시 활용할 수 있으며, 안무 아이디어를 효율적으로 전달할 수 있는 강력한 인터페이스로 자리 잡았다[34]. 트랜스포머 기반 접근법 중 벡터 양자화 변분 오토인코더(Vector Quantized-Variational Autoencoder, VQ-VAE)를 활용하여 움직임을 이산화된 토큰으로 만들어 텍스트와 함께 처리하는 연구가 있었으며[41], 최근 시스템은 텍스트와 음악 입력을 동시에 처리하기도 한다[18]. 본 논문의 MusicInfuser 프레임워크는 텍스트 기반 인터페이스의 유연성과 정밀한 오디오 동기화를 결합하여, 사용자가 생성된 춤 영상의 스타일과 미적 요소를 프롬프트를 통해 제어하면서도 움직임이 음악적 특징에 정교하게 맞춰지도록 한다.

오디오 기반 비디오 생성 (Audio-to-Video Generation)

본 연구와 인접한 또 다른 분야로는 오디오 기반 비디오 생성(audio-driven video generation)이 있다. 이 분야의 초기 연구인 Sound2Sight[9]은 과거 프레임과 오디오 입력을 조건으로 미래 프레임을 예측하는 심층 변분 인코더-디코더 프레임워크를 처음으로 제안하였다. TATS[17]는 시간에 불변한(time-agnostic) VQGAN과 시간에 민감한(time-sensitive) 트랜스포머 구조를 결합하여 오디오-비디오 생성 문제를 해결하였다. 최근에는 확산 모델(diffusion models)의 발전[21, 42]을 바탕으로 MM-Diffusion[39]과 같은 오디오-비디오 공동 생성(joint audio-video generation) 방법들이 개발되었으며, 이는 오디오와 비디오 중 어느 양상이든 서로를 조건으로 하는 양방향(bidirectional) 생성을 가능하게 하였다.

그림 2:
비디오 및 텍스트 양상에 축적된 지식을 유지하기 때문에, 제안 모델은 프롬프트를 변경함으로써 그룹 댄스 영상(group dance videos)을 생성하는 방향으로 일반화된다. 이를 보여주기 위해 프롬프트는 "[DANCERS] dancing in a studio with a white backdrop, captured from a front view."로 설정되며, 여기서 [DANCERS]는 각각의 댄서 수에 따라 달라지는 설명을 의미한다.

그림 3:
훈련에 사용된 영상 길이보다 두 배 긴 춤 영상 생성 예시. 각 행의 영상은 AIST 데이터셋[46]에 존재하지 않는 "K-pop" 키워드를 사용한 합성된 실제 환경(in-the-wild) 음악 트랙과 "a professional dancer dancing K-pop..."이라는 프롬프트를 사용하여 생성하였다. 본 예시는 제안된 방법이 학습에 없던 새로운 음악 장르에도 뛰어난 일반화 능력을 가지며, 보다 긴 영상에도 적용 가능함을 보여준다. 실제로 음악과 춤 스타일의 정교한 동기화는 프로젝트 페이지의 예제 영상에서 더욱 명확하게 관찰할 수 있다.

3. 사전 지식

비디오 확산 모델 (Video Diffusion Models)

텍스트 조건부 생성 (Text-Conditional Generation)

4. MusicInfuser

텍스트-비디오 모델은 이미 춤을 알고 있다.

4.1. 영교차 어텐션(Zero-Initialized Cross-Attention, ZICA)

어텐션(attention) 메커니즘[47]은 확산 모델의 조건화를 효과적으로 수행할 수 있는 방법으로 알려져 있으며[38, 40], 교차(cross-attention)와 자기 어텐션(self-attention)은 생성된 이미지와 영상의 구조적 특성에 크게 기여한다[13, 23, 26, 40, 10, 19]. 우리는 본 프레임워크에서 음악의 정보를 조건화하기 위한 영교차 어텐션(ZICA) 어댑터를 제안하며, 이는 원본 모델의 능력을 그대로 보존하는 방식으로 설계된다.

그림 4:
MusicInfuser의 전체 구조. 제안된 프레임워크는 사전 훈련된 확산 모델을 기반으로 ZICA 블록(4.1절)과 HR-LoRA 블록(4.2절)을 활용해 오디오 임베딩을 모델에 통합한다. ZICA 블록의 위치는 레이어 적응성(layer adaptability)을 기반으로 선정된다(4.6절 참조).

4.2 더 높은 랭크를 이용한 저랭크 어댑터 (HR-LoRA: Low-Rank Adaptation with Higher Rank)

교차 어텐션(ZICA) 외에도 확산 모델의 트랜스포머 블록에 있는 어텐션 가중치(attention weights)를 별도로 적응시킨다. 이 어댑터(adapter)는 다음 두 가지 핵심 목적을 수행한다:

오디오 특성을 텍스트-비디오 처리 파이프라인에 효과적으로 통합하는 것
모델의 도메인을 명확한 안무(choreography) 생성이라는 목표 응용 분야로 전환시키는 것

시각 모델을 위한 기존의 LoRA(Low-Rank Adaptation) 기법[24]에서 일반적으로 사용되는 랭크(rank)는 보통 8 또는 16으로 설정되며, 이는 이미지 모델을 기준으로 최적화된 값이다. 그러나 영상 모델에 이 랭크를 직접 적용할 경우, 시공간(spatiotemporal) 정보가 가진 복잡성을 충분히 표현하지 못하는 문제를 겪게 된다.

비디오 토큰(video tokens)은 이미지 토큰(image tokens)과 달리 시간적(temporal) 정보를 포함하므로, 보다 높은 랭크가 필요하다. 움직임(motion)에 대한 적응과 공간적(spatial) 적응을 효과적으로 분리하여 모델링하려면, 정적 이미지를 처리할 때보다 선형 매핑(linear mapping)에 적용하는 최적 랭크를 높여야 한다. 예컨대 호모그래피(homography)의 전체 차원을 적응시키기 위해서는 적어도 호모그래피 자유도(degree of freedom)인 8 이상의 랭크 증가가 필요하며, 일반적인 영상이나 복잡한 인간의 움직임을 적응시키기 위해서는 더욱 높은 랭크가 요구된다.

4.3 베타-균일 스케줄링(Beta-Uniform Scheduling)

기존의 확산 모델(diffusion models)과 LoRA 기반 미세조정(LoRA fine-tuning) 기법에서는 보통 학습 시 노이즈 샘플링을 위해 균일 분포(uniform distribution)를 사용한다. 그러나 춤 영상 생성의 어댑터(adapter) 학습에서는, 사전 훈련된 모델이 이미 초기 단계에서 굵직한 인체 움직임(coarse human motion)과 같은 주요 요소를 효과적으로 노이즈 제거(denoising)할 수 있는 능력을 가지고 있으므로, 이를 유지하면서 학습 과정에서 점진적으로 더 세부적인 움직임 요소를 학습할 필요가 있다. 이를 위해 본 연구에서는 학습 노이즈 분포 Σ_train이 베타 분포(Beta distribution)에서 균일 분포로 서서히 변화하는 베타-균일 스케줄링(Beta-Uniform Scheduling) 전략을 제안한다.

이러한 접근법은 처음엔 낮은 노이즈 수준(low noise levels)에서 높은 주파수(high-frequency) 요소에 집중하고, 점차적으로 모든 주파수를 폭넓게 고려하는 방향으로 부드럽게 전환된다. 이를 통해 우선적으로 춤의 세부적인(fine) 요소에 초점을 맞추다가 점차 근본적인 움직임 구조를 학습하게 되므로, 본 접근법은 인간 움직임에 관한 기존의 풍부한 지식을 유지하면서 보다 일관되고 자연스러운 춤 동작 시퀀스를 생성하게 된다. 추가적인 상세 내용은 보충 자료를 참조하기 바란다.

그림 5:
MM-Diffusion [39]과 본 연구(MusicInfuser)의 오디오 기반 생성(audio-driven generation) 비교 결과. 제안된 방법(MusicInfuser)은 더 적은 아티팩트(첫 번째 및 세 번째 행)를 보이며, 더욱 현실적인 춤 동작과 자연스러운 움직임(첫 번째 행), 역동적인 모션(두 번째 및 세 번째 행)을 생성한다. 각 행에서 동일한 음악 트랙을 사용하였으며, MM-Diffusion은 긴 영상 생성을 위해 스펙트로그램이 늘어난 형태로 나타났다. MusicInfuser에서는 모든 음악 트랙에 대해 공통적으로 "a professional dancer dancing…"이라는 고정된 캡션을 사용하였다.

표 1:
다양한 모델 간 춤 생성 품질 비교 결과. 여기서 A, V, T는 각각 오디오(audio), 비디오(video), 텍스트(text) 입력 양상을 의미하며, 텍스트 입력 양상을 가지는 모델들은 미리 정해진 프롬프트 벤치마크에 따른 평균 점수를 보고하였다.

4.4 실제 환경(In-the-Wild) 영상 활용하기

구조화된 데이터셋[46, 32]에만 의존하여 모델을 학습하면 다양한 실제 환경에서 모델의 일반화(generalizability)가 떨어지고 성능 저하가 발생할 수 있다. 이를 방지하기 위해 본 연구는 구조화된 데이터셋과 더불어 실제 환경에서 촬영된 영상(in-the-wild videos)을 혼합하여 사용한다. YouTube의 댄스 공연 플레이리스트에서 훈련용 영상 클립을 수집하였으며, 이를 통해 카메라 각도, 조명 조건, 공연 환경, 춤 스타일 등 여러 측면에서 유용한 다양성을 확보할 수 있다. 실제 환경 데이터의 포함은 특정 춤 패턴이나 환경 설정에 대한 과적합(overfitting)을 방지하는 정규화(regularization) 효과를 제공한다.

4.5 캡션(Caption) 획득 및 다양화 전략

구조화된 데이터셋의 경우 일관되고 체계적인 텍스트 묘사를 제공하기 위해 캡션 템플릿(caption templates)을 사용한다. 이 템플릿은 춤 스타일, 배경 설정, 움직임 품질과 같은 주요 속성의 자리를 미리 마련해두고, 각 영상의 특성에 따라 적절하게 채워 넣는 방식으로 캡션을 생성한다. 반면, 표준화된 설명이 없는 실제 환경 영상의 경우, VideoChat2 [31]를 활용하여 캡션을 생성한다. VideoChat2는 영상의 시각적 콘텐츠를 분석하여 다양한 영상 샘플에서 나타나는 맥락 정보를 잘 반영하는 상세한 캡션을 생성할 수 있다.

또한, 생성된 상세한 캡션 중 일부는 랜덤하게 간단한 캡션으로 교체된다. 이를 통해 어댑터 네트워크(adapter network)는 텍스트에 의존하지 않고 음악에 직접적으로 반응하는 법을 학습할 수 있다. 이는 모델이 텍스트에 대한 의존성을 줄이고 음악적 특징과 움직임 사이에 더 강력한 연관성을 구축하도록 돕는 동시에, 프롬프트(prompt)와의 일치성(prompt adherence) 역시 유지하게 한다. 자세한 다양화 및 캡션 교체를 위한 프롬프트 템플릿은 보충 자료에서 확인할 수 있다.

4.6 적응성에 기반한 레이어 선택

모델의 모든 레이어에 교차 어텐션(cross-attention) 메커니즘을 적용하는 것은 계산적으로 부담이 크고 불필요한 복잡성을 야기할 수 있다. 그러나 최적의 레이어 조합을 모든 경우의 수에 대해 탐색하는 것은 현실적으로 불가능하다. 본 연구에서는 이를 해결하기 위해 각 레이어의 적응성(adaptability) 을 평가하고, 이를 기준으로 오디오 조건화를 선택적으로 적용하는 새로운 레이어 선택 기준을 제안한다.

이러한 접근법은 Spatiotemporal Skip Guidance (STG) [26]에서 영감을 얻었다. STG는 변조(modulation)가 움직임과 구조에 영향을 주면서도 원래 학습된 데이터 분포(manifold)로부터 크게 벗어나지 않도록 하는 레이어를 식별하는 것을 목표로 하는데, 본 연구의 목적과 유사한 맥락을 공유한다. 실제 선정된 레이어에 대한 자세한 정보는 보충 자료에서 확인할 수 있다.

그림 6:
속도 제어(speed control).
음악 입력을 느리게(상단 행, 0.75배) 또는 빠르게(하단 행, 1.25배) 변경했을 때의 영상 생성 결과이다. 일반적으로 음악을 빠르게 하면 더 많은 움직임이 나타나며, 음악 속도의 변화에 따라 움직임의 역동성(dynamicity)도 증가하는 것을 볼 수 있다. 빠른 음악에서 톤(tone)이 높아지며 움직임의 다이내믹함이 증가하는 것을 확인할 수 있다.

5. 실험

5.1 구현 세부사항

데이터셋

본 연구는 음악 기반 춤 생성 모델 학습을 위해 주로 AIST 데이터셋[46]을 사용한다. AIST 데이터셋은 60개의 음악 작품, 10개의 춤 장르, 35명의 댄서로 구성된 총 13,940개의 비디오로 이루어져 있다. 우리는 [32]의 방법을 따라 음악 트랙이 겹치지 않도록 엄격히 훈련 및 테스트 세트를 나누고, 총 2,378개의 클립을 추출하였다. 각 훈련 인스턴스는 전체 영상에서 약 2.5초의 클립을 무작위로 샘플링하여 생성하였다.

모델의 품질과 일반화를 강화하기 위해, 구조화된 AIST 데이터 외에도 실제 환경에서 수집한 다양한 춤 영상을 추가하였다. 구체적으로, YouTube의 춤 영상에서 15,799개의 클립을 추출하였으며, 이는 다양한 춤 스타일, 배경 설정 및 촬영 품질을 포함하고 있다. 실제 환경의 클립은 AIST 데이터셋과 훈련 과정에서 1:1 비율로 섞여 사용되었으며, 이를 통해 AIST의 통제된 환경과 실제 춤 공연의 다양한 특성을 균형 있게 반영하는 데이터셋을 구성하였다.

모델 세부사항

정량적 평가 지표 (Quantitative Metrics)

생성된 콘텐츠의 품질을 신뢰할 수 있는 지표로 평가하는 것은 상당한 난제이다. VBench가 시각-언어 모델(VLMs)[31]을 사용하여 텍스트-비디오 평가를 수행한 것에 영감을 받아, 본 논문에서는 Video-LLMs 기반의 새로운 평가 메트릭을 제안한다[14]. 구체적으로, VideoLLaMA 2[14]를 활용하여 춤 품질, 비디오 품질 및 프롬프트 정합성(prompt alignment)의 세 가지 주요 요소를 평가하기 위한 질의(query)를 설계하였다.

춤 품질(Dance Quality): 스타일 정렬, 비트 정렬, 신체 표현, 움직임 현실성 및 안무 복잡성을 평가하였다.
비디오 품질(Video Quality): 영상 품질, 미학적 품질, 전체적 일관성을 평가하였다.
프롬프트 정합성(Prompt Alignment): 스타일 포착, 창의적 해석, 전반적 만족도를 평가하였다.

AIST 테스트 데이터를 이용한 결과를 표 1과 표 2에 제시하였다. 춤 품질 지표에서 AIST 테스트 데이터는 비트 정렬, 영상 품질, 움직임 현실성 등의 지표에서 다른 모델들보다 높은 점수를 기록하여, 이러한 항목에 대해 사실상 상한선(upper bound)을 제공한다.

표 2: 비디오 품질 평가 (Video Quality Metrics)

표 3: 프롬프트 정합성 평가 (Prompt Alignment Metrics)

표 4: 제거 연구(Ablation Study)

'Feature Addition'은 오디오 특성을 공간적으로 확장하여 해당 프레임에 단순 덧셈하는 방식을 의미한다.

5.2 실험 결과

음악 및 텍스트 기반 춤 영상 생성

그림 1은 텍스트 제어와 음악적 동기화를 동시에 달성하는 MusicInfuser의 능력을 보여준다. 생성된 영상들은 프롬프트에서 지정한 배경(레스토랑 주방, 일몰 해변)과 댄서 속성(가죽 재킷 착용, 셰프 유니폼 등)을 성공적으로 반영하면서도 안무 스타일을 음악과 잘 정렬하고 있다. 또한 그림 2는 프롬프트를 여러 명의 댄서를 언급하도록 수정하는 것만으로도 군무(group dance) 영상을 생성할 수 있는 일반화 능력을 보여준다.

음악 반응성(Music Responsiveness)

그림 5에서는 프롬프트를 고정한 상태에서 음악 조건에 따라 춤 동작과 의상을 포함한 다양한 영상을 생성한 결과를 보여준다. 또한, 그림 6에서 제안 모델이 음악의 템포 변화에 따라 춤의 움직임 속도를 적절히 조정하는 실험을 진행하였다. 음악을 1.25배 빠르게 하거나 0.75배 느리게 하면 생성된 춤 영상이 이에 맞춰 자연스럽게 움직임의 속도를 변경하며, 이 과정에서 음악의 톤 변화가 춤의 역동성(dynamicity)에 직접적인 영향을 미치는 것을 확인할 수 있다. 이 결과는 모델이 춤과 음악 템포 사이의 중요한 관계를 잘 포착하고 있음을 시사한다.

그림 7: SUNO AI로 생성된 세 개의 서로 다른 인더와일드 음악 트랙으로 생성된 동영상. 각 행에는 보이지 않는 카테고리인 'K-pop'이라는 단어로 생성된 인더와일드 음악 트랙을 사용했습니다.

실제 환경 음악 및 긴 영상으로의 일반화

AIST 데이터셋에 포함되지 않은 실제 환경(in-the-wild)의 음악 스타일을 평가하기 위해, 학습되지 않은 새로운 음악 스타일을 가진 SUNO AI로 생성된 음악을 사용하여 실험하였다(그림 7). 이 결과, 본 모델은 훈련 데이터에 없었던 음악 카테고리에도 성공적으로 대응하며, 새로운 오디오 패턴을 적절한 춤 동작으로 잘 연결함을 확인하였다. 또한, 그림 3은 훈련 영상보다 2배 긴 프레임 수의 영상 생성 결과를 보여주어 모델의 유연한 일반화 능력을 입증하였다.

기존 연구와의 비교

그림 5는 MM-Diffusion[39]과의 직접적인 비교를 제공한다. MusicInfuser는 기존 모델 대비 보다 일관된 인간 형태, 더 적은 시각적 아티팩트, 더 자연스럽고 유려한 움직임을 생성하였다. 특히, 음악 비트 패턴과 춤 동작 간의 우수한 정렬을 보여주며, 스펙트로그램의 강도와 움직임 전환 간의 명확한 대응을 나타낸다.

MusicInfuser는 MM-Diffusion과 달리 스타일 제어가 제한적이고 짧은 영상만 생성하는 한계를 극복하고, 더 긴 영상 생성 및 프롬프트 기반의 스타일 제어를 지원하면서도 영상의 전반적 일관성과 품질을 향상시킨다. Mochi와 비교할 때에도 비디오 품질과 프롬프트 정합성을 유지하거나 개선하면서 음악적 반응성을 추가적으로 제공한다.

정량적 평가

표 1-2에서는 제안된 모델을 여러 베이스라인[39,44]과 정량적으로 비교하였다. 춤 품질 평가(표 1)에서 MusicInfuser는 스타일 정렬, 비트 정렬, 움직임 현실성, 안무 복잡성에서 기존 접근법을 뛰어넘는 성능을 보였으며, 다른 지표에서도 경쟁력 있는 점수를 유지하였다. 비디오 품질 지표(표 2)에서도 기존 방법들(MM-Diffusion[39], Mochi[44])에 비해 영상 품질과 전반적 일관성 측면에서 우수한 성능을 보였다. 프롬프트 정합성(표 3) 평가에서는 기존 Mochi 모델 대비 창의적 해석과 전반적 만족도에서 현저한 개선을 보였다.

제거 연구(Ablation Studies)

표 4의 제거 연구를 통해 제안된 각 구성 요소의 기여도를 평가하였다. 전체 모델이 가장 높은 종합 점수를 기록하였으며, 특히 ZICA 블록 레이어 적응성 선택이 가장 큰 기여를 하였다. HR-LoRA는 움직임 현실성 향상에, 베타-균일 스케줄링(Beta-Uniform scheduling)은 신체 표현력 개선에 중요한 역할을 하였다. ZICA 어댑터 대신 오디오 특징을 공간적으로 확장해 프레임에 직접 추가하는 단순한 방법(feature addition)은 대부분의 지표에서 제안 모델보다 성능이 낮아, ZICA의 효과성을 입증하였다. 또한, 표 3에서는 기본 프롬프트 비율 변화(0%, 100%)에 따른 스타일 포착과 창의적 해석 간의 상충 관계(trade-off)를 확인할 수 있다.

그림 8: 시드를 변경하면 동일한 음악과 텍스트가 주어졌을 때 다양한 결과를 생성할 수 있습니다. 생성된 각 춤의 안무는 서로 다릅니다. “전문 댄서가 춤을 추는 ...."라는 고정 프롬프트를 사용합니다.

결과의 다양성(Diversity of Results)

그림 8에서는 동일한 음악과 프롬프트를 유지한 상태에서 시드를 변경할 때 다양한 안무 결과가 생성됨을 보여준다. 이는 MusicInfuser가 특정 음악에 대해 특정 춤 루틴을 암기하지 않고, 음악과 가능한 움직임 사이의 풍부한 매핑을 학습했음을 나타낸다.

6. 결론

본 논문은 사전 훈련된 텍스트-비디오 확산 모델에 내재된 풍부한 안무 지식을 활용하여 음악과 동기화된 춤 영상을 생성하는 새로운 접근법, MusicInfuser를 제안하였다. 제안된 적응 아키텍처와 전략을 통해, MusicInfuser는 스타일 및 배경 설정 등 텍스트 기반의 제어를 유지하면서도 음악 입력과 춤 동작을 성공적으로 동기화할 수 있다. 고비용의 모션 캡처 데이터 없이도 새로운 음악 트랙에 일반화가 가능하며, 다양한 안무 및 군무 영상 생성도 지원한다. 기존 접근법의 높은 비용과 한계를 우회하여 창의적인 음악 기반 춤 영상 생성의 가능성을 넓혔다.

감사의 말(Acknowledgments)

이 논문에 귀중한 피드백을 제공해주신 Xiaojuan Wang과 Jingwei Ma에게 감사드린다. 본 연구는 UW Reality Lab과 Google의 지원으로 수행되었다.

'인공지능' 카테고리의 다른 글

When Precision Meets Position: BFloat16 Breaks Down RoPE in Long-Context Training (2)	2025.04.05
ChatAnyone: Stylized Real-time Portrait Video Generation with Hierarchical Motion Diffusion Model (2)	2025.04.04
Transformers without Normalization (2)	2025.03.27
SANA-Sprint: One-Step Diffusion with Continuous-TimeConsistency Distillation (3)	2025.03.23
Large Language Diffusion Models (2)	2025.02.18

JunHan's AI Factory

MusicInfuser: Making Video Diffusion Listen and Dance

1. 서론