MotionBooth: Motion-Aware Customized Text-to-Video Generation

In this work, we present MotionBooth, an innovative framework designed for animating customized subjects with precise control over both object and camera movements. By leveraging a few images of a specific object, we efficiently fine-tune a text-to-video m

arxiv.org

https://huggingface.co/papers/2406.17758

Paper page - MotionBooth: Motion-Aware Customized Text-to-Video Generation

huggingface.co

그림 1: MotionBooth의 동작 인식 맞춤형 비디오 생성 결과. 우리의 방법은 제어 가능한 객체와 카메라 동작으로 맞춤형 객체를 애니메이션화합니다.

초록

이 연구에서는 객체와 카메라 움직임을 정밀하게 제어하면서 맞춤형 피사체를 애니메이션화하기 위한 혁신적인 프레임워크인 MotionBooth를 소개합니다. 특정 객체의 몇 가지 이미지를 활용하여, 텍스트-비디오 모델을 효율적으로 미세 조정하여 객체의 형태와 속성을 정확하게 포착합니다. 우리의 접근법은 피사체 학습 성능을 향상시키기 위해 피사체 영역 손실(subject region loss)과 비디오 보존 손실(video preservation loss)을 도입하며, 맞춤형 피사체를 동작 제어 신호와 통합하기 위해 피사체 토큰 교차 주의 손실(subject token cross-attention loss)을 사용합니다. 또한, 추론 시 피사체와 카메라 움직임을 관리하기 위한 무훈련(training-free) 기술을 제안합니다. 특히, 피사체 움직임을 제어하기 위해 교차 주의 맵 조작(cross-attention map manipulation)을 활용하며, 카메라 움직임 제어를 위한 새로운 잠재 이동 모듈(latent shift module)을 도입합니다. MotionBooth는 생성된 비디오에서 피사체의 외형을 유지하면서 동시에 동작을 제어하는 데 뛰어납니다. 광범위한 정량적 및 정성적 평가를 통해 우리의 방법의 우수성과 효과를 입증합니다. 모델과 코드는 공개될 예정입니다.

1 서론

특정 개의 유형이나 외모를 포함한 특정 시나리오와 같은 맞춤형 피사체를 위한 비디오 생성은 많은 연구 관심을 받고 있습니다 [51, 25, 39]. 이러한 맞춤형 생성 분야는 몇 장의 이미지로 피사체의 외모를 학습하고 해당 피사체의 다양한 이미지를 생성하는 텍스트-이미지(T2I) 생성 방법에서 기원하였습니다 [12, 39, 29]. 이를 따르면서, 피사체 중심의 텍스트-비디오(T2V) 생성에 대한 관심이 증가하고 있으며, 이는 개인 단편 영화나 영화 제작 등 다양한 응용 분야에서 사용되고 있습니다 [51, 25, 39, 53, 13]. 당신의 장난감이 도로를 따라 카메라를 향해 달리거나 당신의 애완견이 길에서 좌우로 춤추는 상상을 해보세요. 그러나 이러한 사랑스러운 상상의 비디오를 렌더링하는 것은 도전적인 작업입니다. 이는 주로 피사체 학습과 동작 주입을 포함하면서 다양한 장면을 생성할 수 있는 생성 능력을 유지해야 하기 때문입니다. 특히, VideoBooth [25]는 이미지 인코더를 훈련하여 피사체의 외모를 모델에 포함시켜 피사체의 짧은 클립을 생성합니다. 그러나 생성된 비디오는 종종 최소한의 동작이나 동작이 없는 '움직이는 이미지'와 유사한 모습을 보입니다. 이 접근법은 사전 훈련된 T2V 모델의 동작 다양성을 충분히 활용하지 않습니다. 또 다른 연구 [53, 57, 13]는 맞춤형 모델을 특정 비디오에서 미세 조정하여 각 특정 카메라 또는 피사체 동작 유형에 대한 동작 학습을 요구합니다. 이들의 파이프라인은 동작 유형을 제한하고 각 동작 유형에 대해 새로운 어댑터를 미세 조정해야 하므로 불편하고 계산 비용이 많이 듭니다. 핵심은 피사체 학습과 비디오 동작 보존 간의 갈등에 있습니다. 피사체 학습 중에 특정 피사체의 제한된 이미지로 훈련하면 기본 T2V 모델의 분포가 크게 변화하여 심각한 저하(예: 흐릿한 배경과 정적인 비디오)를 초래합니다. 따라서 기존 방법은 특정 동작 제어를 위해 추가적인 동작 학습이 필요합니다. 본 논문에서는 기본 T2V 모델이 이미 다양한 동작 사전을 가지고 있으며, 핵심은 피사체 학습 동안 비디오 기능을 보존하고 추론 중 동작 제어를 발굴하는 것이라고 주장합니다. 보편적이고 정밀한 동작 제어를 통해 피사체 중심 비디오 생성을 보장하기 위해, 우리는 동작 인식 맞춤형 비디오 생성을 수행할 수 있는 MotionBooth를 제안합니다. MotionBooth가 생성한 비디오는 그림 1에 설명되어 있습니다. MotionBooth는 피사체, 피사체 동작, 카메라 동작의 조합을 입력으로 받아 다양한 비디오를 생성할 수 있으며, 사전 훈련된 T2V 모델과 동등한 품질을 유지합니다. MotionBooth는 비디오 생성 기능을 손상시키지 않으면서 피사체를 학습하며, 피사체 중심 비디오 생성을 위한 무훈련 동작 주입을 가능하게 합니다. 먼저, 피사체 학습 중에는 피사체 영역 손실과 비디오 보존 손실을 도입하여 피사체의 충실도와 비디오 품질을 모두 향상시킵니다. 또한, 맞춤형 피사체와 동작 제어 신호를 연결하기 위해 피사체 토큰 교차 주의 손실을 제시합니다. 추론 중에는 피사체와 카메라 동작을 제어하기 위한 무훈련 기술을 제안합니다. 피사체 동작을 제어하기 위해 교차 주의 맵을 직접 조작합니다. 또한, 새로운 잠재 이동 모듈을 제안하여 카메라 움직임을 제어합니다. 이는 노이즈가 있는 잠재 변수를 이동시켜 카메라 자세를 이동시킵니다. 정량적 및 정성적 실험을 통해 제안된 동작 제어 방법의 우수성과 효과를 입증하며, 추가 튜닝 없이 다른 기본 T2V 모델에 적용할 수 있음을 보여줍니다. 우리의 기여는 다음과 같이 요약됩니다: 1) 우리는 맞춤형 피사체, 피사체 동작, 카메라 움직임을 입력으로 결합하여 다양한 비디오를 생성할 수 있는 통일된 프레임워크, MotionBooth를 제안합니다. 우리가 알기로는, 이는 맞춤형 피사체, 피사체 동작, 카메라 움직임을 결합하여 다양한 비디오를 생성할 수 있는 최초의 프레임워크입니다. 2) 우리는 피사체 학습을 위한 새로운 손실 증강 학습 구조를 제안합니다. 여기에는 피사체 영역 손실, 비디오 보존 손실 및 피사체 토큰 교차 주의 손실이 포함되어 피사체 충실도와 비디오 품질을 크게 향상시킵니다. 3) 우리는 피사체와 카메라 동작을 제어하기 위한 혁신적인 무훈련 방법을 개발합니다. 광범위한 실험을 통해 MotionBooth가 기존 최첨단 비디오 생성 모델보다 우수함을 입증합니다.

2 관련

연구 텍스트-비디오 생성.

T2V(텍스트-비디오) 생성은 딥러닝 모델을 활용하여 텍스트 입력을 해석하고 해당 비디오 콘텐츠를 생성합니다. 이는 텍스트-이미지 생성의 초기 돌파구 [41, 38, 19, 21, 34, 45, 56, 58]를 바탕으로 동작과 시간을 통합하여 더욱 복잡한 동적 요소를 도입합니다 [43, 20, 18, 2, 63, 55]. 최근의 발전은 특히 확산 기반 아키텍처를 활용합니다. ModelScopeT2V [48]와 LaVie [50]와 같은 주목할 만한 모델은 공간 프레임워크 내에 시간적 계층을 통합합니다. VideoCrafter1 [6]와 VideoCrafter2 [7]는 고품질 이미지 데이터셋을 활용하여 비디오 데이터 부족 문제를 해결합니다. Latte [33]와 W.A.L.T [14]는 Transformers를 백본으로 채택합니다 [46]. VideoPoet [28]는 일관된 긴 비디오를 생성하기 위해 오토레그레시브 방식을 탐구합니다. 최근 Sora [3]는 인상적인 품질, 안정적인 일관성 및 다양한 동작을 가진 비디오를 생성하는 데 뛰어납니다. 이러한 발전에도 불구하고, 텍스트만으로 비디오 콘텐츠를 제어하는 것은 여전히 도전적이며, 더 정교한 제어 신호에 대한 연구가 계속 필요합니다.

그림 2: MotionBooth의 전체 파이프라인. 우리는 먼저 피사체에 대해 T2V 모델을 미세 조정합니다. 이 절차에는 피사체 영역 손실, 비디오 보존 손실 및 피사체 토큰 교차 주의 손실이 포함됩니다. 추론 중에는 새로운 잠재 이동 모듈을 사용하여 카메라 움직임을 제어합니다. 동시에 교차 주의 맵을 조작하여 피사체 동작을 제어합니다.

맞춤형 생성.

맞춤형 피사체를 사용하여 이미지와 비디오를 생성하는 것은 점점 더 많은 관심을 받고 있습니다. 대부분의 연구는 동일한 피사체의 몇 장의 이미지나 특정 도메인 [15, 16, 47]에서 특정 피사체를 학습하는 데 중점을 둡니다 [23, 8, 10, 40, 44, 36]. Textual Inversion [12]은 객체의 특징을 캡처하기 위해 새로운 단어를 학습하도록 제안합니다. 반면, DreamBooth [39]는 전체 U-Net을 미세 조정하여 더 나은 IP 보존 능력을 제공합니다. 이를 따라 많은 연구는 여러 객체를 맞춤화하거나 [29, 51, 32, 5], 공통 피사체 어댑터를 개발하며 [54, 25, 60, 11, 62], 그 위치를 동시에 제어하는 [11, 32] 더 도전적인 과제를 탐구합니다. 그러나 몇 장의 이미지로부터 비디오 모델을 맞춤화하는 것은 종종 과적합을 초래하며, 모델이 중요한 동적 요소를 포함하지 못합니다. 최근의 연구인 DreamVideo [53]는 비디오 데이터에서 특정 동작 유형을 학습함으로써 이를 해결합니다. 그러나 이 방법은 사전 정의된 동작 유형에 한정되며 텍스트 기반 입력의 유연성이 부족합니다. 반면, 우리의 연구는 사전 정의된 동작 프로토타입 없이 피사체와 카메라 동작을 제어하는 MotionBooth를 도입합니다.

동작 인식 비디오 생성. 최근 연구들은 비디오 생성에 명시적인 동작 제어를 통합하는 방법을 탐구합니다. 여기에는 카메라와 객체 동작이 포함됩니다. 카메라 동작을 제어하기 위해, AnimateDiff [13], VideoComposer [49], CameraCtrl [17], Direct-A-Video [61], MotionCtrl [52]와 같은 기존 연구들은 카메라 움직임이나 궤적을 인코딩하기 위한 특정 모듈을 설계합니다. 이러한 모델들은 일반적으로 대규모 데이터셋에서의 훈련에 의존하며 [1, 9], 이는 높은 계산 비용을 초래합니다. 반면, 우리의 MotionBooth 프레임워크는 재훈련이 필요 없는 무훈련 카메라 동작 모듈을 구축하여, 어떤 T2V 모델과도 쉽게 통합할 수 있습니다. 객체 동작 제어를 위해, 최근 연구들은 [59, 30, 31, 24, 61, 4, 64, 26, 22] 추론 단계에서 주의 값을 조작하는 효과적인 방법을 제안합니다. 이러한 접근법에서 영감을 받아, 우리는 피사체 텍스트 토큰을 피사체 위치에 연결하기 위해 피사체 토큰 교차 주의 손실을 사용합니다. 이를 통해 교차 주의 값을 조정하여 맞춤형 객체의 동작을 간단하게 제어할 수 있습니다.

3 방법

3.1 개요

작업 공식화
우리는 맞춤형 피사체가 특징인 동작 인식 비디오를 생성하는 것에 중점을 둡니다. 비디오 피사체를 맞춤화하기 위해, 우리는 특정 피사체에 대해 T2V(텍스트-비디오) 모델을 미세 조정합니다. 이 과정은 동일한 피사체의 3-5장 정도의 적은 이미지로 수행할 수 있습니다. 추론 중에, 미세 조정된 모델은 피사체의 동작 인식 비디오를 생성합니다. 이 동작에는 카메라와 피사체의 움직임이 포함되며, 사용자가 자유롭게 정의할 수 있습니다. 카메라 움직임의 경우, 사용자는 수평 및 수직 카메라 움직임 비율을 ccam = [cx, cy]로 입력합니다. 피사체 움직임의 경우, 사용자는 비디오 길이를 나타내는 L로 [B1, B2, ..., BL]의 바운딩 박스 시퀀스를 제공하여 피사체의 원하는 위치를 표시합니다. 각 바운딩 박스는 각 프레임의 좌상단과 우하단 점의 x-y 좌표를 지정합니다. 이러한 조건부 입력을 통합하여, 모델은 특정 피사체를 포함하고 사전 정의된 카메라 움직임과 피사체 동작을 포함한 비디오를 생성할 수 있습니다.

전체 파이프라인
MotionBooth의 전체 파이프라인은 그림 2에 나와 있습니다. 학습 단계에서는 T2V 모델을 미세 조정하여 주어진 피사체의 외모를 학습합니다. 과적합을 방지하기 위해, 우리는 비디오 보존 손실과 피사체 영역 손실을 도입합니다 (섹션 3.2). 또한, 피사체 토큰을 교차 주의 맵에서 피사체의 위치와 명시적으로 연결하기 위해 피사체 토큰 교차 주의(STCA) 손실을 제안합니다. 이는 피사체 동작 제어를 용이하게 합니다. 카메라와 피사체 동작 제어는 추론 단계에서 수행됩니다. 우리는 피사체 토큰과 해당 영역을 증폭하면서 다른 토큰을 억제함으로써 교차 주의 맵을 조작합니다 (섹션 3.3). 이는 생성된 피사체가 원하는 위치에 나타나도록 보장합니다. 교차 주의 맵을 학습함으로써, STCA 손실은 피사체의 동작 제어를 향상시킵니다. 카메라 움직임을 위해, 우리는 새로운 잠재 이동 모듈을 도입하여 노이즈가 있는 잠재 변수를 직접 이동시켜 생성된 비디오에서 부드러운 카메라 움직임을 달성합니다 (섹션 3.4).

그림 3: 피사체 학습에 대한 사례 연구. "Region"은 피사체 영역 손실을 의미합니다. "Video"는 비디오 보존 손실을 의미합니다. 이미지는 생성된 비디오에서 추출되었습니다.

3.2 피사체 학습

몇 장의 피사체 이미지를 주어진 경우, 이전 연구들은 이러한 이미지에서 확산 모델을 미세 조정하면 피사체의 외모를 효과적으로 학습할 수 있음을 입증했습니다 [39, 23, 8, 10, 40, 44]. 그러나 두 가지 주요 과제가 남아 있습니다. 첫째, 데이터셋의 크기가 제한되어 있어 모델이 몇 단계 내에 입력 이미지, 특히 배경에 빠르게 과적합됩니다. 이러한 배경 과적합은 다양한 장면을 생성하는 데 방해가 되며, 이는 이전 연구에서도 지적된 문제입니다 [39, 12]. 둘째, 이미지를 사용하여 T2V 모델을 미세 조정하면 모델의 비디오 생성 능력이 저하되어 생성된 비디오에서 배경이 심각하게 열화됩니다. 이러한 문제를 설명하기 위해, 우리는 장난감 실험을 수행했습니다. 그림 3에 나와 있듯이, 어떠한 수정 없이 모델은 피사체 이미지에 배경을 과적합시킵니다. 이를 해결하기 위해, 우리는 피사체 영역 내에서만 확산 재구성 손실을 계산하는 것을 제안합니다. 그러나 이러한 조정에도 불구하고, 생성된 비디오의 배경은 여전히 과도하게 매끄럽습니다. 이러한 열화는 이미지만으로 T2V 모델을 조정하는 것이 모델의 비디오 생성에 대한 원래 가중치를 손상시키기 때문인 것으로 보입니다. 이를 완화하기 위해, 우리는 학습 과정에서 비디오 데이터를 보존 데이터로 통합할 것을 제안합니다. 비디오 데이터를 사용하여 학습하더라도 피사체 영역 손실이 없으면 여전히 과적합이 발생하지만, 우리의 접근 방식인 MotionBooth는 상세하고 다양한 배경을 가진 비디오를 생성할 수 있습니다.

피사체 영역 손실

훈련 이미지에서 배경의 과적합 문제를 해결하기 위해, 우리는 피사체 영역 손실을 제안합니다. 핵심 아이디어는 피사체 영역 내에서만 확산 재구성 손실을 계산하여 모델이 배경을 학습하지 못하도록 하는 것입니다. 구체적으로, 각 이미지에 대해 피사체 마스크를 먼저 추출합니다. 이는 수동으로 수행하거나 분할 모델과 같은 자동화된 방법으로 수행할 수 있습니다. 실제로, 우리는 SAM [27]을 사용하여 모든 마스크를 수집합니다. 피사체 영역 손실은 다음과 같이 계산됩니다:

비디오 보존 손실

DreamBooth [39]와 CustomDiffusion [29]과 같은 이미지 맞춤화 데이터셋은 동일 피사체의 여러 이미지를 제공하는 훌륭한 예시입니다. 그러나 맞춤형 비디오 생성 작업에서는 이미지로 비디오 확산 모델을 직접 미세 조정하면 배경 열화가 심각해집니다. 직관적으로, 이 이미지 기반 훈련 과정은 비디오 확산 모델에 내재된 원래 지식을 손상시킬 수 있습니다. 이를 해결하기 위해, 우리는 비디오 데이터와의 공동 훈련을 통해 비디오 생성 지식을 유지하는 비디오 보존 손실을 도입합니다. 이전 연구에서 사용된 클래스별 보존 데이터와 달리 [39, 51], 우리는 자막이 포함된 일반 비디오 c_v를 사용합니다. 섹션 4의 실험에서, 일반 비디오가 피사체 학습 및 비디오 생성 기능 보존에 더 효과적임을 입증합니다. 손실 함수는 다음과 같이 정의됩니다:

그림 4: 피사체 토큰 교차 주의 맵에 대한 사례 연구

(b)와 (c)는 “[V]”와 “dog” 토큰에 대한 교차 주의 맵의 시각화입니다.

피사체 토큰 교차 주의 손실

피사체의 동작을 제어하기 위해, 우리는 추론 중에 교차 주의 맵을 직접 조작합니다. 훈련 단계에서 고유 토큰 “[V]”를 도입하고 이를 피사체와 연결했으므로, 이 특별한 토큰을 교차 주의 맵 내의 피사체 위치에 연결할 필요가 있습니다. 그림 4에서 설명한 것처럼, 모델을 미세 조정해도 고유 토큰을 교차 주의 맵에 효과적으로 연결하지 못합니다. 따라서, 우리는 이 과정을 명시적으로 안내하기 위해 피사체 토큰 교차 주의(STCA) 손실을 제안합니다. 먼저, “[V] [class name]” 토큰에서 교차 주의 맵 A를 추출합니다. 그런 다음, 이진 교차 엔트로피 손실을 적용하여 해당 주의 맵이 피사체의 위치에서 더 크고 이 영역 밖에서는 더 작도록 보장합니다. 이 과정은 피사체 마스크를 포함하며 다음과 같이 표현될 수 있습니다:

교육 중 전체 손실 함수는 다음과 같이 정의됩니다:

여기서 λ_1과 λ_2는 다양한 손실 구성 요소의 가중치를 제어하는 하이퍼파라미터입니다.

3.3 피사체 동작 제어

피사체의 동작 제어 신호로 바운딩 박스를 선택한 이유는 그리기 쉽고 조작하기 간편하기 때문입니다. 이에 반해, 모든 프레임에 대한 객체 마스크를 제공하는 것은 노동 집약적이며, 프레임 간 피사체의 형태 변형을 고려해야 합니다. 실질적으로, 우리는 바운딩 박스가 피사체의 위치를 정확하게 제어하는 데 충분하다는 것을 발견했습니다. 이전 연구인 GLIGEN [30]은 대규모 이미지 데이터로 추가 조건 모듈을 훈련하여 객체 위치를 제어하려고 시도했습니다. 그러나 이러한 훈련 방법은 모델을 고정시키며 특정 피사체에 맞게 미세 조정된 맞춤형 모델과 쉽게 일치할 수 없습니다. 따라서 우리는 추론 중에 교차 주의 맵을 직접 편집하는 무훈련 방식을 채택합니다 [61, 26, 4]. 이 교차 주의 편집 방법은 플러그 앤 플레이 방식으로, 어떤 맞춤형 모델과도 함께 사용할 수 있습니다.

교차 주의 레이어에서, 쿼리 특징 Q는 비디오 잠재 변수에서 추출되며, 시각적 특징을 나타냅니다. 키와 밸류 특징 K와 V는 입력된 언어 토큰에서 파생됩니다. 편집된 교차 주의 레이어의 계산 과정은 다음과 같이 공식화할 수 있습니다:

그림 5: 노이즈가 있는 잠재 변수 이동을 통한 카메라 움직임 제어

3.4 카메라 움직임 제어

단순히 교차 주의 맵을 편집하는 것만으로도 피사체의 동작을 효율적으로 제어할 수 있습니다. 이는 잠재 변수를 "축소된 이미지"로 간주할 수 있음을 시사하며, 이는 생성된 이미지와 동일한 시각적 지리적 분포를 유지합니다. 카메라 움직임 제어를 위해 직관적인 접근 방식은 카메라 움직임 신호 ccam=[cx,cy]에 따라 추론 중에 노이즈가 있는 잠재 변수를 직접 이동시키는 것입니다. 잠재 이동 파이프라인은 표 2에 설명되어 있습니다. 이 아이디어의 주요 과제는 잠재 이동으로 인해 발생하는 누락된 부분(1단계의 물음표 영역)을 채우는 것입니다. 이를 해결하기 위해, 우리는 원래의 노이즈가 있는 잠재 변수에서 토큰을 샘플링하여 이 간격을 채우는 방법을 제안합니다. 이는 비디오에서 카메라가 움직일 때 새로운 장면이 이전 장면과 의미적으로 가깝다는 사전 지식을 기반으로 합니다. 예를 들어, 숲 장면이 있는 비디오에서 카메라가 왼쪽으로 이동할 때, 원래 장면과 유사한 더 많은 나무를 캡처할 가능성이 큽니다. 또 다른 가정은 일반적인 각도의 비디오에서는 시각적 요소가 다른 요소보다 동일한 x축 또는 y축을 따라 있는 요소와 의미적으로 더 가까울 가능성이 높다는 것입니다. 예를 들어, 그림 5의 폭포 비디오에서는 나무가 위쪽과 아래쪽에 있으며, 수평으로 퍼져 있고 폭포는 중간 x축 영역에 걸쳐 있습니다. 실험적으로, 가로 및 세로 방향으로 토큰을 샘플링하면 더 나은 초기화가 제공되고 비디오 전환이 부드러워진다는 것을 발견했습니다. 무작위로 토큰을 샘플링하면 생성된 비디오 품질이 저하됩니다. 타임스탬프 t에 대한 잠재 이동 프로세스는 다음과 같이 공식화할 수 있습니다:

표 1: 동작 인식 맞춤형 비디오 생성에 대한 정량적 비교

표 2: 카메라 움직임 제어에 대한 정량적 비교

그림 6: 객체 맞춤화와 동작 제어의 정성적 비교

4 실험

4.1 실험 설정

데이터셋
맞춤화를 위해, 우리는 DreamBooth [39]와 CustomDiffusion [29]에서 총 26개의 객체를 수집했습니다. 이 객체들은 애완동물, 인형, 장난감, 만화 캐릭터, 차량 등을 포함합니다. 카메라와 객체 동작 제어를 평가하기 위해, 우리는 텍스트-객체 동작 쌍 40개와 텍스트-카메라 동작 쌍 40개를 포함하는 데이터셋을 구축했으며, 이는 텍스트 프롬프트와 일치하는 카메라 및 객체 동작 패턴을 보장합니다. 이 데이터셋은 다양한 시나리오와 동작에서 각 피사체에 대해 생성된 비디오를 평가합니다.

구현 세부 사항
우리는 MotionBooth를 AdamW 옵티마이저를 사용하여 300단계 동안 훈련하며, 학습률은 5e-2, 가중치 감소는 1e-2로 설정합니다. 우리는 Panda-70M [9] 훈련 세트에서 무작위로 선택된 500개의 보존 비디오를 수집합니다. 각 배치에는 이미지 배치 하나와 비디오 배치 하나가 포함되며, 배치 크기는 각각 훈련 이미지의 수와 동일하고 이미지와 비디오의 경우 1입니다. 손실 가중치 파라미터 λ_1과 λ_2는 각각 1.0과 0.01로 설정됩니다. 우리는 Zeroscope와 LaVie를 기본 모델로 사용합니다. 추론 중에는 DDIM 스케줄러를 사용하여 50단계 디노이징을 수행하며, 분류기 비지도 가이던스 스케일은 7.5로 설정합니다. 생성된 비디오는 Zeroscope의 경우 576x320x24, LaVie의 경우 512x320x16입니다. 훈련 과정은 단일 NVIDIA A100 80G GPU에서 약 10분 내에 완료됩니다. 추가 구현 세부 사항은 부록 A.3에서 찾을 수 있습니다.

기준선
우리는 동작 인식 맞춤형 비디오 생성 분야를 개척하고 있기 때문에, 우리의 방법을 DreamBooth [39], CustomVideo [51], DreamVideo [53]와 같은 관련 연구와 비교합니다. Dreambooth는 텍스트-이미지 생성을 위한 피사체를 맞춤화합니다. 우리는 클래스 보존 이미지를 사용하고 T2V 모델을 미세 조정하여 비디오를 생성하는 DreamBooth의 방식을 따릅니다. CustomVideo는 최근의 비디오 맞춤화 방법입니다. 우리는 이 방법의 파라미터 효율적인 훈련 절차를 채택합니다. DreamVideo는 비디오 데이터에서 동작 패턴을 학습합니다. 이러한 데이터를 제공하기 위해, 우리는 평가 동작과 가장 관련 있는 Panda-70M에서 비디오를 샘플링합니다. 이러한 방법들은 추론 중 동작을 제어할 수 없기 때문에, 우리는 공정한 비교를 위해 카메라 및 객체 동작 제어 기술을 적용합니다. 추가적으로, 우리는 AnimateDiff [13]와 CameraCtrl [17]과 같은 훈련 기반 방법과 우리의 카메라 제어 방법을 비교하여 피사체 맞춤화 없이 카메라 동작 제어에 중점을 둡니다. AnimateDiff는 기본적인 카메라 움직임 유형만으로 훈련되며, 사용자 정의 카메라 움직임 ccam=[cx,cy]을 입력으로 받을 수 없기 때문에, 평가를 위해 가장 가까운 기본 움직임 유형을 사용합니다.

평가 지표
우리는 세 가지 측면에서 동작 인식 맞춤형 비디오 생성을 평가합니다: 피사체 충실도, 시간적 일관성, 카메라 동작 충실도. 1) 피사체가 잘 보존되고 지정된 동작에서 정확하게 생성되었는지 확인하기 위해, 우리는 CLIP [37]과 DINOv2 [35] 모델을 사용하여 피사체 이미지와 바운딩 박스로 표시된 프레임 영역 간의 유사성을 계산하는 지역 CLIP 유사도 (R-CLIP)와 지역 DINO 유사도 지표 (R-DINO)를 도입합니다. 추가로, 전체 프레임과 텍스트 프롬프트 간의 유사성을 측정하기 위해 CLIP 이미지-텍스트 유사도 (CLIP-T)를 사용합니다. 2) 우리는 각 연속적인 프레임 간의 CLIP 이미지 특징을 계산하여 시간적 일관성을 평가합니다. 3) 우리는 생성된 비디오의 광학 흐름을 예측하기 위해 VideoFlow [42]를 사용합니다. 그런 다음, 평가 데이터셋에서 제공된 실제 카메라 움직임과 예측된 흐름을 비교하여 흐름 오류를 계산합니다.

그림 7: 카메라 움직임 제어의 정성적 비교

라인과 점은 독자가 카메라 움직임을 더 쉽게 추적할 수 있도록 돕습니다.

표 3: 훈련 기술에 대한 소거 연구

"mask"는 피사체 영역 손실을 의미합니다. "STCA"는 피사체 토큰 교차 주의 손실을 의미합니다. "video"는 비디오 보존 손실을 의미합니다. "w/ class video"는 비디오 보존 손실에서 클래스별 비디오를 사용하는 것을 의미합니다. 결과는 LaVie에서 평가되었습니다.

4.2 주요 결과

정량적 결과
우리는 동작 인식 맞춤형 비디오 생성과 카메라 움직임 제어에 대해 기준 모델들과 정량적 비교를 수행했습니다. 동작 인식 맞춤형 비디오 생성에 대한 결과는 표 1에 나와 있습니다. 결과는 MotionBooth가 Zeroscope와 LaVie 모델 모두에서 모든 기준 모델을 능가함을 보여주며, 우리의 제안된 기술이 다양한 T2V 모델로 확장될 수 있음을 나타냅니다. 피사체 및 카메라 동작 제어 방법의 무훈련 아키텍처 덕분에, MotionBooth는 향후 Sora [3]와 같은 더 많은 오픈 소스 모델에 적응할 수 있을 것으로 기대됩니다. 주목할 만하게도, DreamVideo [53]는 T-Cons. 및 흐름 오류에서 두 번째로 높은 점수를 기록하여, 비디오 데이터를 보조 훈련 데이터로 포함하는 것이 비디오 생성 성능을 향상시킨다는 우리의 관찰과 일치합니다. 반면, CustomVideo [51]는 R-DINO 점수에서 열등한 성능을 보이며, 주어진 위치에서 피사체를 생성하는 능력이 부족함을 나타냅니다. 이는 텍스트 임베딩과 확산 모델의 교차 주의 레이어만 미세 조정하는 접근 방식이 피사체를 학습하는 데 충분하지 않기 때문일 수 있습니다.

카메라 움직임 제어를 위해, 우리는 우리의 방법을 AnimateDiff [13] 및 CameraCtrl [17] 두 가지 훈련 기반 방법과 비교합니다. 결과는 표 2에 나와 있습니다. 주목할 만하게도, MotionBooth는 훈련 기반 잠재 이동 모듈을 사용하여 두 기준 모델보다 우수한 결과를 달성했습니다. 특히, MotionBooth는 Zeroscope에서 흐름 오류, CLIP-T 및 T-Cons. 지표에서 최근 방법인 CameraCtrl보다 각각 0.617, 0.015 및 0.009만큼 우수한 결과를 기록했으며, LaVie 모델에서는 각각 0.511, 0.004 및 0.024만큼 우수한 결과를 기록했습니다. 이 결과는 잠재 이동 방법이 간단하면서도 효과적임을 입증합니다.

정성적 결과
맞춤형 객체와 제어된 피사체 동작으로 비디오를 생성한 정성적 비교 결과는 그림 6에 나와 있습니다. 우리의 관찰에 따르면, MotionBooth는 피사체 동작 정렬, 텍스트 프롬프트 정렬 및 전체 비디오 품질에서 우수함을 나타냅니다. 반면, DreamBooth와 CustomVideo는 배경이 흐릿한 비디오를 생성하여 비디오 데이터 없이 훈련할 때 생성된 배경이 열화됨을 강조합니다. 또한, CustomVideo와 DreamVideo는 피사체의 외모를 포착하는 데 어려움을 겪으며, 이는 확산 모델의 일부만 조정하여 학습 과정이 완전히 수렴하지 못하기 때문일 수 있습니다.

카메라 움직임 제어에 중점을 둔 정성적 실험도 수행되었으며, 결과는 그림 7에 나와 있습니다. AnimateDiff는 기본 움직임에만 제한되어 사용자 정의 카메라 방향을 지원하지 않습니다. CameraCtrl 방법은 사용자 입력을 받을 수 있지만, 미학적으로 떨어지는 비디오와 플래시 동작을 보이는 객체를 생성합니다. 반면, MotionBooth 모델은 Zeroscope와 LaVie 모델 모두에서 두 방법을 능가합니다. 제안된 잠재 방법은 사용자 정의 카메라 움직임을 준수하면서 시간적 일관성과 높은 비디오 품질을 유지하는 비디오를 생성합니다.

4.3 소거 연구

훈련 기술
우리는 피사체 학습 단계에서 제안된 기술을 분석했습니다. 소거 결과는 표 3에 나와 있습니다. 명확하게, 제안된 모듈이 없으면 정량적 지표가 각각 감소합니다. 이러한 결과는 제안된 피사체 영역 손실, STCA 손실, 비디오 보존 손실이 피사체 학습 및 동작 인식 맞춤형 비디오 생성에 유익하다는 것을 입증합니다. 특히, 피사체 영역 손실이 없을 경우 R-DINO 지표가 0.256만큼 크게 감소하여 훈련 중 이미지 배경을 필터링하는 핵심 기여를 강조합니다. 또한, 무작위로 샘플링된 일반 비디오 대신 클래스별 비디오를 사용하는 "w/ class video" 실험은 더 나쁜 결과를 보여줍니다. 이 접근 방식은 클래스별 비디오의 장면과 배경을 제한하여 모델의 일반화 능력을 효과적으로 방해합니다.

5 결론

이 논문은 동작 인식 맞춤형 비디오 생성을 위한 새로운 프레임워크인 MotionBooth를 소개합니다. MotionBooth는 특정 피사체를 학습하기 위해 T2V 확산 모델을 미세 조정하고, 피사체 영역에 집중하기 위해 피사체 영역 손실을 활용합니다. 훈련 절차는 배경 열화를 방지하기 위해 비디오 보존 데이터를 통합합니다. 추가로, STCA 손실은 피사체 토큰을 교차 주의 맵과 연결하도록 설계되었습니다. 추론 중에는 훈련이 필요 없는 기술이 피사체와 카메라 동작을 제어하도록 제안됩니다. 광범위한 실험을 통해 우리의 방법의 효과와 일반화 능력을 입증합니다. 결론적으로, MotionBooth는 주어진 피사체와 제어 가능한 피사체 및 카메라 동작을 가진 생생한 비디오를 생성할 수 있습니다.

감사의 말씀

이 연구는 중국의 국가 중점 연구 개발 프로그램(No. 2023YFC3807600)의 지원을 받았습니다.

2406.17758v1.pdf

2.95MB

'인공지능' 카테고리의 다른 글

LLM Critics Help Catch LLM BugsNat (1)	2024.07.01
Robust Speech Recognition via Large-Scale Weak Supervision (1)	2024.06.30
What are Diffusion Models? (2)	2024.06.29
Revisiting Feature Prediction for Learning Visual Representations from Video (1)	2024.06.28
Adding Conditional Control to Text-to-Image Diffusion Models (1)	2024.06.27

JunHan's AI Factory

MotionBooth: Motion-Aware Customized Text-to-Video Generation

초록

1 서론