본문 바로가기

인공지능

VASA-1: Lifelike Audio-Driven Talking FacesGenerated in Real Time

https://www.microsoft.com/en-us/research/project/vasa-1/?utm_source=chatgpt.com

 

초록
우리는 단일 정지 이미지와 음성 오디오 클립을 기반으로 생동감 있는 얼굴과 매력적인 시각적 감정 기술(Visual Affective Skills, VAS)을 생성할 수 있는 프레임워크인 VASA를 소개합니다. 우리의 첫 모델인 VASA-1은 오디오와 정밀하게 동기화된 입술 움직임을 생성할 뿐만 아니라, 진정성과 생동감을 전달하는 데 중요한 얼굴의 다양한 미묘한 변화와 자연스러운 머리 움직임도 포착해낼 수 있습니다. 핵심 혁신은 얼굴 잠재 공간에서 작동하는 확산 기반 전체적인 얼굴 동작 및 머리 움직임 생성 모델과 비디오를 사용하여 표현력 있고 분리된 얼굴 잠재 공간을 개발하는 것에 있습니다. 새로운 메트릭 세트를 포함한 광범위한 실험을 통해 우리는 우리 방법이 이전 방법들보다 다양한 측면에서 크게 우수하다는 것을 보여줍니다. 우리 방법은 사실적인 얼굴 및 머리 동작과 함께 높은 비디오 품질을 제공하며, 최대 40 FPS로 512×512 비디오의 실시간 생성도 지원하며 시작 지연이 거의 없습니다. 이는 인간의 대화적 행동을 모방하는 생동감 있는 아바타와의 실시간 상호작용의 길을 열어줍니다. 프로젝트 웹페이지: https://www.microsoft.com/en-us/research/project/vasa-1/

 

1.서론
멀티미디어와 커뮤니케이션의 영역에서 인간의 얼굴은 단순한 표정 이상의 의미를 가지며, 미세한 움직임과 표현 하나하나가 감정을 전달하고, 말하지 않은 메시지를 전하며, 공감을 형성하는 동적 캔버스입니다. AI로 생성된 대화형 얼굴의 등장으로 우리는 인간 간, 그리고 인간-AI 간의 상호작용의 풍부함을 증대시키는 미래의 모습을 엿볼 수 있게 되었습니다. 이러한 기술은 디지털 커뮤니케이션의 향상 [61, 33], 의사소통 장애가 있는 사람들을 위한 접근성 증대 [27, 1], AI를 활용한 상호작용 교육 방식의 혁신 [7, 29], 그리고 의료 분야에서의 치료 지원 및 사회적 상호작용 제공 [39, 31]과 같은 약속을 가집니다.

 

이러한 역량을 달성하기 위한 한 걸음으로, 본 연구에서는 VASA-1을 소개합니다. 이는 높은 수준의 사실성과 생동감을 갖춘 오디오 기반 대화형 얼굴을 생성할 수 있는 새로운 방법입니다. 임의의 인물의 정지 얼굴 이미지와 임의의 인물의 음성 오디오 클립을 제공하면, 우리 방법은 고해상도의 극사실적인 대화형 얼굴 영상을 효율적으로 생성할 수 있습니다. 이 영상은 오디오 입력과 세밀하게 동기화된 입술 움직임을 포함할 뿐만 아니라, 자연스럽고 인간다운 얼굴 동작과 머리 움직임의 폭넓은 표현을 보여줍니다.

 

오디오를 통해 대화형 얼굴을 생성하는 문제는 최근 몇 년간 많은 관심을 받아왔으며, 다양한 접근 방식들이 제안되었습니다 [75, 37, 73, 49, 23, 59, 60, 58, 68, 72, 34, 24]. 그러나 기존 기술들은 여전히 자연스러운 대화형 얼굴의 진정성에 도달하는 데 있어 부족함이 많습니다. 현재 연구들은 주로 입술 동기화의 정확성에 중점을 두고 있어 유망한 정확도를 얻었으나 [37, 58], 표정의 표현력과 생동감 있는 얼굴 행동의 미묘한 차이들은 대부분 간과되었습니다. 그 결과 생성된 얼굴은 경직되고 설득력이 부족하게 보이는 경우가 많습니다. 또한 자연스러운 머리 움직임도 사실성 인식을 향상시키는 데 중요한 역할을 합니다. 최근 연구들이 사실적인 머리 움직임을 모방하려고 시도했으나 [59, 68, 72], 여전히 생성된 애니메이션과 실제 인간 움직임 패턴 사이에는 상당한 차이가 존재합니다.

 

그림 1: 단일 인물 이미지, 음성 오디오 클립, 그리고 선택적으로 다른 제어 신호 세트를 기반으로 우리의 접근 방식은 512×512 해상도에서 최대 40 FPS로 고품질의 생동감 있는 대화형 얼굴 영상을 생성합니다. 이 방법은 범용적이고 강력하며, 생성된 대화형 얼굴은 인간의 표정과 머리 움직임을 충실히 모방하여 높은 수준의 사실성과 생동감을 제공합니다. (이 논문에 나오는 모든 사실적인 인물 이미지는 [28, 4]에 의해 생성된 가상, 존재하지 않는 신원입니다. 생성된 영상 샘플과 오디오는 프로젝트 페이지에서 확인할 수 있습니다.)

 

또한 중요한 요소는 실시간 애플리케이션, 예를 들어 라이브 커뮤니케이션에서 중요한 역할을 하는 생성의 효율성입니다. 이미지 및 비디오 확산 기법이 대화형 얼굴 생성 [18, 47, 52]과 더 넓은 비디오 생성 분야에서 눈부신 발전을 이루었으나 [5, 8], 상당한 연산 요구 사항으로 인해 상호작용 시스템에서의 실용성이 제한되었습니다. 고품질 비디오 합성과 실시간 애플리케이션의 저지연 요구 사이의 격차를 메울 수 있는 최적화된 알고리즘이 필요한 상황입니다.

 

기존 방법의 한계를 고려하여, 본 연구는 얼굴 및 머리 움직임의 잠재 공간에서 작동하는 효율적이고 강력한 오디오 조건부 생성 모델을 개발합니다. 이전 연구와 달리, 우리는 얼굴의 전체적인 동작과 머리 움직임의 잠재 공간에서 Diffusion Transformer 모델을 훈련합니다. 우리는 입술 움직임, (비입술) 표현, 시선 및 깜빡임 등을 포함한 모든 얼굴 동작을 단일 잠재 변수로 간주하고, 그 확률 분포를 통합적으로 모델링합니다. 반면 기존 방법은 종종 각 요인에 대해 별도의 모델을 적용하고, 심지어 그것들을 교차하여 회귀 및 생성적 공식을 사용합니다 [59, 74, 68, 57, 72]. 우리의 전체적인 얼굴 동작 모델링과 결합된 머리 움직임 패턴 학습은 생동감 있고 감정적인 다양한 대화 행동을 생성하게 합니다. 또한 주된 시선 방향, 머리 거리, 감정 오프셋과 같은 조건 신호 세트를 학습 과정에 통합함으로써 복잡한 분포의 생성 모델링을 더 쉽게 하고, 생성 제어 가능성을 높였습니다.

 

이 목표를 달성하기 위해 또 하나의 도전은 앞서 언급한 전체적인 얼굴 동작의 잠재 공간을 구성하고, 확산 모델 훈련을 위한 데이터를 수집하는 것입니다. 얼굴 및 머리 움직임 이외에도 인간 얼굴 이미지는 정체성과 외형과 같은 다른 요소들을 포함하고 있습니다. 본 연구에서는 방대한 얼굴 비디오 데이터를 사용하여 인간 얼굴에 적합한 잠재 공간을 구축하려고 합니다. 우리의 목표는 얼굴의 잠재 공간이 얼굴 동작과 다른 요소들 간의 완전한 분리 상태를 가지면서도, 풍부한 얼굴 외형 세부 사항과 동적 뉘앙스를 모델링할 수 있는 높은 표현력을 갖추도록 하는 것입니다. 우리는 3D 기반 표현 [61, 17]을 바탕으로 하고, 신중하게 설계된 손실 함수 모음을 추가하여 이러한 목표를 달성하려 합니다. 얼굴 비디오에서 자가 지도 또는 약한 지도 방식으로 훈련된 우리의 인코더는 3D 외형, 정체성, 머리 자세, 전체적인 얼굴 동작을 포함한 잘 분리된 요인들을 생성할 수 있으며, 디코더는 주어진 잠재 코드에 따라 고품질의 얼굴을 생성할 수 있습니다.

 

VASA-1은 입술-오디오 동기화, 얼굴 동작, 머리 움직임의 사실성을 한층 높였습니다. 높은 이미지 생성 품질과 효율적인 실행 속도를 겸비하여, 사실적이고 생동감 있는 실시간 대화형 얼굴을 달성하였습니다. 자세한 평가를 통해 우리 방법이 기존 방법들보다 크게 우수하다는 것을 보여주었습니다. 우리는 VASA-1이 디지털 AI 아바타가 실세계 인간과의 상호작용만큼 자연스럽고 직관적인 방식으로 우리와 소통할 수 있는 미래에 더 가까워졌다고 믿습니다. 이는 더 역동적이고 공감할 수 있는 정보 교환을 위해 매력적인 시각적 감정 기술을 보여줍니다.

 

2.관련 연구

분리된 얼굴 표현 학습

얼굴 이미지를 분리된 변수들로 표현하는 것은 이전 연구들에 의해 광범위하게 연구되었습니다. 몇몇 방법들은 희소한 키포인트 [42, 69]나 3D 얼굴 모델 [40, 20, 71]을 사용하여 얼굴 동작과 기타 특성을 명시적으로 표현하려 하지만, 이는 부정확한 재구성이나 제한된 표현력과 같은 문제를 겪을 수 있습니다. 또한, 잠재 공간에서 분리된 표현을 학습하는 데 전념한 연구들도 많습니다. 일반적인 접근 방식은 얼굴을 정체성과 비정체성 구성 요소로 분리한 후, 이를 2D [10, 74, 32, 67, 35, 57] 또는 3D [61, 17] 맥락에서 다른 프레임 간에 재조합하는 것입니다. 이러한 방법들이 직면한 주요 도전은 다양한 요소를 효과적으로 분리하면서도 정적 및 동적 얼굴 속성에 대한 표현력을 유지하는 것인데, 본 연구에서는 이러한 문제를 해결하고자 합니다.

오디오 기반 대화형 얼굴 생성

오디오 입력을 통해 대화형 얼굴 영상을 생성하는 것은 컴퓨터 비전 및 그래픽스에서 오랜 과제로 여겨져 왔습니다. 초기 연구들은 오직 입술만 합성하는 데 중점을 두었으며, 오디오 신호를 입술 움직임으로 직접 매핑하는 방식으로 다른 얼굴 속성은 변경하지 않은 채로 두었습니다 [51, 11, 37, 67, 12]. 최근의 연구들은 오디오 입력에서 더 넓은 범위의 얼굴 표정과 머리 움직임을 포함하도록 확장되었습니다. 예를 들어 [72]의 방법은 생성 대상을 입술만을 위한 3DMM 계수, 눈 깜빡임, 머리 자세 등 여러 카테고리로 분리합니다. [68]은 [74]의 표현 잠재 공간에서 입술과 비입술 특징을 분해하는 방법을 제안했습니다. [72]와 [68] 모두 오디오 특징에서 직접적으로 입술 관련 표현을 회귀하고, 다른 속성들은 확률적 방식으로 모델링합니다. 이러한 접근들과 달리, 우리의 방법은 오디오와 다른 제어 신호를 함께 사용하여 포괄적인 얼굴 동작과 머리 자세를 생성합니다. 이 접근은 기존의 더 세밀한 분리와는 다르게, 보다 전체적이고 통합된 출력을 생성하는 것을 목표로 합니다.

비디오 생성

최근 생성 모델의 발전 [9, 25, 46, 45]은 비디오 생성 분야에서 큰 진전을 이끌어냈습니다. 초기의 비디오 생성 접근 방식 [56, 53, 44]은 적대적 학습 [22] 프레임워크를 사용했으며, 최근 방법들 [66, 6, 21, 30, 3, 8]은 다양한 비디오 분포를 포착하기 위해 확산 모델이나 오토 회귀 모델을 활용하고 있습니다. 최근에는 여러 연구들이 우리와 동시에 [52, 62] 오디오 기반 대화형 얼굴 생성을 위해 비디오 확산 기법을 적용하여 유망한 결과를 얻었습니다. 하지만 이러한 방법들은 느린 훈련과 추론 속도를 가지고 있습니다. 반면, 우리의 방법은 대화형 얼굴 비디오 생성에서 효율성과 고품질 결과를 모두 제공합니다.

 

3. 방법론

작업 정의

그림 1에 나타난 것처럼, 우리의 방법에 대한 입력은 임의의 정체성을 가진 단일 얼굴 이미지 𝐈와 임의의 인물로부터 제공된 음성 오디오 클립 𝐚입니다. 목표는 주어진 오디오를 사용하여 입력된 얼굴 이미지가 현실적이고 일관되게 말하는 합성 영상을 생성하는 것입니다. 성공적으로 생성된 영상은 몇 가지 주요 측면에서 높은 충실도를 보여야 합니다: 이미지 프레임의 선명도와 진정성, 오디오와 입술 움직임 간의 정확한 동기화, 표현력 있고 감정적인 얼굴 동작, 그리고 자연스러운 머리 자세 등입니다.

 

우리의 생성 과정은 또한 생성 지침을 제공하는 선택적 제어 신호 세트를 받아들일 수 있으며, 여기에는 주요 시선 방향 𝐠, 머리와 카메라 사이의 거리 d, 감정 오프셋 𝐞 등이 포함됩니다. 더 자세한 내용은 이후 섹션에서 다룰 예정입니다.

전체적인 프레임워크

비디오 프레임을 직접 생성하는 대신, 우리는 오디오와 다른 신호를 조건으로 한 잠재 공간에서 전체적인 얼굴 동작과 머리 움직임을 생성합니다. 이렇게 생성된 움직임 잠재 코드를 기반으로 우리의 방법은 얼굴 디코더를 사용해 비디오 프레임을 생성하며, 이때 입력 이미지에서 얼굴 인코더를 사용해 추출한 외형 및 정체성 특징도 함께 사용됩니다.

 

이를 위해 우리는 얼굴 잠재 공간을 구축하고 얼굴 인코더와 디코더를 훈련하는 것부터 시작합니다. 표현력이 높고 분리된 얼굴 잠재 학습 프레임워크를 설계하여 실제 얼굴 비디오 데이터에 대해 훈련합니다. 이후 우리는 간단하면서도 강력한 Diffusion Transformer를 훈련하여 오디오 및 다른 조건이 주어졌을 때 테스트 시점에서 움직임 분포를 모델링하고 움직임 잠재 코드를 생성합니다.

 

3.1 표현력 있고 분리된 얼굴 잠재 공간 구축
주어진 라벨이 없는 대화형 얼굴 비디오 데이터셋을 바탕으로, 우리는 높은 분리성과 표현력을 가진 인간 얼굴의 잠재 공간을 구축하고자 합니다. 분리성은 주체의 정체성과 관계없이 대규모 비디오에서 인간 머리와 얼굴의 전체적인 행동을 효과적으로 생성할 수 있게 하며, 또한 분리된 요인 제어를 통해 많은 응용에서 필요한 출력을 가능하게 합니다. 기존 방법들은 표현력 [10, 40, 68, 57]이나 분리성 [61, 17, 71] 혹은 둘 다 부족한 경우가 많습니다. 반면 얼굴의 외형 및 동적 움직임의 표현력은 디코더가 풍부한 얼굴 세부 사항을 가진 고품질 비디오를 출력하고, 잠재 생성기가 미세한 얼굴 동작을 포착할 수 있도록 보장합니다.

 

 

 

그림 2: 우리의 확산 트랜스포머를 이용한 전체적인 얼굴 동작 및 머리 자세 생성 프레임워크.

 

3.2 확산 트랜스포머를 활용한 전체적인 얼굴 동작 생성

구축된 얼굴 잠재 공간과 훈련된 인코더를 통해, 우리는 실제 대화형 얼굴 비디오에서 얼굴 동작과 머리 움직임을 추출하고 생성 모델을 훈련할 수 있습니다. 중요한 점은, 우리는 정체성에 독립적인 전체적인 얼굴 동작 생성(HFDG)을 고려하며, 이때 학습된 잠재 코드는 입술 움직임, (비입술) 표정, 시선 및 깜빡임과 같은 모든 얼굴 움직임을 표현합니다. 이는 다양한 요인을 각각 별도의 모델로 분리하고 회귀와 생성 방식을 교차 적용하는 기존 방법과 다릅니다 [59, 74, 68, 57, 72]. 또한 기존 방법은 제한된 수의 정체성을 훈련 데이터로 사용하며 [72, 65, 19], 표현력이 높은 잠재 공간에서 인간의 다양한 움직임 패턴을 모델링하는 데 한계가 있었습니다.

 

이번 연구에서는 오디오 기반 HFDG를 위해 확산 모델을 사용하고, 다수의 정체성으로부터 얻은 대규모 대화형 얼굴 비디오에서 훈련합니다. 특히, 우리는 시퀀스 생성 작업을 위해 트랜스포머 아키텍처를 적용합니다 [55, 36, 50]. 그림 2는 HFDG 프레임워크의 개요를 보여줍니다.

 

 

확산 모델 공식화

확산 모델은 두 개의 마르코프 체인 [25, 45, 46]을 정의합니다. 전방 체인은 목표 데이터에 점진적으로 가우시안 노이즈를 추가하고, 반대로 역방향 체인은 노이즈로부터 원시 신호를 반복적으로 복원합니다. 우리는 디노이징 스코어 매칭 목표 [46]을 따르며 단순화된 손실 함수를 정의합니다:

 

조건 신호

오디오 기반 움직임 생성 작업을 위한 주요 조건 신호는 오디오 특징 시퀀스 𝐀입니다. 우리는 또한 생성 모델링을 더 쉽게 하고 생성 제어 가능성을 높이기 위해 몇 가지 추가 신호를 사용합니다.

 

특히, 주요 시선 방향 𝐠, 머리-카메라 거리 d, 감정 오프셋 𝐞를 고려합니다. 주요 시선 방향 𝐠=(θ,ϕ)는 구면 좌표로 정의된 벡터이며, 생성된 대화형 얼굴의 집중된 방향을 지정합니다. 우리는 [70]을 사용해 훈련 비디오 클립의 각 프레임에서 𝐠를 추출하고, 간단한 히스토그램 기반 군집 알고리즘을 적용합니다. 머리 거리 d는 얼굴과 가상 카메라 사이의 거리를 조절하는 정규화된 스칼라로, 생성된 얼굴 비디오에서 얼굴 크기에 영향을 미칩니다. 우리는 [16]을 사용해 훈련 비디오의 크기 레이블을 얻습니다. 감정 오프셋 𝐞는 대화형 얼굴에서 묘사된 감정을 조절합니다. 감정은 일반적으로 오디오와 밀접하게 연결되어 있으며, 대부분 오디오로부터 추론될 수 있기 때문에 𝐞는 필요할 때 감정을 강화하거나 약간 변경하는 글로벌 오프셋 역할만 합니다. 이는 추론 중 전체적인 감정 변화를 달성하거나 입력 오디오와 일치하지 않는 감정을 생성하는 용도로 설계되지 않았습니다. 실제로, 우리는 [41]을 사용해 추출된 평균 감정 계수를 감정 신호로 사용합니다.

 

인접 창 간의 매끄러운 전환을 위해, 우리는 이전 창에서 생성된 오디오 특징과 움직임의 마지막 K 프레임을 현재 창의 조건으로 포함합니다. 요약하자면, 우리의 입력 조건은 다음과 같이 표현될 수 있습니다:

분류기 없는 가이던스 (CFG) [26]

훈련 단계에서, 우리는 각 입력 조건을 무작위로 드롭합니다. 추론 중에는 다음을 적용합니다:

 

 

3.3 대화형 얼굴 비디오 생성

 

4.실험

구현 세부사항

 

평가 벤치마크

우리는 두 개의 데이터셋을 사용하여 우리의 방법을 평가합니다. 첫 번째는 VoxCeleb2 [13]의 서브셋입니다. 우리는 VoxCeleb2의 테스트 분할에서 46명의 주체를 무작위로 선택하고 각 주체에 대해 10개의 비디오 클립을 무작위로 샘플링하여 총 460개의 클립을 생성했습니다. 이러한 비디오 클립은 약 5∼15초 길이이며 (80%는 10초 미만), 대부분 인터뷰와 뉴스 보도 내용입니다. 장시간 발화 생성과 더 다양한 음성 변화를 평가하기 위해, 우리는 17명의 인물로부터 32개의 1분 클립을 추가로 수집했습니다. 이 비디오는 주로 온라인 코칭 세션과 교육 강의에서 얻은 것으로, VoxCeleb2보다 말하는 스타일이 상당히 다양합니다. 우리는 이 데이터셋을 OneMin-32라고 부릅니다.

 

 

그림 3: 다양한 제어 신호에 따른 생성된 대화형 얼굴. 상단 행: 다른 주요 시선 방향 조건에 따른 결과 (정면, 좌측, 우측, 상단 순서). 중간 행: 다양한 머리 거리 조건에 따른 결과 (먼 거리에서 가까운 거리로 순서대로). 하단 행: 다른 감정 오프셋 조건에 따른 결과 (중립, 행복, 화남, 놀람 순서).

 

그림 4: 정체성과 움직임 간의 분리. 이 예시에서는 동일한 생성된 머리와 얼굴 동작 시퀀스를 세 가지 다른 얼굴 이미지에 적용했습니다.

 

그림 5: 머리 자세와 얼굴 동작 간의 분리. 위에서부터 아래로: 원시 생성 시퀀스, 고정된 초기 얼굴 동작과 생성된 자세를 적용한 경우, 고정된 초기 머리 자세와 사전에 정의된 회전 자세와 함께 생성된 얼굴 동작을 적용한 경우.

 

4.1 정성적 평가

시각적 결과

그림 1은 우리의 방법으로 생성된 오디오 기반 대화형 얼굴의 대표적인 결과를 보여줍니다. 시각적으로 검토했을 때, 우리의 방법은 생생한 얼굴 감정을 포함한 고품질 비디오 프레임을 생성할 수 있습니다. 또한 말하는 동안의 시선의 가끔 변화나 고심하는 동안의 눈 깜박임의 자연스럽고 다양한 리듬 등, 인간과 같은 대화 행동을 생성할 수 있습니다. 우리의 방법의 능력과 출력 품질을 완전히 이해하기 위해 독자들이 온라인에서 우리의 비디오 결과를 확인해보기를 강력히 추천합니다.

생성 제어 가능성

그림 3은 주요 시선, 머리 거리, 감정 오프셋을 포함한 다양한 제어 신호 하에서 생성된 결과를 보여줍니다. 생성 모델이 이러한 신호들을 잘 해석하여, 명시된 매개변수들을 충실히 따르는 대화형 얼굴 결과를 생성할 수 있음을 확인할 수 있습니다.

얼굴 잠재 요소의 분리

그림 4는 동일한 움직임 잠재 시퀀스를 다른 주체에 적용할 때, 우리의 방법이 각기 다른 얼굴 움직임과 고유한 얼굴 정체성을 효과적으로 유지함을 보여줍니다. 이는 우리의 방법이 정체성과 움직임을 분리하는 데 효과적임을 나타냅니다. 그림 5는 머리 자세와 얼굴 동작 간의 효과적인 분리를 더욱 잘 보여줍니다. 한 가지 요소를 고정하고 다른 요소를 변경하면, 생성된 이미지는 의도한 머리와 얼굴 동작을 간섭 없이 충실히 반영합니다.

분포 외 생성

우리의 방법은 훈련 분포를 벗어난 사진 및 오디오 입력도 처리할 수 있는 능력을 보여줍니다. 예를 들어, 그림 6에서 보여주듯이, 예술적 사진, 노래 오디오 클립 (상단 두 행), 그리고 비영어권 음성 (마지막 행)도 처리할 수 있습니다. 주목할 점은 이러한 데이터 변형이 훈련 데이터셋에 포함되지 않았음에도 불구하고, 우리의 방법은 여전히 오디오와 잘 정렬된 고품질 비디오를 생성할 수 있다는 것입니다.

 

 

그림 6: 훈련 분포 외의 이미지(비사실적)와 오디오(상위 두 행은 노래 오디오, 마지막 행은 비영어권 음성)를 사용한 생성 결과. 우리의 방법은 이러한 데이터 변형에 대해 훈련되지 않았음에도 불구하고, 여전히 오디오와 잘 정렬된 고품질 비디오를 생성할 수 있습니다.

 

4.2 정량적 평가

평가 지표

우리는 생성된 입술 움직임, 머리 자세, 전체 비디오 품질에 대한 정량적 평가를 위해 다음 지표들을 사용합니다. 여기에는 CLIP [38]과 유사한 방식으로 훈련된 새로운 데이터 기반 오디오-자세 동기화 지표도 포함됩니다.

  • 오디오-자세 정렬: 생성된 머리 자세와 입력 오디오 간의 정렬을 측정하는 것은 간단하지 않으며, 잘 확립된 지표도 없습니다. 최근 몇몇 연구들은 [72, 50] 오디오-자세 정렬을 평가하기 위해 Beat Align Score [43]를 사용했습니다. 하지만 이 지표는 자연스러운 발화와 인간의 머리 움직임의 "비트" 개념이 모호하기 때문에 최적의 방법은 아닙니다. 이번 연구에서는 Contrastive Audio and Pose Pretraining (CAPP) 점수라는 새로운 데이터 기반 지표를 도입했습니다. CLIP [38]에서 영감을 받아, 우리는 자세 시퀀스 인코더와 오디오 시퀀스 인코더를 공동으로 훈련하고, 입력 자세 시퀀스와 오디오가 쌍을 이루는지 예측합니다. 오디오 인코더는 사전 훈련된 Wav2Vec2 네트워크 [2]에서 초기화되며, 자세 인코더는 무작위 초기화된 6층 트랜스포머 네트워크입니다. 입력 윈도우 크기는 3초입니다. 우리의 CAPP 모델은 2천 시간의 실제 오디오와 자세 시퀀스에서 훈련되었으며, 오디오 입력과 생성된 자세 간의 동기화 정도를 평가하는 데 있어 강력한 성능을 보여줍니다 (Sec. 4.3 참조).
  • 자세 변동 강도: 우리는 또한 자세 변동 강도 점수 ΔP를 정의하는데, 이는 인접한 프레임 간의 자세 각도 차이의 평균입니다. 모든 생성된 비디오의 모든 프레임에 대해 평균한 ΔP는 방법에 의해 생성된 전체 머리 움직임 강도를 나타냅니다.
  • 비디오 품질: 이전 비디오 생성 연구 [66, 44]를 따라, 우리는 Fréchet Video Distance (FVD) [54]를 사용하여 생성된 비디오 품질을 평가합니다. 우리는 25개의 연속적인 프레임 시퀀스를 사용하여 FVD 지표를 계산합니다.

비교된 방법

우리는 세 가지 기존 오디오 기반 대화형 얼굴 생성 방법과 우리의 방법을 비교했습니다: MakeItTalk [75], Audio2Head [59, 72], 그리고 SadTalker [72]. MakeItTalk [75]은 LSTM을 사용해 오디오를 동적 얼굴 랜드마크로 변환한 후, 이 랜드마크를 사용하여 이미지 왜곡이나 신경망 기반 이미지 변환을 통해 소스 이미지를 비디오 시퀀스로 애니메이션화합니다. Audio2Head [59]는 오디오를 머리 자세로 번역하는 움직임 인식 순환 네트워크를 사용하며, 이와 원본 오디오를 사용해 밀집된 움직임 필드를 생성합니다. SadTalker [72]는 VAE 네트워크를 통해 오디오에서 자세 오프셋을 생성하고, 오디오 특징에서 입술 관련 계수를 예측하는 회귀 네트워크를 사용합니다. 이 방법은 동일한 오디오 입력으로부터 다양한 자세와 눈 깜빡임을 생성할 수 있지만, 눈썹, 시선, 얼굴 표정 등의 다른 움직임에 대해서는 결정론적인 패턴만을 회귀합니다.

주요 결과

각 오디오 입력에 대해, 우리는 결정론적 접근 방식 (즉, MakeItTalk과 Audio2Head)으로 단일 비디오를 생성합니다. SadTalker [72]와 우리의 방법의 경우, 각 오디오에 대해 세 개의 비디오를 샘플링하고 계산된 지표를 평균합니다. 이러한 방법들에서 사용하는 자세 표현이 다르기 때문에, 생성된 프레임에서 자세 관련 지표(즉, CAPP와 ΔP)를 재추출하여 계산했습니다. FVD 지표의 경우, 실제 비디오와 생성된 비디오 각각 2천 개의 25 프레임 비디오 클립을 사용했습니다. 참고 목적으로 실제 비디오의 평가 지표도 보고하였습니다.

 

 

 

표 1: 이전 방법과 VoxCeleb2 벤치마크에서의 비교.

 

표 2: 이전 방법과 OneMin-32 벤치마크에서의 비교.

 

 

-----

표 1과 표 2는 각각 VoxCeleb2와 OneMin-32 벤치마크에서 이전 방법들과 우리의 방법을 비교한 결과를 보여줍니다. 여기서 각 열은 오디오-입술 동기화 품질, 오디오-자세 정렬, 머리 움직임 강도, 그리고 비디오 품질 등을 평가하기 위해 사용된 지표들을 나타냅니다. 각 지표에 대한 결과를 자세히 살펴보겠습니다.

종합 평가

-----

 

4.3 분석 및 소거 연구

CAPP 지표

우리는 오디오와 머리 자세 간의 정렬을 측정하는 데 있어 제안한 CAPP 지표의 효과를 분석합니다.

 

표 3: 프레임 이동에 따른 CAPP 변화

먼저, 시간적 이동에 대한 감도를 연구하기 위해 실제 오디오-자세 쌍에 프레임 오프셋을 수동으로 도입합니다. 우리는 VoxCeleb2 테스트 분할에서 3초 클립 세그먼트를 추출하여 약 2.1천 개의 오디오-자세 쌍을 얻었습니다. 이들 쌍의 평균 CAPP 점수는 0.608이며, 이는 표 3에 나와 있습니다. 수동으로 프레임을 이동시킨 경우 CAPP 점수는 빠르게 감소하며, 두 프레임 이상의 이동에서는 거의 0에 가까워집니다. 이는 CAPP 점수가 오디오와 머리 자세 정렬 사이의 강력한 상관관계를 갖고 있음을 나타냅니다.

 

표 4: 자세 변동 스케일링에 따른 CAPP 변화

우리는 또한 다양한 계수를 사용해 연속 프레임 간의 자세 차이를 수동으로 조정하여 머리 움직임 강도가 CAPP에 미치는 영향을 조사했습니다. 표 4는 움직임 강도를 조정하면 CAPP 점수가 부정적으로 영향을 받음을 보여줍니다. 이는 CAPP가 오디오와 자세 간의 정렬을 그 강도 측면에서도 평가할 수 있음을 시사합니다. 그러나 이 강도에 대한 민감도는 시간적 불일치에 대한 민감도보다는 덜 두드러집니다.

 

CFG 스케일

 

 

 

 

우리는 또한 샘플링 단계가 성능에 미치는 영향을 평가했습니다. 표 5는 샘플링 단계를 50에서 10으로 줄이면 입술-오디오 및 오디오-자세 정렬이 개선되지만, 자세 변동 강도와 전체 비디오 품질에는 영향을 미친다는 것을 보여줍니다. 이러한 단계 감소는 이 잠재 움직임 생성 모듈의 추론 과정을 5배까지 가속화할 수 있습니다.

 

5.결론

요약하자면, 본 연구는 VASA-1을 소개하며, 이는 단일 이미지와 오디오 입력을 기반으로 현실적인 입술 동기화, 생생한 얼굴 표정, 자연스러운 머리 움직임을 효율적으로 생성하는 오디오 기반 대화형 얼굴 생성 모델입니다. VASA-1은 비디오 품질과 성능 효율성에서 기존 방법들을 크게 능가하며, 생성된 얼굴 비디오에서 유망한 시각적 감정 기술을 보여줍니다. 기술적 핵심은 표현력 있고 분리된 얼굴 잠재 공간에서 작동하는 혁신적인 전체적인 얼굴 동작과 머리 움직임 생성 모델입니다.

VASA-1의 진보는 커뮤니케이션, 교육, 의료 등 다양한 분야에서 인간-인간 및 인간-AI 상호작용을 재편할 잠재력을 가지고 있습니다. 제어 가능한 조건 신호의 통합은 사용자 맞춤형 경험을 위한 모델의 적응성을 더욱 높여줍니다.

 

제한 사항 및 향후 연구

우리의 방법에는 여전히 몇 가지 한계가 존재합니다. 현재는 인간의 영역을 가슴 부분까지만 처리합니다. 상반신 전체로 확장하면 추가적인 기능을 제공할 수 있을 것입니다. 3D 잠재 표현을 활용하지만, [63, 64]와 같은 더 명시적인 3D 얼굴 모델이 없으면 신경 렌더링으로 인해 텍스처 고정과 같은 아티팩트가 발생할 수 있습니다. 또한, 우리 접근 방식은 머리카락과 의상 같은 비강체 요소를 고려하지 않으며, 이는 더 강력한 비디오 사전 정보를 통해 해결될 수 있습니다. 향후 연구에서는 표현력과 제어력을 향상시키기 위해 더 다양한 대화 스타일과 감정을 통합할 계획입니다.

6. 사회적 영향 및 책임 있는 AI 고려사항

우리의 연구는 가상 AI 아바타를 위한 오디오 기반 시각적 감정 기술을 생성하는 데 초점을 맞추고 있으며, 긍정적인 응용을 목표로 합니다. 본 연구는 사람을 속이거나 오도하는 콘텐츠를 만드는 데 사용되는 것을 의도하지 않습니다. 그러나 다른 관련 콘텐츠 생성 기술과 마찬가지로, 사람을 사칭하는 데 악용될 가능성은 여전히 존재합니다. 우리는 실제 인물을 오도하거나 해를 끼치는 콘텐츠를 만드는 행위를 반대하며, 위조 탐지를 발전시키는 데 이 기술을 적용하는 것에 관심이 있습니다. 현재 이 방법으로 생성된 비디오에는 여전히 식별 가능한 아티팩트가 포함되어 있으며, 수치적 연구는 실제 비디오의 진정성에 도달하는 데 아직 차이가 있음을 보여줍니다.

 

악용 가능성을 인지하면서도, 이 기술의 상당한 긍정적 잠재력을 인식하는 것이 중요합니다. 교육적 형평성 증진, 의사소통에 어려움을 겪는 사람들의 접근성 개선, 필요한 사람들에게 동반자나 치료적 지원을 제공하는 등 그 이점은 우리 연구와 관련된 다른 탐색의 중요성을 강조합니다. 우리는 인간의 복지를 증진하는 것을 목표로, 책임감 있게 AI를 개발하는 데 헌신하고 있습니다.

기여 진술

Sicheng Xu, Guojun Chen, Yu-Xiao Guo는 다양한 알고리즘 모듈의 구현, 훈련, 실험 및 데이터 처리와 관리에 핵심적인 기여를 했습니다. Jiaolong Yang은 프로젝트 아이디어를 제안하고 프로젝트를 이끌며 전체적인 프레임워크를 설계하고 각 구성 요소에 대해 상세한 기술적 조언을 제공했습니다. Chong Li, Zhengyu Zang, Yizhong Zhang은 시스템 품질 향상, 평가 수행, 결과 시연에 기여했습니다. Xin Tong은 프로젝트 전반에 걸쳐 기술적 조언을 제공하고 프로젝트 조정에 도움을 주었습니다. Baining Guo는 전략적 연구 방향 안내, 과학적 조언 및 기타 프로젝트 지원을 제공했습니다. 논문은 Jiaolong Yang과 Sicheng Xu에 의해 작성되었습니다.

감사의 말

Zheng Zhang, Zhirong Wu, Shujie Liu, Dong Chen, Xu Tan 등 동료들의 소중한 논의와 통찰력 있는 제안에 감사드립니다.

 

2404.10667v2.pdf
16.74MB