https://arxiv.org/abs/2404.08471
이 논문은 비디오로부터 비지도 학습을 위한 독립적인 목표로서의 특징 예측(feature prediction)을 탐구하며, V-JEPA라는 비전 모델 모음을 소개합니다. 이 모델들은 사전 훈련된 이미지 인코더, 텍스트, 부정적 예제, 재구성 또는 다른 감독 학습 소스를 사용하지 않고 오직 특징 예측 목표를 사용하여 훈련됩니다. 이 모델들은 공개된 데이터셋에서 수집된 200만 개의 비디오로 훈련되었으며, 후속 이미지 및 비디오 작업에서 평가되었습니다. 우리의 결과는 비디오 특징을 예측함으로써 학습하는 것이 모션 및 외관 기반 작업 모두에서 잘 수행되는 다재다능한 시각 표현을 생성함을 보여줍니다. 이는 모델의 파라미터를 조정하지 않고, 예를 들어, 고정된 백본(frozen backbone)을 사용하는 경우에도 유효합니다. 우리 가장 큰 모델인 ViT-H/16은 오직 비디오로만 훈련되어 Kinetics-400에서 81.9%, Something-Something-v2에서 72.2%, ImageNet1K에서 77.9%의 성능을 기록했습니다.
1. 서론
인간은 망막에서 오는 저수준 신호를 세계에 대한 의미적 시공간 이해로 변환하는 놀라운 능력을 가지고 있으며, 객체와 전역 운동과 같은 개념을 종합합니다(Spelke et al., 1995). 머신 러닝 커뮤니티의 오랜 목표는 인간의 비지도 학습을 이끄는 원칙이나 목표를 규명하는 것입니다(Field, 1994; Berkes and Wiskott, 2005; Hinton, 1989). 관련된 가설 중 하나는 예측 특징 원칙(predictive feature principle)에 기반을 두고 있으며(Rao and Ballard, 1999), 이는 시간적으로 인접한 감각 자극의 표현이 서로 예측 가능해야 한다고 주장합니다.
이 연구에서는 비디오로부터 시각 표현을 비지도 학습하기 위한 독립적인 목표로서의 특징 예측을 재검토합니다. 이 분야의 수많은 발전, 예를 들어 비전 분야에서의 트랜스포머 아키텍처의 표준 사용(Dosovitskiy et al., 2020), 마스킹 오토인코딩 프레임워크의 성숙(Xie et al., 2021; Bao et al., 2021; He et al., 2021), 쿼리 기반 특징 풀링(Chen et al., 2022), 공동 임베딩 예측 아키텍처(JEPA)(LeCun, 2022; Assran et al., 2023; Baevski et al., 2022b), 및 더 큰 데이터셋은 현대적이고 개념적으로 단순한 방법인 비디오 공동 임베딩 예측 아키텍처 또는 V-JEPA를 구성하는 독특한 도구 모음을 형성합니다. V-JEPA는 사전 훈련된 이미지 인코더, 텍스트, 부정적 예제, 인간 주석 또는 픽셀 수준 재구성을 사용하지 않고 오직 특징 예측에만 기반합니다.
우리는 다음의 단순한 질문에 답하고자 합니다: 현대적인 도구로 비디오로부터의 비지도 학습을 위한 독립적인 목표로서 특징 예측은 얼마나 효과적인가?
이를 위해, 우리는 공개적으로 사용 가능한 데이터셋에서 수집된 200만 개의 비디오 데이터셋을 사용하여 마스킹 모델링 예측 작업과 공동 임베딩 예측 아키텍처를 결합하여 V-JEPA 모델의 가족을 사전 훈련시켰습니다(그림 2 참조). 우리는 고정된 평가와 끝에서 끝 미세 조정을 사용하여 여러 하위 이미지 및 비디오 작업에서 성능을 측정했습니다. 우리의 연구 결과는 특징 예측이 실제로 비디오로부터의 비지도 학습을 위한 효과적인 독립 목표가 될 수 있음을 시사하며, 픽셀 예측 방법보다 훨씬 짧은 훈련 스케줄을 사용합니다. 구체적으로:
- 특징 예측은 모델의 가중치를 조정하지 않고도 다양한 하위 이미지 및 비디오 작업에서 잘 수행되는 다재다능한 시각 표현을 이끌어냅니다. 즉, 고정된 백본을 사용합니다. V-JEPA는 미세한 시간적 이해가 필요한 SomethingSomething-v2 작업에서 우리가 고려한 방법들 중 최고의 성능(+6% 정확도)을 달성했습니다. V-JEPA는 또한 외관 기반 특징이 충분한 Kinetics400과 같은 작업에서도 경쟁력을 갖추고 있어, DINOv2와 같은 최신 이미지 모델이 뛰어납니다(그림 1 및 표 6 참조).
- 특징 예측으로 훈련된 모델은 고정된 평가 프로토콜(세심한 탐색)에서 픽셀 예측 접근법보다 우수하며, 전체 미세 조정에서는 픽셀 예측과 경쟁할 수 있으며, 훨씬 짧은 훈련 스케줄을 사용합니다(표 5 및 6 참조).
- 특징 예측으로 훈련된 모델은 픽셀 예측 접근법보다 라벨 효율적입니다. 사용할 수 있는 라벨된 예제의 수를 줄이면 V-JEPA와 픽셀 재구성 모델 간의 성능 차이가 증가합니다(표 7 참조).
Figure 1
V-JEPA 모델은 비디오로 사전 훈련되어 다양한 시각적 표현을 학습합니다. 모델의 파라미터를 조정하지 않고도, 즉 동일한 고정된 백본을 사용하여 모션 기반 작업(Something-Something-v2)과 외관 기반 작업(Kinetics 400) 모두에서 우수한 성능을 발휘합니다.
2. 관련 연구
느린 특징
시간적으로 인접한 표현이 서로 예측 가능하도록 하는 한 가지 방법은 시간이 지나도 천천히 변하도록 하는 것입니다. 예측 특징을 목표로 한 초기 연구들은 개별 비디오 프레임의 표현이 국소적으로 시간 불변하도록 하면서 SFA(Wiskott and Sejnowski, 2002), SSA(Kayser et al., 2001), Simulated Fixations(Zou et al., 2012)와 같은 스펙트럼 방법을 사용하여 표현 붕괴를 방지했습니다. 최근에는 Goroshin et al.(2015), Wang et al.(2010)이 시암쌍둥이 컨볼루션 네트워크를 훈련하여 두 연속된 프레임의 표현을 동일한 지점으로 맵핑하면서 먼 프레임의 표현이 다양하도록 각각 쌍별 마진 손실과 삼중 손실을 사용했습니다. 다른 연구들(Oord et al., 2018; Surís et al., 2021; Feichtenhofer et al., 2021)은 노이즈 대비 추정(Gutmann and Hyvärinen, 2012)을 사용하여 시간 불변성을 구현했습니다. 본 논문에서는 시간 불변성을 넘어 마스킹 모델링을 사용한 특징 예측을 탐구합니다.
예측 특징
국소 불변성을 넘어서, 특정 연구 그룹은 하나의 시간 단계에서 프레임 또는 클립의 표현을 다른 시간 단계의 표현으로 맵핑하기 위해 예측기 네트워크를 훈련합니다. Srivastava et al.(2015), Vondrick et al.(2016), Wang et al.(2023b)은 이러한 비디오 특징 예측기 네트워크를 고정된 사전 훈련된 이미지 또는 비디오 인코더 위에서 훈련합니다. 타겟 특징 추출기를 고정하지 않고, 여러 방법은 비디오 인코더와 예측기 네트워크를 동시에 훈련하며, 감독된 행동 예측 손실(Girdhar and Grauman, 2021)을 사용하거나, 대조 손실에서 먼 클립의 표현을 부정적 샘플로 사용하여 붕괴를 방지합니다(Han et al., 2019, 2020; Tan et al., 2023). 이들은 종종 작은 컨볼루션 인코더에 초점을 맞춥니다(Han et al., 2019, 2020). 특징 공간에서 누락된 정보를 예측하여 표현을 학습하는 아이디어는 쌍둥이 인코더와 예측기 네트워크를 결합한 공동 임베딩 예측 아키텍처(JEPA)의 핵심이기도 합니다(LeCun, 2022). JEPA는 오디오 데이터(Baevski et al., 2022b), 이미지 데이터(Zhou et al., 2021; Oquab et al., 2023; Assran et al., 2023)와 같은 여러 모달리티에서 성공적으로 구현되었습니다. 이 연구에서는 자가 지도 학습의 최근 발전을 활용하여 이 패러다임을 비디오 데이터로 확장합니다.
자가 지도 학습의 발전
비전 트랜스포머(Dosovitskiy et al., 2020; Li et al., 2022)의 사용은 공동 임베딩 아키텍처(Chen et al., 2021; Caron et al., 2021; Oquab et al., 2023; Zhou et al., 2021; Assran et al., 2022)와 함께 자가 지도 학습에서 표준적인 관행이 되었고, 학습 가능한 마스크 토큰으로 픽셀 디코더를 트랜스포머로 매개변수화하여 픽셀 공간에서 마스킹 이미지 모델링을 잠금 해제했습니다(Dosovitskiy et al., 2020; Xie et al., 2021; He et al., 2021; Bao et al., 2021). 이는 오토인코딩 방법의 표현 품질에 큰 변화를 가져왔습니다(Vincent et al., 2010). 이러한 생성 방법은 이후 시공간 마스킹을 사용하여 비디오 데이터로 확장되었습니다(Tong et al., 2022; Feichtenhofer et al., 2022; Wang et al., 2023a; Kalluri et al., 2023; Gupta et al., 2023). 최근에는 교차 주의 기반의 학습 가능한 풀링 메커니즘을 사용하여 마스킹 이미지 오토인코더의 표현을 크게 개선할 수 있음이 보여졌습니다(Chen et al., 2022). 마지막으로, BYOL(Grill et al., 2020)에서 비대조 붕괴 방지 전략을 신중하게 선택하여 이미지 특징 예측 방법(Baevski et al., 2022b; Assran et al., 2023)에서도 작동하게 했으며, 이는 손으로 만든 이미지 변환에 대한 불변성에 의존하지 않고 다양한 하위 작업에 사용할 수 있는 표현을 학습할 수 있음을 보여주었습니다.
특징 예측 대 픽셀 재구성
픽셀 공간에서 예측하는 접근 방식은 시각적 입력의 모든 저수준 세부 사항을 포착하기 위해 상당한 모델 용량과 계산을 할애해야 합니다. 반면, 잠재 공간에서 예측하는 접근 방식은 타겟 표현에서 관련 없거나 예측할 수 없는 픽셀 수준의 세부 사항을 제거할 수 있는 유연성을 가지고 있습니다(Vondrick et al., 2016). 표현 공간에서 예측하는 것은 다양한 후속 작업에서 선형 프로빙 또는 저용량 적응을 통해 잘 수행되는 다재다능한 표현을 이끌어내는 것으로 입증되었습니다(Assran et al., 2023; Oquab et al., 2023; Assran et al., 2022). 또한, 픽셀 수준 재구성에 비해 사전 훈련 중 효율성 이득을 보여줍니다(Assran et al., 2023; Baevski et al., 2022a, 2022b). Baevski et al.(2022a, 2022b)의 연구는 추가로 표현 공간에서 예측하는 것이 이미지, 오디오, 텍스트 도메인에서 경쟁력 있는 끝에서 끝 미세 조정 성능을 이끌어낸다는 것을 보여줍니다. 이 연구에서는 이러한 결과를 비디오 모달리티로 확장합니다.
그림 2
공동 임베딩 예측 아키텍처는 입력 x의 표현으로부터 입력 y의 표현을 예측하도록 훈련됩니다. 추가 변수 z는 x에서 y를 계산하는 변환에 대한 정보를 예측기에 제공합니다.
3. 방법론: Video-JEPA
3.1 훈련 목표
-----------------------------------------------------------------------------------------------------------------------------------------------------------------
-----------------------------------------------------------------------------------------------------------------------------------------------------------------
그림 3 V-JEPA
훈련은 T 프레임의 비디오 클립에서 공간 해상도 H × W를 가진 프레임을 시퀀스 L 토큰으로 평탄화하여 작동합니다. (왼쪽에서 오른쪽으로) 먼저 비디오 클립에서 토큰을 드롭하여 x-인코더의 입력을 얻습니다. x-인코더는 마스킹된 비디오 시퀀스를 처리하여 각 입력 토큰에 대한 임베딩 벡터를 출력합니다. 다음으로, x-인코더의 출력은 마스킹된 시공간 패치의 위치 임베딩을 포함하는 학습 가능한 마스크 토큰 집합과 연결됩니다. 예측기 네트워크는 결합된 토큰 시퀀스를 처리하여 각 마스크 토큰에 대한 임베딩 벡터를 출력합니다. 예측기의 출력은 L1 손실을 사용하여 예측 대상에 회귀됩니다. 예측 대상은 y-인코더의 출력에 해당합니다.
3.2 예측 과제: x에서 y 예측하기
특징 예측 과제는 마스킹 모델링 공식화(He et al., 2021; Tong et al., 2022)에 기반합니다. 즉, 비디오에서 영역 x와 y는 마스킹을 사용하여 샘플링됩니다. 비디오에서 y를 샘플링하기 위해, 여러 개의 (겹칠 수도 있는) 공간적으로 연속된 블록을 다양한 종횡비로 샘플링하고, 이러한 공간 블록을 비디오의 전체 시간 차원에 반복합니다. x는 나머지 부분으로 간주됩니다. 비디오의 공간 및 시간적 중복성으로 인한 정보 누출을 제한하고 더 어려운 예측 과제를 만들기 위해, 전체 시간 차원을 덮는 큰 연속 블록을 마스킹합니다(Tong et al., 2022).
우리는 두 가지 유형의 마스크를 활용합니다: 단거리 마스크(short-range masks)와 장거리 마스크(long-range masks). 단거리 마스크에서는 각 프레임의 15%를 덮는 8개의 무작위로 샘플링된 타겟 블록의 합집합을 사용합니다. 장거리 마스크에서는 각 프레임의 70%를 덮는 2개의 무작위로 샘플링된 타겟 블록의 합집합을 사용합니다. 두 경우 모두, 샘플링된 블록의 종횡비는 (0.75, 1.5) 범위에서 무작위로 선택됩니다. 단거리 및 장거리 마스크는 여러 블록을 샘플링하고 그 합집합을 취하여 생성되므로, 평균 마스킹 비율은 약 90%입니다. 우리는 우리의 마스킹 전략을 멀티블록(multi-block)이라고 부르며, 섹션 4에서 다른 가능한 마스킹 전략과 비교합니다.
3.3 네트워크 매개변수 설정
우리는 비전 트랜스포머(ViT)(Dosovitskiy et al., 2020; Arnab et al., 2021)를 비디오 백본으로 사용합니다. 트랜스포머 네트워크로 비디오를 처리하기 위해, 비디오 클립을 3D 그리드의 L 시공간 패치로 분할합니다. 여기서 패치는 2개의 연속된 프레임에 걸쳐 있는 16 × 16 픽셀 블록으로 구성됩니다. 이러한 시공간 패치를 토큰이라고 합니다. 이 토큰 시퀀스는 트랜스포머 블록 스택에 의해 직접 처리됩니다. 입력 x와 y는 비디오의 마스킹된 영역에 해당하며, 단순히 토큰의 일부를 드롭하여 비디오 마스크를 적용합니다. 우리는 x-인코더의 입력과 y-인코더의 출력에 마스킹을 적용하여 컨텍스트화된 타겟을 구성합니다(Baevski et al., 2022b). 인코더는 표준 ViT 네트워크를 사용하여 매개변수화되며, 예측기는 12개의 블록과 384 임베딩 차원을 사용하는 좁은 트랜스포머로 구현됩니다. 마스킹 오토인코더(He et al., 2021)에서 영감을 받아, 우리의 예측기는 x-인코더가 생성한 임베딩 시퀀스와 y 토큰의 시공간 위치를 나타내는 위치 임베딩을 가진 학습 가능한 마스크 토큰 시퀀스를 입력으로 받습니다. 예측기의 출력은 각 마스크 토큰에 대한 임베딩 벡터입니다; 그림 3 및 추가 세부 정보는 부록 B를 참조하십시오.
3.4 사전 훈련 데이터 및 평가 설정
사전 훈련
우리는 여러 공개 데이터셋을 결합하여 비지도 비디오 사전 훈련 데이터셋을 구성합니다. 이를 VideoMix2M이라고 합니다. 구체적으로, HowTo100M (HT)(Miech et al., 2019), Kinetics-400/600/700 (K710)(Kay et al., 2017), Something-Something-v2 (SSv2)(Goyal et al., 2017)의 비디오를 결합하고 Kinetics-400/600/700 및 Something-Something-v2의 검증 세트와 중복되는 부분을 제거하여 약 200만 개의 비디오를 얻습니다. 우리는 VideoMix2M에서 ViT-L/16, ViT-H/16 및 ViT-H/16384 트랜스포머 모델을 훈련시킵니다. ViT-L/16 및 ViT-H/16 모델의 배치 크기는 3072이며, ViT-H/16384 모델의 배치 크기는 2400입니다. 각 모델은 4프레임 간격으로 샘플링된 16 프레임의 비디오 클립을 입력으로 받아 평균 약 3초의 클립을 처리합니다. ViT-L/16 및 ViT-H/16은 224의 공간 해상도로 비디오를 처리하며, ViT-H/16384는 384의 입력 해상도를 사용합니다; 부록 C를 참조하십시오.
표 1: 픽셀 대 특징 타겟
우리는 특징 공간과 픽셀 공간에서 예측 손실을 계산하는 효과를 비교했습니다. 모든 모델은 VideoMix2M에서 멀티블록 예측 과제를 사용하여 배치 크기 3072로 90,000번 반복 훈련되었습니다. 우리는 고정된 백본을 사용한 주의 깊은 탐색을 통해 후속 성능을 검사하고, 단일 중심 뷰를 사용하여 상위 1% 정확도를 보고합니다. 또한 K400에서 모델의 끝에서 끝 미세 조정 성능도 검사했습니다. 특징 공간에서의 예측은 픽셀 공간 예측에 비해 일관된 성능 향상을 제공합니다.
표 2: 사전 훈련 데이터 분포
모든 모델은 배치 크기 3072로 90,000번 반복하여 사전 훈련되었으며, 단일 중심 뷰를 사용한 주의 깊은 탐색을 통해 고정된 백본의 후속 성능을 평가합니다. 작업 전반에 걸친 평균 성능은 사전 훈련 데이터셋 크기가 증가함에 따라 증가합니다.
평가
사전 훈련된 모델은 후속 비디오 및 이미지 작업에서 평가됩니다. 비디오 작업에서는 VideoGLUE 벤치마크의 하위 집합(Yuan et al., 2023)을 사용하여 다양한 기능을 테스트합니다. 구체적으로 Kinetics-400(K400)(Kay et al., 2017)에서의 동작 인식, Something-Something-v2(SSv2)(Goyal et al., 2017)에서의 모션 분류, AVA(Gu et al., 2018)에서의 동작 위치 지정 능력을 조사합니다. Kinetics에서의 동작 분류는 데이터셋의 많은 동작 클래스가 특정 객체의 존재로부터 유추될 수 있기 때문에 모델의 외관 기반 이해를 평가합니다(Sevilla-Lara et al., 2021). Something-Something-v2에서의 모션 분류는 데이터셋의 동작 클래스가 비디오 내 특정 객체의 외관/존재와 분리되어 있기 때문에 모델의 시간적 이해를 평가합니다(Goyal et al., 2017). 마지막으로 AVA에서의 동작 위치 지정은 비디오에서 동작을 이해하고 위치 지정하는 모델의 능력을 평가합니다. 우리는 표준 관행을 따르며 여러 공간 및 시간 뷰를 샘플링하여 K400과 SSv2에서 정확도를 보고합니다. 정적 이미지 작업에서는 ImageNet(Russakovsky et al., 2015)에서의 객체 인식, Places205(Zhou et al., 2014)에서의 장면 분류, iNaturalist 2021(Van Horn et al., 2018)에서의 세밀한 인식을 탐구합니다.
4. 비디오에서 표현 학습을 위한 중요한 요소는 무엇인가?
이 섹션에서는 여러 디자인 선택의 기여도를 분리하여 다음과 같은 질문에 답하고자 합니다: a) 특징 예측 대 픽셀 예측 목표의 사용, b) 사전 훈련 데이터 분포의 구성, c) 후속 작업에서 모델의 표현을 활용하기 위한 특징 풀링 전략, d) 예측할 것과 예측할 대상을 식별하기 위한 마스킹 전략.
4.1 특징 예측 대 픽셀 예측
우리는 표현 공간에서 예측 손실을 계산하는 효과를 처음으로 분석합니다. 우리는 V-JEPA 특징 예측 손실 또는 정규화된 픽셀 값을 사용한 평균 제곱 오차 손실을 사용하여 ViT-L/16 모델 쌍을 훈련하고, 두 접근 방식에 대해 학습률 및 가중치 감쇠 스케줄을 탐색합니다. 모든 모델은 VideoMix2M에서 멀티블록 마스킹을 사용하여 90,000번 반복하여 사전 훈련되었습니다. 우리는 고정된 백본을 사용한 주의 깊은 탐색을 통해 Kinetics-400(K400), Something-Something-v2(SSv2), ImageNet-1K(IN1K)에서의 성능을 검사하고, 단일 중심 뷰를 사용하여 상위 1% 정확도를 보고합니다. 또한 Kinetics-400에서 모델의 끝에서 끝 미세 조정 성능도 검사합니다. 이 비교의 결과는 표 1에 보고되며, 특징 공간에서 예측하는 것이 비디오 백본의 고정 평가와 끝에서 끝 미세 조정 모두에서 픽셀 공간 예측보다 일관된 성능 향상을 제공함을 나타냅니다.
4.2 사전 훈련 데이터 분포
다음으로 우리는 표 2에서 사전 훈련 데이터 분포의 영향을 연구합니다. 대규모 데이터셋을 활용하는 것은 텍스트 및 이미지와 같은 다른 모달리티에서 발전을 가능하게 하는 데 중요한 역할을 했습니다(Kaplan et al., 2020; Cherti et al., 2023). 우리는 비디오 데이터에 대해서도 유사한 경향이 있는지 조사합니다. 계산 예산의 잠재적인 혼란 변수를 통제하기 위해, 표 2에 나열된 모든 모델을 배치 크기 3072로 90,000번 반복하여 사전 훈련합니다. 우리는 K400, SSv2, IN1K에서 고정된 백본과 주의 깊은 탐색을 사용하여 후속 결과를 보고하며, 단일 중심 뷰를 사용하여 상위 1% 정확도를 보고합니다.
표 2는 사전 훈련 데이터셋의 크기가 증가함에 따라 작업 전반의 평균 성능이 단조롭게 증가하지만, 특정 후속 작업에 대해 최상의 성능은 각 특정 후속 작업에 대해 사전 훈련 데이터를 독립적으로 선택할 때 얻어진다는 것을 보여줍니다. 예를 들어, L/16은 K710+SSv2로 사전 훈련할 때 SSv2에서 최고의 성능을 얻고, K710으로만 사전 훈련할 때 K400에서 최고의 성능을 얻으며, K710+HT로 사전 훈련할 때 IN1K에서 최고의 성능을 얻습니다. 모든 작업에서 최고의 평균 성능은 모든 데이터 소스를 결합한 VideoMix2M으로 사전 훈련할 때 달성됩니다. 마찬가지로, H/16을 K710+SSv2로 사전 훈련할 때 VideoMix2M으로 사전 훈련한 H/16보다 더 높은 K400 점수를 얻지만, 평균적으로 최고 성능을 발휘하는 H/16은 VideoMix2M으로 사전 훈련한 것입니다.
표 3: 평균 풀링 대 적응형 풀링
우리는 고정된 V-JEPA 인코더가 출력하는 특징 맵을 주의 깊은 탐색을 사용하여 풀링하고, 이를 선형 분류기에 입력하여 후속 감독된 작업(K400 및 SSv2)을 수행합니다. 우리는 두 가지 풀링 전략을 평가합니다: 1) 평균 풀링(Avg.), 2) 주의 풀링(Att.). 결과는 단일 중심 뷰를 사용하여 보고됩니다. 교차 주의 레이어가 있는 적응형 풀링을 사용하면 K400에서 17.3 포인트, SSv2에서 16.1 포인트의 성능 향상이 있습니다.
표 4: 예측 과제 분석
모델은 K710 및 SSv2에서 사전 훈련된 ViT-L/16 네트워크이며, 단일 중심 뷰를 사용하여 주의 깊은 탐색으로 평가됩니다. 영역 x는 비디오에서 시공간 영역을 마스킹하여 샘플링되고, y는 마스크의 보완입니다. 1) 랜덤 튜브[r]: x는 비디오에서 전체 시간 기간에 걸쳐 확장된 튜브(공간 패치)의 일부를 r 비율로 마스킹하여 얻습니다. 2) 인과 멀티블록[p]: x는 16 프레임 비디오의 첫 번째 p 프레임으로 제한되고, 무작위 시공간 블록 집합으로 마스킹됩니다. 3) 멀티블록: x는 전체 비디오에서 무작위 시공간 블록 집합을 마스킹하여 얻습니다. 멀티블록 마스킹을 사용할 때 최고의 성능이 나옵니다.
4.3 평가: 주의 깊은 탐색
다음으로, 우리는 모델의 표현을 후속 작업에 적용하기 위한 특징 풀링 전략을 탐구합니다. 식 (1)의 예측 목표는 정규화되지 않기 때문에, 인코더가 선형적으로 분리 가능한 부분 공간을 제공할 이유가 없습니다(Chen et al., 2020). 따라서, 고정된 백본의 출력 특징을 풀링하기 위해 선형 연산(평균화)을 사용하는 대신 학습 가능한 비선형 풀링 전략을 탐구합니다. 구체적으로, 고정된 사전 훈련된 백본을 후속 작업에서 평가할 때, 학습 가능한 쿼리 토큰이 있는 교차 주의 레이어를 학습합니다. 교차 주의 레이어의 출력은 쿼리 토큰에 다시 추가(잔차 연결)된 다음, 단일 GeLU 활성화가 있는 2층 MLP, LayerNorm, 그리고 최종적으로 선형 분류기에 공급됩니다.
표 3에서 보듯이, 학습 가능한 교차 주의 레이어가 있는 적응형 풀링을 사용하면 K400에서 +17포인트, SSv2에서 +16.1포인트의 상당한 성능 향상이 있습니다. 주의 깊은 탐색을 사용하는 것은 부록 E에 보고된 바와 같이 다른 기준 모델에도 유익합니다.
4.4 예측 과제: x에서 y 예측하기
우리는 V-JEPA 사전 훈련에 사용된 마스킹 전략에 대한 분석을 수행합니다. 다음 마스킹 전략을 조사합니다: 비디오의 전체 시간 지속 기간에 걸쳐 확장된 튜브(공간 패치)의 무작위 비율 r을 제거하여 x를 얻는 랜덤 튜브[r], 16프레임 비디오의 첫 번째 p 프레임으로 x를 제한하고 무작위 시공간 블록 집합으로 마스킹하는 인과 멀티블록[p], 비디오 전체에서 무작위 시공간 블록 집합을 마스킹하여 얻는 멀티블록. 시공간 블록은 섹션 3.2에서 설명한 매개변수를 사용하여 샘플링됩니다; 마스킹된 시공간 블록의 크기와 수에 대한 분석은 부록 E.4에 제공됩니다.
표 4는 멀티블록 전략을 사용하여 x를 샘플링할 때 최고의 결과가 얻어진다는 것을 나타냅니다. 이 경우 네트워크는 비디오에서 큰 연속 블록을 제거한 후 예측을 해야 합니다. 비디오의 첫 몇 프레임에서만 x를 샘플링하는 인과 멀티블록 전략에서는 후속 성능이 감소하는 것을 관찰했습니다. 마지막으로, 비디오의 튜브 중 90%를 무작위로 마스킹하는 랜덤 튜브 전략은 우리의 특징 예측 목표와 결합할 때 낮은 의미적 품질의 특징을 초래합니다.
표 5: 픽셀 예측 방법과의 비교
우리는 V-JEPA를 픽셀 재구성 손실을 사용하는 OmniMAE(Girdhar et al., 2023), VideoMAE(Tong et al., 2022), Hiera(Ryali et al., 2023)와 비교합니다. 모든 모델은 ViT-L 아키텍처 또는 유사한 Hiera-L을 사용하여 훈련됩니다. 우리는 고정된 백본을 사용한 고정 평가와 끝에서 끝 미세 조정을 통해 후속 이미지 작업(IN1K, Places205, iNat201) 및 비디오 작업(K400, SSv2, AVA)을 평가합니다. 모든 모델은 해상도 224에서 평가됩니다. K400 및 SSv2에서는 비디오의 여러 공간 및 시간 뷰에서 정확도를 보고하는 표준 관행을 따릅니다. 고정 평가에서 V-JEPA는 모든 후속 작업에서 기준 모델을 능가하지만, ImageNet에서는 OmniMAE 모델이 직접 ImageNet에서 훈련된 75.1%에 비해 74.8%를 달성합니다. V-JEPA는 모든 ViT-L 모델 중 최고의 미세 조정 성능을 달성하며, SSv2에서는 Hiera-L과 동일한 성능을 보입니다. V-JEPA 결과는 사전 훈련 중 상당히 적은 예제를 처리하면서 달성되었습니다.
표 6: 최신 모델과의 비교
우리는 V-JEPA를 최신 기준 모델과 고정 평가에서 주의 깊은 탐색을 사용하여 후속 이미지 작업(IN1K, Place205, iNat21) 및 비디오 작업(K400, SSv2, AVA)에서 비교합니다. 모든 모델은 해상도 224에서 평가되며, I-JEPA512와 V-JEPA384는 각각 해상도 512와 384에서 평가됩니다. K400 및 SSv2에서는 비디오의 여러 공간 및 시간 뷰에서 정확도를 보고하는 표준 관행을 따릅니다. 다른 비디오 기준 모델과 비교할 때 V-JEPA는 모든 후속 작업에서 일관된 개선을 보입니다. 고정 평가에서 뛰어난 성능을 보이는 이미지 모델과 비교할 때, V-JEPA는 동작 이해가 필요한 작업에서 상당한 성능 향상(+21 포인트)을 보이며, 정적 외관 기반 특징이 필요한 작업에서 비디오와 이미지 모델 간의 격차를 줄입니다.
5. 이전 작업과의 비교
섹션 5.1에서는 V-JEPA를 픽셀 예측에 의존하는 비디오 접근 방식과 비교하여 특징 예측의 영향을 조사합니다. 이어서 섹션 5.2에서는 아키텍처 제약을 제거하고, 자가 지도 비디오 및 이미지 사전 훈련 접근 방식의 아키텍처 전반에 걸친 최고의 성능을 보고합니다. 마지막으로, 섹션 5.3에서는 다른 자가 지도 비디오 사전 훈련 접근 방식에 비해 V-JEPA의 라벨 효율성을 탐구합니다. 평가 설정에 대한 자세한 내용은 부록 D에 설명되어 있습니다.
5.1 픽셀 예측과의 비교
특징 예측 사전 훈련의 효과를 조사하기 위해, 우리는 먼저 V-JEPA를 픽셀 예측 손실에 의존하는 비디오 마스킹 모델링 모델과 비교합니다. 모든 모델을 ViT-L/16 인코더 또는 유사한 수의 매개변수를 가진 Hiera-L 인코더를 사용하여 평가함으로써 모델 아키텍처의 혼란 요인을 통제합니다. 픽셀 예측 기준으로 VideoMAE(Tong et al., 2022; Wang et al., 2023a), Hiera(Ryali et al., 2023), 그리고 정적 이미지와 비디오를 동시에 훈련하는 OmniMAE(Girdhar et al., 2023)를 고려합니다.
표 5는 후속 비디오 및 이미지 작업에서 고정된 평가와 끝에서 끝 미세 조정을 조사합니다. 고정 평가에서 V-JEPA는 ImageNet을 제외한 모든 후속 작업에서 기준 모델을 능가합니다. ImageNet에서는 74.8%를 달성하여 OmniMAE 모델의 75.1%와 비교됩니다. 즉, V-JEPA는 비디오에서만 사전 훈련되었음에도 불구하고 유사한 ImageNet 성능을 달성합니다. 미세 조정 프로토콜에서는 V-JEPA가 ViT-L/16으로 훈련된 어떤 모델보다도 최고의 성능을 보이며, 계층적 사전 지식을 활용하는 Hiera-L이 SSv2에서 보인 성능과 동등합니다(Ryali et al., 2023). V-JEPA 모델은 사전 훈련 동안 상당히 적은 샘플을 처리하면서 이 결과를 달성하여, 학습 원칙으로서 특징 예측의 효율성을 보여줍니다.
그림 4: SSv2 미세 조정 성능 대 처리된 샘플 수
우리는 ViT-L/16 또는 Hiera-L 아키텍처를 사용하여 V-JEPA와 픽셀 재구성 기준 모델들의 SSv2 미세 조정 성능을 보고합니다. V-JEPA는 사전 훈련 동안 훨씬 적은 샘플을 처리하면서도 모든 픽셀 재구성 방법을 능가하며, Hiera-L 성능에 필적합니다.
그림 5: SSv2 고정 평가 성능 대 사전 훈련 시간
모든 방법의 실제 시간(wallclock time)은 배치 크기 10 클립으로 단일 GPU에서 측정되었으며, VideoMAE 및 VideoMAEv2의 공식 코드베이스를 사용하여 전역 배치 크기 2400 샘플을 가정하여 선형적으로 추정되었습니다. 그러나 비디오 픽셀 예측 방법의 SSv2 정확도는 실제로는 작은 배치 크기와 상당히 긴 훈련 스케줄에서 얻어집니다. V-JEPA는 사전 훈련 시간이 훨씬 짧은 동안 픽셀 재구성 방법을 능가합니다.
5.2 최신 모델과의 비교
표 6에서, 우리는 백본 인코더를 고정하고 주의 깊은 탐색을 훈련할 때 V-JEPA 모델이 최신 자가 지도 이미지 및 비디오 모델과 어떻게 비교되는지 조사합니다. 우리의 이미지 사전 훈련 기준 모델에는 OpenCLIP (Cherti et al., 2023), DINOv2 (Oquab et al., 2023), I-JEPA (Assran et al., 2023)이 포함됩니다. OpenCLIP 모델은 이미지-텍스트 정렬 목표로 훈련되며, DINOv2와 I-JEPA는 자가 지도 학습으로 훈련됩니다. 이 모델들은 고정 평가 성능에서 뛰어나다고 알려져 있으며(Oquab et al., 2023), 즉, 끝에서 끝 미세 조정 없이 많은 후속 작업에 적용할 수 있는 시각적 특징을 생성하는 능력이 뛰어나므로 매우 경쟁력 있는 기준 모델을 제공합니다. 우리의 비디오 사전 훈련 기준 모델에는 VideoMAE (Tong et al., 2022), OmniMAE (Girdhar et al., 2023), Hiera (Ryali et al., 2023), VideoMAEv2 (Wang et al., 2023a), MVD (Wang et al., 2023b)가 포함됩니다. OpenCLIP, DINOv2, VideoMAEv2 모델은 10억 개 이상의 매개변수를 포함한 Giant/Gigantic 비전 트랜스포머 아키텍처로 매개변수화되어 대규모 이미지 또는 비디오 데이터셋에서 훈련됩니다.
비디오 모델과의 비교
대규모 비디오 기준 모델과 비교할 때, V-JEPA 모델은 모든 후속 비디오 및 이미지 작업에서 모든 이전 모델을 현저히 능가합니다(표 6 참조). 우리의 H/16 모델은 동작 이해(Something-Something-v2)에서 최소 +5포인트, 동작 인식(Kinetics-400)에서 +2포인트, 동작 탐지(AVA)에서 +5포인트, 객체 인식(ImageNet-1K)에서 +1포인트, 장면 인식(Places205)에서 +2포인트, 세밀한 인식(iNaturalist)에서 +0.2포인트 더 나은 성능을 보입니다. 또한, 그림 5에서 사전 훈련 벽시계를 비교할 때, V-JEPA는 대규모 픽셀 예측 모델에 비해 약 2배의 속도로 이 성능을 달성합니다.
이미지 모델과의 비교
모션에 대한 세밀한 이해가 필요한 작업(Something-Something-v2)에서, V-JEPA 모델은 대규모 이미지 기준 모델(DINOv2, OpenCLIP, I-JEPA)에 비해 +21 포인트 이상의 큰 성능 향상을 제공합니다. 비디오에서의 자가 지도 사전 훈련은 정적 이미지 데이터셋에서 쉽게 학습할 수 없는 동적 개념을 모델링할 수 있습니다. 마찬가지로, V-JEPA 모델은 동작 위치 지정에서도 이미지 기반 사전 훈련을 능가합니다.
Kinetics-400에서 우리는 이미지 모델이 좋은 성능을 발휘하는 것을 발견합니다. 예를 들어, DINOv2 (Oquab et al., 2023)는 이전에 K400에서 선형 탐색으로 78.4%를 보고했으나, 우리는 주의 깊은 탐색을 사용하여 g/14 모델의 고정 평가를 83.4%로 향상시켰습니다. 이 경우, 우리의 H/16 모델은 82.0%의 상위 1% 정확도를 달성합니다. 많은 Kinetics 비디오의 레이블은 모션 이해 없이 외관 기반 단서로 추론할 수 있다는 점에 주목할 가치가 있습니다(Sevilla-Lara et al., 2021).
V-JEPA 모델은 이미지 분류 작업에서 이미지 모델과의 격차를 좁힙니다. 특히, V-JEPA는 단일 레이어 주의 깊은 탐색을 사용하여 ImageNet에서 77.4%를 달성하며, 두 레이어 주의 깊은 탐색을 사용하여 77.9%로 향상시킬 수 있습니다. 일반적으로, V-JEPA 및 다른 비디오 모델을 훈련하는 데 사용된 데이터셋이 너무 제한적이며, 이미지 모델이 사용하는 인터넷 규모의 사전 훈련 데이터의 시각적 다양성이 부족하다고 가정합니다. 따라서, 다양한 공개 비디오 데이터셋을 구축하는 데 중점을 두는 것이 미래 연구에 가치가 있을 것입니다.
표 7: 저용량 고정 평가
우리는 Kinetics-400 및 Something-Something-v2에서 V-JEPA를 다른 비디오 모델과 비교하여 각 데이터셋에서 주의 깊은 탐색(attentive probe) 훈련에 사용할 수 있는 라벨된 예제의 비율을 달리하면서 고정 평가를 수행했습니다. 우리는 여러 저용량 설정에서 탐색기를 훈련합니다: 학습 세트의 5%, 10%, 또는 50%를 사용하고, 각 설정에서 3개의 무작위 분할을 수행하여 보다 견고한 메트릭을 얻으며, 각 모델에 대해 총 9개의 다른 평가 실험을 수행합니다. 우리는 K400 및 SSv2 검증 세트를 사용하여 평균 성능과 표준 편차를 보고합니다. V-JEPA는 다른 모델보다 라벨 효율성이 높습니다. 구체적으로, 각 클래스에서 사용할 수 있는 라벨된 예제 수를 줄이면 V-JEPA와 기준 모델 간의 성능 격차가 커집니다.
5.3 라벨 효율성
우리는 V-JEPA의 라벨 효율성을 다른 자가 지도 비디오 모델과 비교하여 사전 훈련된 백본이 적은 라벨로 후속 작업에 적응할 수 있는 능력을 측정합니다. 구체적으로, 우리는 주의 깊은 탐색(attentive probe)을 훈련하기 위해 각 데이터셋에서 사용할 수 있는 라벨된 예제의 비율을 달리하면서 Kinetics-400과 Something-Something-v2에서 고정된 모델의 성능을 조사합니다. 우리는 여러 저용량 설정에서 탐색기를 훈련합니다: 학습 세트의 5%, 10%, 또는 50%를 사용하고, 각 설정에서 3개의 무작위 분할을 수행하여 보다 견고한 메트릭을 얻으며, 각 모델에 대해 총 9개의 다른 평가 실험을 수행합니다. 표 7은 K400 및 SSv2 검증 세트를 사용하여 평균 성능과 표준 편차를 보고합니다.
우리는 V-JEPA가 다른 자가 지도 비디오 모델보다 라벨 효율성이 더 높다는 것을 발견했습니다: 주의 깊은 탐색을 훈련하기 위한 라벨된 예제 수를 줄이면 V-JEPA와 다른 모델 간의 성능 격차가 커집니다. 특히, K400에서 가장 큰 V-JEPA 모델의 성능은 라벨된 예제 수를 10배 줄일 때(클래스당 약 287개의 예제에서 29개의 예제로) 12% 감소하여 상위 1% 정확도 68.2%를 기록했습니다. 반면, VideoMAEv2는 30% 감소하여 상위 1% 정확도 37.0%, VideoMAE는 15.9% 감소하여 상위 1% 정확도 62.3%, MVD는 14.6% 감소하여 상위 1% 정확도 62.6%를 기록했습니다.
SSv2에서도 유사한 관찰 결과가 나타났습니다. SSv2에서 가장 큰 V-JEPA 모델의 성능은 라벨된 예제 수를 10배 줄일 때(클래스당 약 440개의 예제에서 48개의 예제로) 13.9% 감소하여 상위 1% 정확도 54.0%를 기록했습니다. 반면, VideoMAEv2는 26% 감소하여 상위 1% 정확도 28.0%, VideoMAE는 19.1% 감소하여 상위 1% 정확도 41.4%, MVD는 18.1% 감소하여 상위 1% 정확도 42.9%를 기록했습니다.
6. 예측기 평가
다음으로, 우리는 V-JEPA 모델을 정성적으로 검사하고자 합니다. V-JEPA의 예측기 네트워크는 마스킹된 시공간 영역 y의 표현을 가시 영역 x에서 예측하며, 마스킹된 영역의 위치 정보를 제공합니다(섹션 3 참조). 특징 공간 예측의 타당성을 정성적으로 조사하기 위해, 우리는 사전 훈련된 인코더와 예측기 네트워크를 고정하고 조건부 확산 디코더를 훈련하여 V-JEPA 예측을 해석 가능한 픽셀로 매핑합니다. 특히, 디코더는 비디오의 마스킹된 영역에 대한 예측된 표현만을 받아들이며, 비디오의 마스크되지 않은 영역에 접근할 수 없습니다(그림 6a 참조).
마스킹된 비디오를 주어졌을 때, 우리는 V-JEPA 사전 훈련 모델을 사용하여 마스킹된 영역의 표현을 예측한 다음, 디코더를 사용하여 표현을 픽셀 공간으로 투영합니다. 그림 6b는 다양한 랜덤 시드에 대한 디코더 출력을 보여줍니다. 샘플 전반에 걸쳐 공통된 특성은 예측기 표현에 포함된 정보를 나타냅니다.
그림 6b는 V-JEPA 특징 예측이 실제로 근거가 있으며, 비디오의 마스크되지 않은 영역과 시공간적 일관성을 나타냄을 보여줍니다. 구체적으로, 그림 6b의 샘플들은 V-JEPA 예측기가 위치적 불확실성을 정확하게 포착하고, 일관된 움직임으로 다양한 위치에서 다양한 시각적 객체를 생성함을 보여줍니다. 일부 샘플들은 또한 객체 영속성(object permanence)을 이해함을 보여주며, 시각적 객체가 부분적으로 가려진 후에도 일관성을 유지합니다.
(a) 시각화 방법론
우리는 V-JEPA 특징 공간 예측을 해석 가능한 픽셀로 디코딩하기 위해 조건부 확산 모델을 훈련합니다. 이 과정에서 사전 훈련된 V-JEPA 인코더와 예측기 네트워크는 고정된 상태로 유지됩니다. 디코더는 비디오의 마스킹된 영역에 대해 예측된 표현만을 받아들이며, 비디오의 마스크되지 않은 영역에 접근할 수 없습니다.
(b) 시각화
첫 번째 행: V-JEPA 모델(ViT-H/16 인코더와 해당 예측기 네트워크)로 입력된 마스킹된 비디오. 다른 행: 원래 비디오 위에 디코더에서 생성된 다양한 샘플을 오버레이한 바운딩 박스. V-JEPA는 생성 모델이 아니며 디코더는 컨텍스트(첫 번째 행)에 접근할 수 없으므로 샘플이 입력과 정확히 일치할 것으로 기대하지 않습니다. 이 실험은 V-JEPA가 인코딩하고 예측한 정보를 정성적으로 보여줍니다. 특히, 샘플 전반에 걸쳐 공통된 특성은 V-JEPA 예측에 인코딩된 정보를 나타냅니다. V-JEPA는 비디오의 마스크되지 않은 영역과 시공간적으로 일관된 예측을 생성합니다. 예측은 또한 시간에 걸쳐 일관된 움직임을 포착합니다.
그림 6: 정성적 분석
V-JEPA 특징 공간 예측의 오프라인 시각화.
7 결론
이 연구에서 우리는 비디오로부터 비지도 학습을 위한 독립적인 목표로서의 특징 예측의 효과를 탐구하고, 자가 지도 특징 예측 목표만을 사용하여 훈련된 V-JEPA 비전 모델 모음을 소개했습니다. V-JEPA 모델은 모델 파라미터의 조정 없이 다양한 후속 이미지 및 비디오 작업을 해결할 수 있는 능력을 보여주었으며, 고정 평가에서 동작 인식, 시공간 동작 탐지 및 이미지 분류 작업에서 이전의 비디오 표현 학습 접근 방식을 능가합니다. 또한, V-JEPA를 비디오에서 사전 훈련하는 것이 세밀한 모션 이해가 필요한 후속 작업을 해결하는 데 특히 효과적이라는 것을 보여주었습니다. 반면, 인터넷 규모 데이터셋에서 훈련된 대규모 이미지 모델은 이러한 작업에서 부족합니다. 마지막으로, 우리는 V-JEPA 모델이 라벨 효율적 학습자임을 실험적으로 관찰했으며, 적은 라벨된 예제만 사용하더라도 후속 작업에서 좋은 성능을 보임을 확인했습니다.
'인공지능' 카테고리의 다른 글
MotionBooth: Motion-Aware Customized Text-to-Video Generation (2) | 2024.06.29 |
---|---|
What are Diffusion Models? (2) | 2024.06.29 |
Adding Conditional Control to Text-to-Image Diffusion Models (1) | 2024.06.27 |
DiT: Self-supervised Pre-training for Document Image Transformer (1) | 2024.06.26 |
ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders (1) | 2024.06.25 |