CLIP : Learning Transferable Visual Models From Natural Language Supervision

Learning Transferable Visual Models From Natural Language Supervision

State-of-the-art computer vision systems are trained to predict a fixed set of predetermined object categories. This restricted form of supervision limits their generality and usability since additional labeled data is needed to specify any other visual co

arxiv.org

초록

최신 컴퓨터 비전 시스템은 고정된 사전에 정해진 객체 범주를 예측하도록 훈련됩니다. 이러한 제한된 형태의 감독은 일반성과 사용성을 제한하며, 다른 시각적 개념을 지정하려면 추가적인 라벨링된 데이터가 필요합니다. 이미지에 대한 원시 텍스트로부터 직접 학습하는 것은 훨씬 더 광범위한 감독 소스를 활용하는 유망한 대안입니다. 우리는 어떤 캡션이 어떤 이미지와 어울리는지를 예측하는 간단한 사전 학습 작업이 인터넷에서 수집한 4억 개의 (이미지, 텍스트) 쌍 데이터셋에서 SOTA(최첨단) 이미지 표현을 처음부터 효율적이고 확장 가능하게 학습하는 방법임을 입증합니다. 사전 학습 후에는 자연어를 사용하여 학습된 시각적 개념을 참조하거나 새로운 개념을 설명함으로써 모델을 다운스트림 작업에 제로샷으로 전이시킬 수 있습니다. 우리는 이 접근 방식의 성능을 OCR, 비디오에서의 행동 인식, 지리적 위치 확인 및 다양한 세분화된 객체 분류와 같은 작업을 포함한 30개 이상의 다양한 기존 컴퓨터 비전 데이터셋에서 벤치마킹함으로써 연구합니다. 이 모델은 대부분의 작업에 비트리비얼하게 전이되며, 종종 데이터셋 특정 훈련이 필요 없는 완전히 감독된 기준과 경쟁할 수 있습니다. 예를 들어, 우리는 1.28백만 개의 훈련 예제를 사용하지 않고도 ImageNet에서 원본 ResNet-50의 정확도와 일치합니다. 우리는 우리의 코드와 사전 학습된 모델 가중치를 https://github.com/OpenAI/CLIP에서 공개합니다.

서론 및 동기 부여 작업

원시 텍스트에서 직접 학습하는 사전 학습 방법은 지난 몇 년 동안 NLP를 혁신해왔습니다 (Dai & Le, 2015; Peters et al., 2018; Howard & Ruder, 2018; Radford et al., 2018; Devlin et al., 2018; Raffel et al., 2019). 작업 비특이적 목표(autoregressive 및 masked language modeling 등)는 계산, 모델 용량 및 데이터 측면에서 많은 규모로 확장되어 지속적으로 성능을 향상시켰습니다. "텍스트-텍스트"를 표준화된 입력-출력 인터페이스로 개발함으로써 (McCann et al., 2018; Radford et al., 2019; Raffel et al., 2019) 작업 비특이적 아키텍처가 다운스트림 데이터셋에 제로샷 전이할 수 있게 되어, 특수 출력 헤드나 데이터셋 특정 커스터마이징이 필요 없게 되었습니다. GPT-3 (Brown et al., 2020)와 같은 대표적인 시스템은 데이터셋 특정 훈련 데이터가 거의 필요 없거나 전혀 필요 없이 많은 작업에서 맞춤형 모델과 경쟁할 수 있습니다.

이러한 결과는 웹 규모의 텍스트 컬렉션 내에서 최신 사전 학습 방법이 접근할 수 있는 총 감독이 고품질의 군중 라벨링된 NLP 데이터셋의 감독을 능가함을 시사합니다. 그러나 컴퓨터 비전과 같은 다른 분야에서는 여전히 ImageNet (Deng et al., 2009)과 같은 군중 라벨링된 데이터셋에서 모델을 사전 학습하는 것이 표준 관행입니다. 웹 텍스트에서 직접 학습하는 확장 가능한 사전 학습 방법이 컴퓨터 비전에서도 유사한 돌파구를 가져올 수 있을까요? 이전 연구는 이를 고무적으로 여깁니다.

20년 이상 전, Mori et al. (1999)은 이미지와 함께 제공되는 텍스트 문서의 명사와 형용사를 예측하기 위해 모델을 훈련시켜 콘텐츠 기반 이미지 검색을 개선하는 방법을 탐구했습니다. Quattoni et al. (2007)은 이미지와 관련된 캡션에서 단어를 예측하도록 훈련된 분류기의 가중치 공간에서 매니폴드 학습을 통해 더 데이터 효율적인 이미지 표현을 학습할 수 있음을 입증했습니다. Srivastava & Salakhutdinov (2012)는 저수준 이미지 및 텍스트 태그 기능 위에 다중 모드 Deep Boltzmann Machines를 훈련하여 심층 표현 학습을 탐구했습니다. Joulin et al. (2016)은 이 작업 라인을 현대화하고, 이미지 캡션의 단어를 예측하도록 CNN을 훈련시켜 유용한 이미지 표현을 학습할 수 있음을 입증했습니다. 그들은 YFCC100M 데이터셋(Thomee et al., 2016)의 이미지 제목, 설명 및 해시태그 메타데이터를 단어 가방 다중 레이블 분류 작업으로 변환하고, 이러한 레이블을 예측하도록 AlexNet (Krizhevsky et al., 2012)을 사전 학습시켜 전이 작업에서 ImageNet 기반 사전 학습과 유사한 성능을 학습한 표현을 보였습니다. Li et al. (2017)은 이 접근 방식을 확장하여 개별 단어 외에도 구문 n-그램을 예측하도록 하고, 학습된 시각적 n-그램 사전을 기반으로 대상 클래스 점수를 매겨 가장 높은 점수를 예측하여 다른 이미지 분류 데이터셋에 제로샷 전이할 수 있는 능력을 입증했습니다. 최근의 아키텍처와 사전 학습 접근 방식을 채택한 VirTex (Desai & Johnson, 2020), ICMLM (Bulent Sariyildiz et al., 2020), ConVIRT (Zhang et al., 2020)는 텍스트에서 이미지 표현을 학습하기 위해 트랜스포머 기반 언어 모델링, 마스크드 언어 모델링 및 대조 목표의 잠재력을 최근에 입증했습니다.

Figure 1. 우리의 접근 방식 요약. 표준 이미지 모델이 이미지 특징 추출기와 선형 분류기를 공동 훈련시켜 특정 레이블을 예측하는 반면, CLIP은 이미지 인코더와 텍스트 인코더를 공동 훈련시켜 일련의 (이미지, 텍스트) 훈련 예제의 올바른 쌍을 예측합니다. 테스트 시점에서는 학습된 텍스트 인코더가 대상 데이터셋의 클래스의 이름이나 설명을 임베딩하여 제로샷 선형 분류기를 합성합니다.

개념 증명으로서 흥미롭지만, 자연어 감독을 사용한 이미지 표현 학습은 여전히 드물다. 이는 일반적인 벤치마크에서 성능이 다른 접근 방식에 비해 훨씬 낮기 때문이다. 예를 들어, Li et al. (2017)은 제로샷 설정에서 ImageNet에서 11.5%의 정확도만 달성했다. 이는 현재 최첨단 성능(Xie et al., 2020)의 88.4%보다 훨씬 낮으며, 고전적인 컴퓨터 비전 접근 방식(Deng et al., 2012)의 50% 정확도보다도 낮다. 대신, 더 좁은 범위의 약한 감독을 잘 타겟팅한 사용은 성능을 향상시켰다. Mahajan et al. (2018)은 인스타그램 이미지에서 ImageNet 관련 해시태그를 예측하는 것이 효과적인 사전 학습 작업임을 보여주었다. 이 사전 학습된 모델을 ImageNet에 맞추면 정확도가 5% 이상 증가하고 당시 최첨단 성능이 개선되었다. Kolesnikov et al. (2019)와 Dosovitskiy et al. (2020)도 노이즈가 많은 라벨링된 JFT-300M 데이터셋의 클래스를 예측하도록 모델을 사전 학습시킴으로써 더 넓은 범위의 전이 벤치마크에서 큰 향상을 보여주었다.

이 연구 라인은 제한된 양의 감독된 "골드 라벨"과 실질적으로 무제한인 원시 텍스트에서 학습하는 것 사이의 현재 실용적인 중간 지점을 나타낸다. 그러나 이것은 타협 없이 이루어지지 않는다. 두 연구 모두 감독을 각각 1000 및 18291 클래스에 맞추어 설계하면서 제한한다. 자연어는 더 일반적으로 훨씬 더 넓은 시각적 개념 집합을 표현하고 감독할 수 있다. 두 접근 방식 모두 예측을 수행하기 위해 정적 소프트맥스 분류기를 사용하며 동적 출력을 위한 메커니즘이 부족하다. 이는 유연성을 심각하게 제한하고 "제로샷" 기능을 제한한다.

약한 감독 모델과 자연어에서 직접 이미지 표현을 학습하는 최근 탐구 사이의 중요한 차이점은 규모다. Mahajan et al. (2018)와 Kolesnikov et al. (2019)는 수백만에서 수십억 개의 이미지에서 가속기 연도로 모델을 훈련했지만, VirTex, ICMLM 및 ConVIRT는 10만에서 20만 개의 이미지에서 가속기 일 동안 훈련했다. 이 연구에서 우리는 이 격차를 해소하고 대규모로 자연어 감독으로 훈련된 이미지 분류기의 행동을 연구한다. 인터넷에서 공개적으로 사용 가능한 대량의 데이터 덕분에, 우리는 4억 개의 (이미지, 텍스트) 쌍의 새로운 데이터셋을 만들고 처음부터 ConVIRT의 단순화된 버전을 훈련한 CLIP(Contrastive Language-Image Pre-training)이 자연어 감독에서 학습하는 효율적인 방법임을 입증한다. 우리는 CLIP의 확장성을 연구하기 위해 거의 2차례에 걸친 계산량을 아우르는 8개의 모델 시리즈를 훈련하고, 전이 성능이 계산량의 매끄러운 예측 함수임을 관찰한다 (Hestness et al., 2017; Kaplan et al., 2020). CLIP는 GPT 계열과 유사하게 사전 학습 동안 OCR, 지리적 위치 확인, 행동 인식 등 다양한 작업을 수행하는 방법을 학습한다. 우리는 30개 이상의 기존 데이터셋에서 CLIP의 제로샷 전이 성능을 벤치마킹하여, 이전 작업 특정 감독 모델과 경쟁할 수 있음을 발견했다. 또한 선형 프로브 표현 학습 분석을 통해 CLIP가 가장 공개적으로 사용 가능한 ImageNet 모델을 능가하면서도 더 계산 효율적임을 보여준다. 우리는 또한 제로샷 CLIP 모델이 동일한 정확도의 감독된 ImageNet 모델보다 훨씬 더 견고하다는 것을 발견했으며, 이는 작업 비특정 모델의 제로샷 평가가 모델의 능력을 훨씬 더 잘 대표함을 시사한다. 이러한 결과는 중요한 정책 및 윤리적 함의를 가지며, 이를 7장에서 다룬다.

Figure 2. CLIP는 제로샷 전이에서 이미지 캡션 기반의 기준 모델보다 훨씬 더 효율적이다. 우리는 트랜스포머 기반 언어 모델이 제로샷 ImageNet 분류에서 상대적으로 약하다는 것을 발견했다. 여기서 우리는 텍스트의 단어 가방(BoW) 인코딩을 예측하는 기준 모델보다 3배 느리게 학습하는 것을 확인할 수 있다 (Joulin et al., 2016). CLIP의 대조 목표로 예측 목표를 교체하면 효율성이 추가로 4배 향상된다.

2. 접근 방식

2.1 자연어 감독

우리 접근 방식의 핵심은 자연어에 포함된 감독을 통해 인식을 학습하는 아이디어입니다. 서론에서 논의된 바와 같이, 이는 전혀 새로운 아이디어가 아닙니다. 그러나 이 분야의 작업을 설명하는 데 사용되는 용어는 다양하고 때로는 모순적으로 보이며, 명시된 동기 또한 다양합니다. Zhang et al. (2020), Gomez et al. (2017), Joulin et al. (2016), Desai & Johnson (2020)는 모두 이미지와 짝을 이룬 텍스트로부터 시각적 표현을 학습하는 방법을 소개했지만, 각각의 접근 방식을 무감독, 자가 감독, 약한 감독, 감독 방식으로 묘사했습니다.

우리는 이 작업에서 공통된 점이 특정 방법의 세부 사항이 아니라 자연어를 학습 신호로 인식하는 점이라는 것을 강조합니다. 이러한 모든 접근 방식은 자연어 감독에서 학습하고 있습니다. 초기 작업은 주제 모델과 n-그램 표현을 사용할 때 자연어의 복잡성과 씨름했지만, 심층 문맥적 표현 학습의 향상은 이제 이러한 풍부한 감독 소스를 효과적으로 활용할 수 있는 도구가 있음을 시사합니다 (McCann et al., 2017).

자연어에서 학습하는 것은 다른 훈련 방법에 비해 몇 가지 잠재적 강점을 가지고 있습니다. 이미지 분류를 위한 표준 군중 소싱 라벨링과 비교하여 자연어 감독을 확장하는 것이 훨씬 쉽습니다. 이는 고전적인 "기계 학습 호환 형식"인 대표적인 1-of-N 다수결 "골드 라벨"과 같은 주석을 필요로 하지 않기 때문입니다. 대신, 자연어로 작업하는 방법은 인터넷에 있는 방대한 양의 텍스트에 포함된 감독에서 수동적으로 학습할 수 있습니다. 자연어에서 학습하는 것은 대부분의 무감독 또는 자가 감독 학습 접근 방식에 비해 중요한 이점을 가지고 있습니다. 이는 단순히 표현을 학습하는 것이 아니라 그 표현을 언어와 연결하여 유연한 제로샷 전이를 가능하게 하기 때문입니다. 다음 하위 섹션에서는 우리가 정착한 구체적인 접근 방식을 자세히 설명합니다.

2.2 충분히 큰 데이터셋 생성

기존 연구는 주로 세 가지 데이터셋, MS-COCO (Lin et al., 2014), Visual Genome (Krishna et al., 2017), YFCC100M (Thomee et al., 2016)을 사용했습니다. MS-COCO와 Visual Genome은 고품질의 군중 라벨링된 데이터셋이지만, 각각 약 10만 장의 훈련 사진을 보유하고 있어 현대 기준으로는 작습니다. 이에 비해 다른 컴퓨터 비전 시스템은 최대 35억 장의 인스타그램 사진에서 훈련됩니다 (Mahajan et al., 2018). 1억 장의 사진을 가진 YFCC100M은 가능한 대안이지만, 각 이미지의 메타데이터는 희소하고 품질이 다양합니다. 많은 이미지가 20160716 113957.JPG와 같은 자동 생성 파일 이름을 "제목"으로 사용하거나 카메라 노출 설정의 "설명"을 포함합니다. 자연어 제목 및/또는 설명이 있는 영어 이미지만 유지하도록 필터링한 후, 데이터셋은 6분의 1로 줄어들어 약 1,500만 장의 사진만 남았습니다. 이는 대략 ImageNet과 같은 크기입니다.

자연어 감독의 주요 동기는 인터넷에 공개적으로 사용 가능한 이러한 형태의 데이터의 대량입니다. 기존 데이터셋은 이 가능성을 적절히 반영하지 않으므로, 이러한 데이터셋에서만 결과를 고려하면 이 연구의 잠재력을 과소평가할 것입니다. 이를 해결하기 위해, 우리는 인터넷에서 공개적으로 사용 가능한 다양한 소스로부터 수집한 4억 쌍의 (이미지, 텍스트) 쌍의 새로운 데이터셋을 구축했습니다. 가능한 한 넓은 시각적 개념 집합을 다루기 위해, 우리는 텍스트에 50만 개의 쿼리 중 하나를 포함하는 (이미지, 텍스트) 쌍을 검색하는 과정을 통해 데이터셋을 구성했습니다. 결과를 대략적으로 균형 있게 하기 위해 쿼리당 최대 2만 쌍의 (이미지, 텍스트) 쌍을 포함했습니다. 생성된 데이터셋은 GPT-2를 훈련하는 데 사용된 WebText 데이터셋과 유사한 총 단어 수를 가지고 있습니다. 우리는 이 데이터셋을 WIT(WebImageText)라고 부릅니다.

-----------------------------------------------------------------------------------------------------------------------------------------------------------------

여기서 설명하는 "자연어"는 사람들이 일상적으로 사용하는 언어를 의미합니다. 이는 기계가 처리하기 위해 특별히 구조화된 인공 언어가 아닌, 인간이 의사소통하는 데 사용하는 언어입니다. 자연어 감독(natural language supervision)은 이러한 자연어로 표현된 텍스트 데이터를 사용하여 모델을 학습시키는 방법을 말합니다.

구체적으로, 이미지와 쌍을 이루는 텍스트는 이미지에 대한 설명, 제목, 캡션 또는 관련 문장일 수 있습니다. 이 텍스트는 인터넷에서 수집된 것으로, 자연스럽고 일상적인 언어 표현을 포함합니다. 예를 들어, 사진의 설명으로 "해변에서 노을을 감상하는 사람들" 같은 문장이 있을 수 있습니다. 이러한 자연어 데이터를 통해 모델은 이미지를 이해하고, 다양한 시각적 개념을 학습할 수 있게 됩니다.

-----------------------------------------------------------------------------------------------------------------------------------------------------------------

2.3 효율적인 사전 학습 방법 선택

최첨단 컴퓨터 비전 시스템은 매우 많은 계산량을 필요로 합니다. Mahajan et al. (2018)은 ResNeXt101-32x48d 모델을 훈련하는 데 19년의 GPU 연산을 필요로 했고, Xie et al. (2020)은 Noisy Student EfficientNet-L2 모델을 훈련하는 데 33년의 TPUv3 코어 연산을 필요로 했습니다. 두 시스템 모두 1000개의 ImageNet 클래스를 예측하도록 훈련되었음을 고려할 때, 자연어로부터 열린 시각적 개념 집합을 학습하는 작업은 막막해 보입니다. 우리의 노력 과정에서 우리는 훈련 효율성이 자연어 감독을 성공적으로 확장하는 데 중요한 역할을 한다는 것을 발견했고, 우리는 이 지표를 기반으로 최종 사전 학습 방법을 선택했습니다.

초기 접근 방식은 VirTex와 유사하게 이미지 CNN과 텍스트 트랜스포머를 함께 훈련하여 이미지의 캡션을 예측하는 것이었습니다. 그러나 이 방법을 효율적으로 확장하는 데 어려움을 겪었습니다. Figure 2에서 보여주는 바와 같이, 6300만 개의 파라미터를 가진 트랜스포머 언어 모델은 ResNet-50 이미지 인코더의 두 배의 연산을 사용하면서도 같은 텍스트의 단어 가방(Bag-of-Words) 인코딩을 예측하는 훨씬 간단한 기준 모델보다 ImageNet 클래스를 인식하는 데 세 배 느리게 학습합니다.

이 두 접근 방식 모두 중요한 공통점을 가지고 있습니다. 이들은 각각의 이미지와 함께 제공되는 텍스트의 정확한 단어를 예측하려고 합니다. 이는 이미지와 함께 발생하는 다양한 설명, 댓글 및 관련 텍스트 때문에 어려운 작업입니다. 최근의 이미지에 대한 대조 표현 학습 연구는 대조 목표가 동일한 예측 목표보다 더 나은 표현을 학습할 수 있음을 발견했습니다 (Tian et al., 2019). 다른 연구에서는 이미지 생성 모델이 고품질의 이미지 표현을 학습할 수 있지만, 동일한 성능의 대조 모델보다 10배 이상의 연산을 필요로 한다는 것을 발견했습니다 (Chen et al., 2020a). 이러한 발견을 바탕으로, 우리는 텍스트의 정확한 단어가 아닌 텍스트 전체가 어느 이미지와 짝을 이루는지만 예측하는 더 쉬운 프록시 작업을 해결하도록 시스템을 훈련하는 방법을 탐구했습니다. 단어 가방 인코딩 기준 모델을 시작으로, 우리는 예측 목표를 대조 목표로 바꾸었고 Figure 2에서 제로샷 전이 효율성이 4배 더 향상되는 것을 관찰했습니다.

N개의 (이미지, 텍스트) 쌍 배치를 고려할 때, CLIP은 배치 내에서 실제로 발생한 N x N 가능한 (이미지, 텍스트) 짝 중 어느 것이 맞는지 예측하도록 훈련됩니다. 이를 위해, CLIP은 이미지 인코더와 텍스트 인코더를 함께 훈련시켜 배치 내의 N개의 실제 쌍의 이미지와 텍스트 임베딩의 코사인 유사성을 최대화하고 N^2 - N개의 잘못된 쌍의 임베딩의 코사인 유사성을 최소화합니다. 우리는 이러한 유사성 점수에 대해 대칭적 교차 엔트로피 손실을 최적화합니다. Figure 3에는 CLIP 구현의 핵심에 대한 의사 코드가 포함되어 있습니다. 우리의 지식에 따르면 이 배치 구성 기술과 목표는 처음에 심층 메트릭 학습 분야에서 멀티 클래스 N-페어 손실로 소개되었으며 (Sohn, 2016), 대조 표현 학습을 위해 Oord et al. (2018)이 InfoNCE 손실로 대중화했으며, 최근 Zhang et al. (2020)이 의료 이미징 도메인에서 대조 (텍스트, 이미지) 표현 학습을 위해 적용했습니다.

우리의 사전 학습 데이터셋이 매우 크기 때문에 과적합은 주요 문제가 아니며 CLIP 훈련의 세부 사항은 Zhang et al. (2020)의 구현과 비교하여 단순화되었습니다. 우리는 ImageNet 가중치로 이미지 인코더를 초기화하거나 사전 학습된 가중치로 텍스트 인코더를 초기화하지 않고 CLIP을 처음부터 훈련합니다. 우리는 Bachman et al. (2019)이 도입하고 Chen et al. (2020b)이 대중화한 표현과 대조 임베딩 공간 사이의 비선형 투영을 사용하지 않습니다. 대신, 각 인코더의 표현에서 다중 모드 임베딩 공간으로 매핑하기 위해 선형 투영만 사용합니다. 우리는 두 버전 사이의 훈련 효율성 차이를 발견하지 못했으며, 비선형 투영이 현재 이미지에만 의존하는 자가 감독 표현 학습 방법의 세부 사항과 공동 적응될 수 있다고 추측합니다. 우리는 또한 CLIP의 사전 학습 데이터셋에서 많은 (이미지, 텍스트) 쌍이 단일 문장만 포함하기 때문에 Zhang et al. (2020)에서 도입한 텍스트 변환 함수 t_u를 제거했습니다. 우리는 이미지 변환 함수 t_v도 단순화했습니다. 크기 조정된 이미지에서 무작위 정사각형 자르기만이 훈련 중 사용된 데이터 증강입니다. 마지막으로, 소프트맥스에서 로짓의 범위를 제어하는 온도 매개변수 tau는 하이퍼파라미터로 조정하는 대신 로그 매개변수화된 곱셈 스칼라로 훈련 중 직접 최적화됩니다.

-----------------------------------------------------------------------------------------------------------------------------------------------------------------

-----------------------------------------------------------------------------------------------------------------------------------------------------------------

Figure 3. CLIP 구현의 핵심에 대한 Numpy 스타일 의사 코드.

2.4 모델 선택 및 확장

우리는 이미지 인코더에 대해 두 가지 다른 아키텍처를 고려합니다. 첫 번째로, 이미지 인코더의 기본 아키텍처로 ResNet-50(He et al., 2016a)을 사용합니다. 이는 널리 채택되고 검증된 성능을 지니기 때문입니다. 우리는 He et al. (2019)의 ResNet-D 개선과 Zhang (2019)의 반에일리어스드 rect-2 블러 풀링을 사용하여 원본 버전에 몇 가지 수정을 가했습니다. 또한, 글로벌 평균 풀링 레이어를 주의 풀링 메커니즘으로 교체했습니다. 주의 풀링은 "트랜스포머 스타일" 다중 헤드 QKV 주의의 단일 레이어로 구현되며, 쿼리는 이미지의 글로벌 평균 풀링된 표현에 조건부로 설정됩니다. 두 번째 아키텍처로, 우리는 최근에 도입된 Vision Transformer(ViT)(Dosovitskiy et al., 2020)를 실험합니다. 우리는 그들의 구현을 밀접하게 따르며, 변환기 전에 패치와 위치 임베딩을 결합하는 데 추가 레이어 정규화를 추가하는 사소한 수정만 하고 약간 다른 초기화 방식을 사용합니다.

텍스트 인코더는 Radford et al. (2019)에서 설명된 아키텍처 수정 사항을 가진 Transformer(Vaswani et al., 2017)입니다. 기본 크기로 63M 파라미터, 12층, 512 너비의 모델에 8개의 주의 헤드를 사용합니다. 변환기는 소문자로 변환된 바이트 쌍 인코딩(BPE) 표현의 텍스트를 처리하며, 어휘 크기는 49,152입니다(Sennrich et al., 2015). 계산 효율성을 위해 최대 시퀀스 길이는 76으로 제한되었습니다. 텍스트 시퀀스는 [SOS]와 [EOS] 토큰으로 감싸져 있으며, 변환기의 가장 높은 층에서 [EOS] 토큰의 활성화는 텍스트의 특징 표현으로 간주되며, 이는 층 정규화되고 다중 모드 임베딩 공간으로 선형 투영됩니다. 텍스트 인코더에서는 마스킹된 자기 주의가 사용되어 사전 학습된 언어 모델로 초기화하거나 언어 모델링을 보조 목표로 추가할 수 있는 능력을 유지합니다. 하지만 이는 미래 작업으로 남겨둡니다.

이전 컴퓨터 비전 연구에서는 종종 너비(Mahajan et al., 2018) 또는 깊이(He et al., 2016a)를 단독으로 증가시켜 모델을 확장했습니다. ResNet 이미지 인코더의 경우, Tan & Le (2019)의 접근 방식을 채택하여 너비, 깊이 및 해상도 전체에 추가 계산을 할당하는 것이 모델의 한 차원에만 할당하는 것보다 성능이 뛰어남을 발견했습니다. Tan & Le (2019)는 그들의 EfficientNet 아키텍처에 대해 각 차원에 할당된 계산 비율을 조정했지만, 우리는 너비, 깊이 및 해상도를 균등하게 증가시키는 간단한 기준을 사용합니다. 텍스트 인코더의 경우, ResNet 너비 증가에 비례하여 모델의 너비만 확장하고 깊이는 전혀 확장하지 않습니다. 이는 CLIP의 성능이 텍스트 인코더의 용량에 덜 민감하다는 것을 발견했기 때문입니다.

2. 접근 방식

2.5 훈련

우리는 5개의 ResNet과 3개의 Vision Transformer 모델을 훈련했습니다. ResNet의 경우 ResNet-50, ResNet-101을 훈련하고, EfficientNet 스타일 모델 확장을 따라 ResNet-50의 약 4배, 16배, 64배의 연산을 사용하는 3개의 모델(RN50x4, RN50x16, RN50x64)을 추가로 훈련했습니다. Vision Transformer의 경우 ViT-B/32, ViT-B/16, ViT-L/14를 훈련했습니다. 모든 모델은 32 에포크 동안 훈련했습니다. 우리는 Adam 옵티마이저(Kingma & Ba, 2014)를 사용하였으며, 모든 가중치에 분리된 가중치 감쇠 정규화(Loshchilov & Hutter, 2017)를 적용하고, 학습률은 코사인 스케줄(Loshchilov & Hutter, 2016)을 사용하여 감소시켰습니다. 초기 하이퍼파라미터는 ResNet-50 모델의 1 에포크 훈련 시 그리드 검색, 랜덤 검색 및 수동 튜닝의 조합을 통해 설정되었습니다. 그런 다음, 계산 제약으로 인해 더 큰 모델에 대해 하이퍼파라미터를 경험적으로 조정했습니다. 학습 가능한 온도 파라미터는 0.07에 해당하는 값으로 초기화되었으며(Wu et al., 2018), 학습 불안정을 방지하기 위해 로짓을 100 이상으로 스케일링하지 않도록 클리핑했습니다. 우리는 32,768의 매우 큰 미니배치 크기를 사용했습니다. 훈련을 가속화하고 메모리를 절약하기 위해 혼합 정밀도(Micikevicius et al., 2017)를 사용했습니다. 추가 메모리 절약을 위해 그래디언트 체크포인팅(Griewank & Walther, 2000; Chen et al., 2016), 반정밀도 Adam 통계(Dhariwal et al., 2020), 반정밀도 확률적으로 반올림된 텍스트 인코더 가중치를 사용했습니다. 임베딩 유사성 계산도 샤딩되어 개별 GPU는 로컬 배치의 임베딩에 필요한 쌍별 유사성의 하위 집합만 계산했습니다. 가장 큰 ResNet 모델인 RN50x64는 592개의 V100 GPU에서 18일 동안 훈련되었고, 가장 큰 Vision Transformer는 256개의 V100 GPU에서 12일 동안 훈련되었습니다. ViT-L/14의 경우 성능을 향상시키기 위해 FixRes(Touvron et al., 2019)와 유사하게 추가적으로 한 에포크 동안 더 높은 336 픽셀 해상도로 사전 학습했습니다. 이 모델은 ViT-L/14@336px로 표기됩니다. 별도로 명시하지 않은 한, 이 논문에서 "CLIP"으로 보고된 모든 결과는 이 모델을 사용했으며, 우리는 이 모델이 가장 성능이 좋다는 것을 발견했습니다.

-----------------------------------------------------------------------------------------------------------------------------------------------------------------

신경망을 훈련할 때, 데이터셋 전체를 한 번에 네트워크에 공급하는 대신, 데이터셋을 여러 작은 그룹으로 나누어 순차적으로 공급합니다. 이러한 작은 데이터 묶음을 미니배치라고 합니다.

-----------------------------------------------------------------------------------------------------------------------------------------------------------------

3. 실험

3.1 제로샷 전이

3.1.1 동기

컴퓨터 비전에서 제로샷 학습은 일반적으로 이미지 분류에서 보지 못한 객체 범주로의 일반화를 연구하는 것을 의미합니다(Lampert et al., 2009). 우리는 대신 이 용어를 더 넓은 의미로 사용하여 보지 못한 데이터셋으로의 일반화를 연구합니다. 우리는 이를 Larochelle et al. (2008)의 제로 데이터 학습 논문에서 목표로 하는 것처럼, 보지 못한 작업 수행의 대리자로 제안합니다. 비지도 학습 분야의 많은 연구가 기계 학습 시스템의 표현 학습 능력에 중점을 두고 있지만, 우리는 제로샷 전이를 기계 학습 시스템의 작업 학습 능력을 측정하는 방법으로 연구할 것을 제안합니다. 이러한 관점에서 데이터셋은 특정 분포에서 작업에 대한 성능을 평가합니다. 그러나 많은 인기 있는 컴퓨터 비전 데이터셋은 특정 작업의 성능을 측정하기보다는 일반적인 이미지 분류 방법 개발을 안내하기 위해 연구 커뮤니티에 의해 주로 만들어졌습니다. 예를 들어, SVHN 데이터셋은 Google Street View 사진의 거리 번호 전사 작업을 측정한다고 말할 수 있지만, CIFAR-10 데이터셋이 측정하는 "실제" 작업은 불분명합니다. 그러나 CIFAR-10이 TinyImages(Torralba et al., 2008)에서 가져온 분포는 명확합니다. 이러한 종류의 데이터셋에서는 제로샷 전이가 CLIP의 분포 이동 및 도메인 일반화에 대한 견고성을 평가하는 것입니다. 이에 대한 분석은 3.3절을 참조하십시오.

저희가 알기로는, Visual N-Grams (Li et al., 2017)이 처음으로 위에서 설명한 방식으로 기존 이미지 분류 데이터셋에 대한 제로샷 전이를 연구했습니다. 또한, 우리가 알고 있는 다른 연구 중에서 일반적으로 사전 학습된 모델을 사용하여 표준 이미지 분류 데이터셋에 대한 제로샷 전이를 연구한 유일한 사례이며, CLIP을 맥락화하는 데 가장 좋은 참조점 역할을 합니다. 그들의 접근 방식은 142,806개의 시각적 n-그램(1-그램에서 5-그램까지 포함)의 사전 매개변수를 학습하고, 이러한 n-그램을 최적화하여 주어진 이미지에 대한 모든 텍스트 n-그램의 확률을 최대화하는 차별화된 버전의 Jelinek-Mercer 스무딩을 사용합니다. 제로샷 전이를 수행하기 위해, 그들은 먼저 데이터셋의 클래스 이름 텍스트를 n-그램 표현으로 변환한 다음 모델에 따라 그 확률을 계산하여 가장 높은 점수를 예측합니다.

작업 학습의 평가로서 제로샷 전이를 연구하는 우리의 초점은 NLP 분야에서 작업 학습을 입증하는 연구에서 영감을 받았습니다. 우리가 알기로는 Liu et al. (2018)이 처음으로 위키백과 기사를 생성하도록 훈련된 언어 모델이 언어 간 이름을 신뢰성 있게 음역하는 방법을 학습했을 때 이를 "예상치 못한 부수 효과"로 작업 학습을 확인했습니다. GPT-1 (Radford et al., 2018)은 감독된 미세 조정을 개선하기 위한 전이 학습 방법으로 사전 학습에 초점을 맞추었지만, 사전 학습 과정 동안 네 가지 휴리스틱 제로샷 전이 방법의 성능이 지속적으로 향상되는 것을 입증하는 절단 연구도 포함했습니다. 이 분석은 제로샷 전이를 통해 언어 모델의 작업 학습 능력을 연구하는 데 집중한 GPT-2 (Radford et al., 2019)의 기초가 되었습니다.

-----------------------------------------------------------------------------------------------------------------------------------------------------------------

n-그램의 종류

1-그램 (유니그램, Unigram): 개별 항목, 예를 들어 단어 하나씩.
2-그램 (바이그램, Bigram): 연속된 두 개의 항목, 예를 들어 두 단어씩 묶음.
3-그램 (트라이그램, Trigram): 연속된 세 개의 항목, 예를 들어 세 단어씩 묶음.
n-그램: n개의 연속된 항목, 예를 들어 n개의 단어씩 묶음.

예시

"나는 학교에 간다"라는 문장이 있을 때,

유니그램: ["나는", "학교에", "간다"]
바이그램: ["나는 학교에", "학교에 간다"]
트라이그램: ["나는 학교에 간다"]

n-그램의 사용

언어 모델링: n-그램을 사용하여 문장의 확률을 계산하거나 텍스트를 예측할 수 있습니다. 예를 들어, 바이그램 모델은 이전 단어가 주어졌을 때 다음 단어의 확률을 계산할 수 있습니다.
텍스트 분석: n-그램 빈도 분석을 통해 특정 패턴이나 표현을 발견할 수 있습니다. 예를 들어, 특정 문서에서 가장 자주 사용되는 3-그램을 찾을 수 있습니다.
정보 검색 및 텍스트 마이닝: n-그램을 사용하여 문서 간의 유사성을 계산하거나 텍스트 데이터에서 유의미한 패턴을 추출할 수 있습니다.

CLIP에서의 n-그램

CLIP 논문에서 언급된 Visual N-Grams (Li et al., 2017)은 이미지와 관련된 시각적 n-그램을 학습하여 이미지 분류 작업에 활용합니다. 이 접근 방식에서는 이미지와 텍스트의 n-그램 간의 확률을 계산하여 가장 적합한 클래스(예: 이미지 카테고리)를 예측합니다. 예를 들어, 이미지에 대해 "강아지"라는 단어가 포함된 텍스트 n-그램을 예측하고 이를 기반으로 이미지를 분류할 수 있습니다.

-----------------------------------------------------------------------------------------------------------------------------------------------------------------

3.1.2 CLIP을 이용한 제로샷 전이

CLIP은 데이터셋에서 이미지와 텍스트 조각이 함께 짝지어졌는지 예측하도록 사전 학습되었습니다. 제로샷 분류를 수행하기 위해, 우리는 이 기능을 재사용합니다. 각 데이터셋에 대해, 우리는 데이터셋의 모든 클래스 이름을 잠재적인 텍스트 짝지어짐의 집합으로 사용하고 CLIP에 따라 가장 가능성 높은 (이미지, 텍스트) 쌍을 예측합니다. 좀 더 자세히 설명하면, 우리는 먼저 이미지의 특징 임베딩과 각 클래스 이름의 텍스트를 텍스트 인코더로 변환한 임베딩을 계산합니다. 그런 다음, 이러한 임베딩의 코사인 유사성을 계산하고, 온도 파라미터 tau에 의해 스케일링하여 소프트맥스를 통해 확률 분포로 정규화합니다. 이 예측 레이어는 L2 정규화된 입력과 L2 정규화된 가중치, 바이어스 없이 온도 스케일링이 포함된 다항 로지스틱 회귀 분류기(multinomial logistic regression classifier)입니다. 이렇게 해석하면, 이미지 인코더는 이미지에 대한 특징 표현을 계산하는 컴퓨터 비전 백본이며, 텍스트 인코더는 클래스가 나타내는 시각적 개념을 명시하는 텍스트를 기반으로 선형 분류기의 가중치를 생성하는 하이퍼네트워크(hypernetwork)입니다(Ha et al., 2016). Lei Ba et al. (2015)은 이러한 형태의 제로샷 이미지 분류기를 처음 도입했으며, 자연어에서 분류기를 생성하는 아이디어는 적어도 Elhoseiny et al. (2013)까지 거슬러 올라갑니다. 이 해석을 계속하면, CLIP 사전 학습의 모든 단계를 1개의 예제가 있는 32,768개의 클래스가 자연어 설명으로 정의된 컴퓨터 비전 데이터셋에 대해 무작위로 생성된 프록시의 성능을 최적화하는 것으로 볼 수 있습니다. 제로샷 평가를 위해, 우리는 텍스트 인코더에 의해 계산된 제로샷 분류기를 캐시하여 이후의 모든 예측에 재사용합니다. 이를 통해 데이터셋 내 모든 예측에 걸쳐 분류기를 생성하는 비용을 분산시킬 수 있습니다.

표 1. 이전 제로샷 전이 이미지 분류 결과와 CLIP 비교

CLIP은 모든 세 개의 데이터셋에서 성능을 크게 향상시켰습니다. 이러한 향상은 Visual N-Grams (Li et al., 2017) 개발 이후 4년 동안의 많은 차이를 반영합니다.

3.1.3 초기 비교: Visual N-Grams와 CLIP

표 1에서는 Visual N-Grams와 CLIP을 비교합니다. 최고의 CLIP 모델은 ImageNet에서 정확도를 개념 증명 단계의 11.5%에서 76.2%로 향상시키고, 1.28백만 개의 군중 라벨링된 훈련 예제를 사용하지 않고도 원래의 ResNet-50 성능과 일치합니다. 또한, CLIP 모델의 Top-5 정확도는 Top-1 정확도보다 눈에 띄게 높으며, 이 모델은 95%의 Top-5 정확도를 기록하여 Inception-V4 (Szegedy et al., 2016)와 일치합니다. 강력한 완전 감독 기준과 제로샷 설정에서 성능을 맞출 수 있는 능력은 CLIP이 유연하고 실용적인 제로샷 컴퓨터 비전 분류기로의 중요한 도약임을 시사합니다.

위에서 언급했듯이, Visual N-Grams와의 비교는 CLIP의 성능을 맥락화하기 위한 것이며, CLIP과 Visual N-Grams 간의 직접적인 방법 비교로 해석되어서는 안 됩니다. 두 시스템 간의 성능에 관련된 많은 차이가 통제되지 않았기 때문입니다. 예를 들어, 우리는 10배 더 큰 데이터셋에서 훈련하고, 예측당 거의 100배 더 많은 계산을 요구하는 비전 모델을 사용하며, Visual N-Grams가 출판될 때 존재하지 않았던 트랜스포머 기반 모델을 사용합니다. 더 가까운 비교를 위해, 우리는 Visual N-Grams가 훈련된 것과 동일한 YFCC100M 데이터셋에서 CLIP ResNet-50을 훈련시켰으며, V100 GPU 하루 내에 보고된 ImageNet 성능과 일치함을 발견했습니다. 이 기준선도 Visual N-Grams에서처럼 사전 훈련된 ImageNet 가중치로 초기화하는 대신 처음부터 훈련되었습니다.

CLIP은 다른 2개의 보고된 데이터셋에서도 Visual N-Grams를 능가합니다. aYahoo에서는 CLIP이 오류 수를 95% 줄였고, SUN에서는 Visual N-Grams의 정확도를 두 배 이상 높였습니다. 더 포괄적인 분석과 스트레스 테스트를 수행하기 위해, 우리는 부록 A에 자세히 설명된 훨씬 더 큰 평가 스위트를 구현했습니다. 총 3개의 Visual N-Grams에서 보고된 데이터셋에서 30개 이상의 데이터셋으로 확장하여 결과를 맥락화하기 위해 50개 이상의 기존 컴퓨터 비전 시스템과 비교했습니다.

3.1.4 프롬프트 엔지니어링과 앙상블링

대부분의 표준 이미지 분류 데이터셋은 클래스의 이름이나 설명 정보를 후순위로 다룹니다. 자연어 기반 제로샷 전이를 가능하게 하는 정보입니다. 대부분의 데이터셋은 이미지를 라벨의 숫자 ID로만 주석을 달고, 이 ID를 영어 이름으로 매핑하는 파일을 포함합니다. 예를 들어, Flowers102와 GTSRB와 같은 일부 데이터셋은 배포된 버전에 이 매핑이 포함되지 않아 제로샷 전이를 완전히 방지합니다. 많은 데이터셋에서 이러한 라벨이 다소 임의로 선택되었으며, 제로샷 전이에 의존하는 작업 설명과 관련된 문제를 예상하지 못했습니다.

다의성 문제

일반적인 문제는 다의성입니다. 클래스 이름만 CLIP의 텍스트 인코더에 제공될 때, 맥락 부족으로 인해 단어의 의미를 구분할 수 없습니다. 경우에 따라 같은 단어의 여러 의미가 동일한 데이터셋의 다른 클래스로 포함될 수 있습니다. 예를 들어, ImageNet에는 건설 기중기와 날아다니는 기중기(crane)가 모두 포함되어 있습니다. 또 다른 예로, Oxford-IIIT Pet 데이터셋의 클래스 중 "boxer"는 문맥상 개의 품종을 의미하지만, 맥락이 없는 텍스트 인코더에는 운동선수 유형을 의미할 수도 있습니다.

단일 단어 문제

또 다른 문제는 우리의 사전 학습 데이터셋에서 이미지와 짝을 이루는 텍스트가 단일 단어인 경우가 드물다는 점입니다. 보통 텍스트는 이미지를 설명하는 전체 문장입니다. 이 분포 격차를 해소하기 위해 "A photo of a [라벨]"과 같은 프롬프트 템플릿을 사용하는 것이 이미지를 설명하는 텍스트임을 지정하는 데 도움이 되는 기본값으로 좋은 것으로 나타났습니다. 이는 라벨 텍스트만 사용하는 기본값보다 성능을 자주 향상시킵니다. 예를 들어, 이 프롬프트를 사용하면 ImageNet의 정확도가 1.3% 향상됩니다.

프롬프트 엔지니어링

GPT-3에 대한 "프롬프트 엔지니어링" 논의와 유사하게, 우리는 프롬프트 텍스트를 각 작업에 맞게 맞춤화하면 제로샷 성능이 크게 향상될 수 있음을 관찰했습니다. 몇 가지 비포괄적인 예는 다음과 같습니다. 여러 세분화된 이미지 분류 데이터셋에서 카테고리를 지정하면 도움이 된다는 것을 발견했습니다. 예를 들어, Oxford-IIIT Pets에서는 "A photo of a [라벨], a type of pet."와 같이 맥락을 제공하는 것이 효과적이었습니다. 마찬가지로 Food101에서는 음식 종류를, FGVC Aircraft에서는 항공기 종류를 지정하는 것이 도움이 되었습니다. OCR 데이터셋에서는 인식할 텍스트나 숫자에 따옴표를 추가하면 성능이 향상되었습니다. 마지막으로, 위성 이미지 분류 데이터셋에서는 이미지가 위성 사진임을 지정하는 것이 도움이 되었고, "a satellite photo of a [라벨]"와 같은 변형을 사용했습니다.

Figure 4

프롬프트 엔지니어링과 앙상블링은 제로샷 성능을 향상시킵니다. 맥락 없는 클래스 이름을 사용하는 기본값과 비교하여, 프롬프트 엔지니어링과 앙상블링은 36개의 데이터셋에서 평균적으로 제로샷 분류 성능을 거의 5점 향상시켰습니다. 이 향상은 기본 제로샷 방법으로 4배 더 많은 계산을 사용하는 것과 유사하지만, 많은 예측에 걸쳐 분산될 때는 "무료"입니다.

앙상블링

또 다른 성능 향상 방법으로 여러 제로샷 분류기를 앙상블링하는 실험을 했습니다. 이러한 분류기는 "A photo of a big [라벨]"와 "A photo of a small [라벨]"과 같은 다양한 맥락 프롬프트를 사용하여 계산됩니다. 우리는 확률 공간 대신 임베딩 공간에서 앙상블을 구성했습니다. 이는 단일 세트의 평균 텍스트 임베딩을 캐시할 수 있게 하여 많은 예측에 걸쳐 앙상블의 계산 비용을 단일 분류기를 사용하는 것과 동일하게 만듭니다. 우리는 여러 생성된 제로샷 분류기를 앙상블링하여 성능을 신뢰성 있게 향상시키는 것을 관찰했으며, 대부분의 데이터셋에서 이를 사용합니다. ImageNet에서는 80개의 다른 맥락 프롬프트를 앙상블링하여 단일 기본 프롬프트보다 성능을 3.5% 추가로 향상시켰습니다. 프롬프트 엔지니어링과 앙상블링을 함께 고려했을 때, ImageNet 정확도가 거의 5% 향상됩니다. Figure 4에서는 프롬프트 엔지니어링과 앙상블링이 Li et al. (2017)에서 수행된 클래스 이름 직접 임베딩과 비교하여 CLIP 모델의 성능을 어떻게 변화시키는지 시각화합니다.

그림 5

제로샷 CLIP은 완전 감독된 기준과 경쟁력이 있습니다. 27개의 데이터셋 평가 스위트에서 제로샷 CLIP 분류기는 ResNet-50 특징에 맞춘 완전 감독된 선형 분류기보다 16개의 데이터셋에서 우수한 성능을 보입니다. 여기에는 ImageNet도 포함됩니다.

3.1.5 제로샷 CLIP 성능 분석

컴퓨터 비전에서 작업 비특이적 제로샷 분류기는 충분히 연구되지 않았기 때문에, CLIP은 이 유형의 모델에 대한 이해를 높일 수 있는 유망한 기회를 제공합니다. 이 섹션에서는 CLIP의 제로샷 분류기의 다양한 속성을 연구합니다. 첫 번째 질문으로, 제로샷 분류기가 얼마나 잘 수행되는지 단순히 살펴봅니다. 이를 맥락화하기 위해, 우리는 표준 ResNet-50의 특징에 대해 완전 감독되고 정규화된 로지스틱 회귀 분류기를 맞추는 간단한 오프 더 셸프 기준 성능과 비교합니다. 그림 5에서는 27개의 데이터셋에 걸친 이 비교를 보여줍니다. 데이터셋과 설정의 세부 사항은 부록 A를 참조하십시오.

제로샷 CLIP은 이 기준보다 자주 우수한 성능을 보이며 27개의 데이터셋 중 16개에서 이깁니다. 개별 데이터셋을 살펴보면 몇 가지 흥미로운 행동을 관찰할 수 있습니다. 세분화된 분류 작업에서는 성능의 넓은 분포를 관찰할 수 있습니다. Stanford Cars와 Food101 두 데이터셋에서는 제로샷 CLIP이 ResNet-50 특징에 대한 로지스틱 회귀를 20% 이상 능가하는 반면, Flowers102와 FGVCAircraft에서는 제로샷 CLIP이 10% 이상 성능이 떨어집니다. OxfordPets와 Birdsnap에서는 성능이 훨씬 더 가깝습니다. 우리는 이러한 차이가 주로 WIT와 ImageNet 간의 작업별 감독 양의 차이 때문이라고 추측합니다. ImageNet, CIFAR10/100, STL10, PascalVOC2007과 같은 "일반적인" 객체 분류 데이터셋에서는 성능이 상대적으로 비슷하며, 모든 경우에 제로샷 CLIP이 약간의 우위를 점합니다. STL10에서는 CLIP이 99.3%의 전체 성능을 달성하며, 훈련 예제를 사용하지 않고도 새로운 최첨단 성능을 기록합니다. 제로샷 CLIP은 두 비디오에서의 행동 인식을 측정하는 데이터셋에서 ResNet-50보다 크게 우수한 성능을 보입니다. Kinetics700에서는 CLIP이 ResNet-50을 14.5% 능가하며, UCF101에서는 ResNet-50 특징보다 7.7% 우수합니다. 이는 자연어가 동사와 관련된 시각적 개념에 대해 더 넓은 감독을 제공하는 반면, ImageNet의 명사 중심 객체 감독에 비해 더 넓은 감독을 제공하기 때문일 것으로 추측됩니다.

제로샷 CLIP이 특히 성능이 낮은 경우를 보면, 제로샷 CLIP은 위성 이미지 분류(EuroSAT 및 RESISC45), 림프절 종양 감지(PatchCamelyon), 합성 장면에서의 객체 수 계산(CLEVRCounts), 독일 교통 표지 인식(GTSRB) 및 가장 가까운 자동차까지의 거리 인식(KITTI Distance)과 같은 전문화되고 복잡하거나 추상적인 작업에서 상당히 약한 성능을 보입니다. 이러한 결과는 제로샷 CLIP의 복잡한 작업에서의 낮은 성능을 강조합니다. 이에 비해 비전문가 인간은 이러한 작업, 예를 들어 객체 수 계산, 위성 이미지 분류 및 교통 표지 인식을 견고하게 수행할 수 있어 상당한 개선 여지가 있음을 시사합니다. 그러나 림프절 종양 분류와 같은 대부분의 인간에게도 익숙하지 않은 어려운 작업에 대해 제로샷 전이가 유의미한 평가인지 여부는 불분명하므로 주의가 필요합니다.

그림 6

제로샷 CLIP은 몇 샷 선형 프로브보다 우수합니다. 제로샷 CLIP은 동일한 특징 공간에서 훈련된 4샷 선형 분류기의 평균 성능과 일치하며, 공개된 모델 전반에 걸쳐 16샷 선형 분류기의 최고 성능과 거의 일치합니다. BiT-M 및 SimCLRv2 모두에 대해 최고의 성능을 보이는 모델이 강조되었습니다. 밝은 회색 선은 평가 스위트의 다른 모델을 나타냅니다. 각 클래스당 최소 16개의 예제가 있는 20개의 데이터셋이 이 분석에 사용되었습니다.

제로샷 성능을 완전 감독된 모델과 비교하는 것은 CLIP의 작업 학습 능력을 맥락화하지만, 몇 샷 방법과 비교하는 것이 더 직접적인 비교입니다. 제로샷이 그 한계이기 때문입니다. 그림 6에서 우리는 제로샷 CLIP이 많은 이미지 모델의 특징에 대해 몇 샷 로지스틱 회귀와 어떻게 비교되는지 시각화합니다. 여기에는 공개된 최고 성능의 ImageNet 모델, 자가 지도 학습 방법 및 CLIP 자체가 포함됩니다. 제로샷이 원샷보다 성능이 낮을 것으로 예상하는 것이 직관적이지만, 우리는 제로샷 CLIP이 동일한 특징 공간에서 4샷 로지스틱 회귀 성능과 일치한다는 것을 발견했습니다. 이는 제로샷과 몇 샷 접근 방식 간의 중요한 차이 때문일 가능성이 높습니다. 첫째, CLIP의 제로샷 분류기는 자연어를 통해 생성되어 시각적 개념을 직접 지정할 수 있게 합니다. 이에 반해, "일반" 감독 학습은 훈련 예제에서 간접적으로 개념을 추론해야 합니다. 예제 기반 학습은 특히 원샷 경우에서 데이터와 일치하는 여러 가설이 있을 수 있다는 단점을 가지고 있습니다. 단일 이미지에는 종종 여러 시각적 개념이 포함됩니다. 유능한 학습자는 시각적 단서와 휴리스틱을 활용할 수 있지만, 예를 들어 이미지의 주요 객체가 시연되는 개념이라고 가정할 수는 있지만, 보장은 없습니다.

이 제로샷과 몇 샷 성능 간의 불일치를 해결하는 잠재적 방법은 CLIP의 제로샷 분류기를 몇 샷 분류기의 가중치의 사전으로 사용하는 것입니다. L2 페널티를 생성된 가중치에 추가하는 것이 이 아이디어의 직관적 구현이지만, 하이퍼파라미터 최적화는 종종 이 정규화 항의 값을 매우 크게 선택하여 결과적으로 몇 샷 분류기가 "단지" 제로샷 분류기만 되는 것을 발견했습니다. 제로샷 전이의 강점을 몇 샷 학습의 유연성과 결합하는 더 나은 방법에 대한 연구는 유망한 향후 연구 방향입니다.

다른 모델의 특징에 대한 제로샷 CLIP과 몇 샷 로지스틱 회귀를 비교할 때, 제로샷 CLIP은 평가 스위트에서 최고 성능의 16샷 분류기 성능과 대략 일치합니다. 이는 ImageNet-21K에서 훈련된 BiT-M ResNet-152x2 특징을 사용합니다. 우리는 JFT-300M에서 훈련된 BiT-L 모델이 더 나은 성능을 보일 것이라고 확신하지만, 이러한 모델은 공개적으로 제공되지 않았습니다. BiT-M ResNet-152x2가 16샷 설정에서 최고의 성능을 보이는 것은 다소 놀라운 일입니다. 3.2절에서 분석한 바와 같이, Noisy Student EfficientNet-L2는 27개의 데이터셋 전반에 걸쳐 완전 감독된 설정에서 평균적으로 거의 5% 더 우수한 성능을 보이기 때문입니다.

그림 7

제로샷 전이의 데이터 효율성은 크게 다릅니다. 동일한 CLIP 특징 공간에서 선형 분류기가 제로샷 분류기의 성능에 맞추기 위해 클래스당 필요한 라벨 예제 수를 계산하면 제로샷 전이의 효과를 맥락화할 수 있습니다. 값은 1, 2, 4, 8, 16샷 및 완전 감독된 결과의 로그-선형 보간을 기반으로 추정되었습니다. 성능은 두 데이터셋에서 원샷 분류기보다 여전히 낮고, 클래스당 추정 184 라벨 예제에 맞추는 데까지 다양합니다

제로샷 CLIP과 몇 샷 로지스틱 회귀의 평균 성능을 연구하는 것 외에도, 우리는 개별 데이터셋에서의 성능도 검토합니다. 그림 7에서 우리는 동일한 특징 공간에서 로지스틱 회귀 분류기가 제로샷 CLIP의 성능에 맞추기 위해 각 클래스당 필요한 라벨 예제 수를 추정합니다. 제로샷 CLIP도 선형 분류기이므로, 이는 이 설정에서 제로샷 전이의 효과적인 데이터 효율성을 추정합니다. 수천 개의 선형 분류기를 훈련하는 것을 피하기 위해, 우리는 각 데이터셋에서 훈련된 1, 2, 4, 8, 16샷(가능한 경우) 및 완전 감독된 선형 분류기의 성능의 로그-선형 보간을 기반으로 효과적인 데이터 효율성을 추정합니다. 우리는 제로샷 전이가 클래스당 라벨 예제를 1개에서 184개까지 필요로 할 수 있음을 발견했습니다. 두 데이터셋, Flowers102와 EuroSAT는 원샷 모델보다 성능이 낮습니다. 데이터셋의 절반은 클래스당 5개 미만의 예제를 필요로 하며, 중앙값은 5.4입니다. 그러나 평균 추정 데이터 효율성은 클래스당 20.8 예제입니다. 이는 감독된 분류기가 성능에 맞추기 위해 많은 라벨 예제를 필요로 하는 데이터셋의 20% 때문입니다. ImageNet에서는 제로샷 CLIP이 동일한 특징 공간에서 훈련된 16샷 선형 분류기의 성능에 맞춥니다.

그림 8

제로샷 성능은 선형 프로브 성능과 상관관계가 있지만 여전히 대부분 최적이 아닙니다. 데이터셋 전반에 걸쳐 제로샷과 선형 프로브 성능을 비교하면 제로샷 성능이 주로 10에서 25포인트 낮은 강한 상관관계를 보여줍니다. 제로샷 성능이 선형 프로브 성능에 접근하는 데이터셋은 5개에 불과합니다 (3포인트 차이).

평가 데이터셋이 충분히 커서 그 위에서 훈련된 선형 분류기의 파라미터가 잘 추정된다고 가정한다면, CLIP의 제로샷 분류기도 선형 분류기이기 때문에, 완전 감독된 분류기의 성능이 제로샷 전이가 달성할 수 있는 상한을 대략 설정한다고 할 수 있습니다. 그림 8에서 우리는 데이터셋에 걸쳐 CLIP의 제로샷 성능을 완전 감독된 선형 분류기와 비교합니다. 점선 y = x는 완전 감독된 성능과 일치하는 "최적의" 제로샷 분류기를 나타냅니다. 대부분의 데이터셋에서 제로샷 분류기의 성능은 여전히 완전 감독된 분류기보다 10%에서 25% 낮아, CLIP의 작업 학습과 제로샷 전이 능력을 개선할 여지가 많음을 시사합니다.

제로샷 성능과 완전 감독된 성능 간에는 0.82의 양의 상관관계(p-value < 10⁻⁶)가 있어, CLIP이 기본 표현과 작업 학습을 제로샷 전이로 연결하는 데 상대적으로 일관성이 있음을 시사합니다. 그러나 제로샷 CLIP은 STL10, CIFAR10, Food101, OxfordPets, Caltech101의 5개 데이터셋에서만 완전 감독된 성능에 접근합니다. 이 5개 데이터셋 모두에서 제로샷 정확도와 완전 감독된 정확도는 90% 이상입니다. 이는 CLIP의 기본 표현이 높은 품질을 갖는 작업에서 제로샷 전이가 더 효과적일 수 있음을 시사합니다. 완전 감독된 성능을 함수로 하여 제로샷 성능을 예측하는 선형 회귀 모델의 기울기는 완전 감독된 성능이 1% 향상될 때 제로샷 성능이 1.28% 향상된다고 추정합니다. 그러나 95번째 백분위수 신뢰 구간은 여전히 1 미만의 값(0.93-1.79)을 포함합니다.

그림 9

제로샷 CLIP 성능은 모델 계산량의 함수로서 매끄럽게 확장됩니다. 36개의 다른 데이터셋에서 39번의 평가에 걸쳐, 평균 제로샷 오류는 5개의 다른 CLIP 모델에 걸친 44배 계산량 범위에서 로그-로그 선형 추세로 잘 모델링됩니다. 연하게 음영 처리된 선들은 개별 평가의 성능을 나타내며, 전체적인 추세는 매끄럽지만 개별 평가의 성능은 훨씬 더 다양함을 보여줍니다.

지난 몇 년 동안 심층 학습 시스템에 대한 실증 연구는 성능이 훈련 계산량과 데이터셋 크기와 같은 중요한 양의 함수로 예측 가능하다고 문서화해왔습니다(Hestness et al., 2017; Kaplan et al., 2020). GPT 모델 계열은 지금까지 훈련 계산량을 1000배 증가시키면서 제로샷 성능에서 일관된 개선을 보여주었습니다. 그림 9에서 우리는 CLIP의 제로샷 성능이 유사한 확장 패턴을 따르는지 확인합니다. 우리는 36개의 다른 데이터셋에서 39번의 평가에 걸쳐 5개의 ResNet CLIP 모델의 평균 오류율을 플로팅하고, 모델 계산량을 44배 증가시킨 범위에서 CLIP에 대해 유사한 로그-로그 선형 확장 추세가 유지됨을 발견합니다. 전체적인 추세는 매끄럽지만, 개별 평가의 성능은 훨씬 더 노이즈가 많을 수 있음을 발견했습니다. 이는 특정 작업에서 계산량의 함수로서 성능이 실제로 단조롭지 않은지, 또는 특정 하위 작업의 개별 훈련 실행 간의 높은 분산(D’Amour et al., 2020)이 꾸준히 개선되는 추세를 가리는 것인지 확신할 수 없습니다.

3.2 표현 학습

이전 섹션에서 제로샷 전이를 통해 CLIP의 작업 학습 능력을 광범위하게 분석했지만, 모델의 표현 학습 능력을 연구하는 것이 더 일반적입니다. 표현의 품질을 평가하는 방법은 많으며 "이상적인" 표현이 어떤 속성을 가져야 하는지에 대한 의견도 다릅니다(Locatello et al., 2020). 모델에서 추출한 표현에 대해 선형 분류기를 맞추고 다양한 데이터셋에서 그 성능을 측정하는 것이 일반적인 접근 방식입니다. 또 다른 방법은 모델의 끝에서 끝까지 미세 조정(fine-tuning)하는 성능을 측정하는 것입니다. 이는 유연성을 높이며, 이전 연구에서는 미세 조정이 대부분의 이미지 분류 데이터셋에서 선형 분류를 능가한다는 것을 확실하게 입증했습니다(Kornblith et al., 2019; Zhai et al., 2019).

미세 조정의 높은 성능은 실용적인 이유로 연구를 자극하지만, 우리는 몇 가지 이유로 선형 분류 기반 평가를 선택합니다. 우리의 작업은 높은 성능의 작업 및 데이터셋 비특이적 사전 학습 접근 방식을 개발하는 데 중점을 둡니다. 미세 조정은 미세 조정 단계에서 각 데이터셋에 맞게 표현을 조정하므로, 사전 학습 단계에서 일반적이고 견고한 표현을 학습하지 못한 실패를 보완하고 잠재적으로 가릴 수 있습니다. 반면, 선형 분류기는 유연성이 제한되어 이러한 실패를 강조하고 개발 중 명확한 피드백을 제공합니다. CLIP의 경우, 감독된 선형 분류기를 훈련하는 것은 제로샷 분류기에 사용된 접근 방식과 매우 유사하므로 3.1절에서 광범위한 비교와 분석을 가능하게 합니다. 마지막으로, 우리는 많은 작업에 걸쳐 CLIP을 기존 모델의 포괄적인 집합과 비교하려고 합니다. 27개의 다른 데이터셋에서 66개의 다른 모델을 연구하는 것은 1782개의 다른 평가를 튜닝하는 것을 요구합니다. 미세 조정은 훨씬 더 큰 디자인과 하이퍼파라미터 공간을 열어주어 다양한 기법을 공정하게 평가하고 비교하는 것이 어렵고 계산 비용이 많이 듭니다(Lucic et al., 2018; Choi et al., 2019). 이에 비해 선형 분류기는 최소한의 하이퍼파라미터 튜닝을 필요로 하며 표준화된 구현 및 평가 절차를 가지고 있습니다. 평가에 대한 자세한 내용은 부록 A를 참조하십시오.

그림 10

CLIP 모델의 선형 프로브 성능을 최첨단 컴퓨터 비전 모델과 비교한 결과입니다. 여기에는 EfficientNet (Tan & Le, 2019; Xie et al., 2020), MoCo (Chen et al., 2020d), Instagram-pretrained ResNeXt 모델 (Mahajan et al., 2018; Touvron et al., 2019), BiT (Kolesnikov et al., 2019), ViT (Dosovitskiy et al., 2020), SimCLRv2 (Chen et al., 2020c), BYOL (Grill et al., 2020), 및 원본 ResNet 모델(He et al., 2016b)이 포함됩니다. (왼쪽) 점수는 Kornblith et al. (2019)에서 연구된 12개 데이터셋 평균입니다. (오른쪽) 점수는 더 다양한 분포를 포함하는 27개 데이터셋의 평균입니다. 점선은 사전 훈련된 해상도보다 높은 해상도로 미세 조정되거나 평가된 모델을 나타냅니다. 개별 점수는 표 10에서, 각 데이터셋에 대한 플롯은 그림 20에서 확인할 수 있습니다.

그림 10은 우리의 발견을 요약합니다. 확인 또는 보고 편향에 대한 우려를 줄이기 위해, 우리는 먼저 Kornblith et al. (2019)의 12 데이터셋 평가 스위트에서 성능을 연구합니다. ResNet-50 및 ResNet-101과 같은 작은 CLIP 모델은 ImageNet-1K에서 훈련된 다른 ResNet(BiT-S 및 원본)을 능가하지만, ImageNet-21K에서 훈련된 ResNet(BiT-M)보다 성능이 떨어집니다. 이러한 작은 CLIP 모델은 또한 유사한 계산 요구 사항을 가진 EfficientNet 계열 모델보다 성능이 떨어집니다. 그러나 CLIP으로 훈련된 모델은 매우 잘 확장되며, 우리가 훈련한 가장 큰 모델(ResNet-50x64)은 전반적인 점수와 계산 효율성 모두에서 현재 최고의 성능을 보이는 모델(Noisy Student EfficientNet-L2)을 약간 능가합니다. 또한, CLIP 비전 트랜스포머는 CLIP ResNet보다 약 3배 더 계산 효율적이어서, 동일한 계산 예산 내에서 더 높은 전반적인 성능을 달성할 수 있음을 발견했습니다. 이러한 결과는 Dosovitskiy et al. (2020)의 발견을 질적으로 재현하며, 충분히 큰 데이터셋에서 훈련할 때 비전 트랜스포머가 컨볼루션 신경망보다 더 계산 효율적임을 보고했습니다. 우리의 최고 전반적인 모델은 더 높은 해상도인 336픽셀로 추가 에포크 동안 데이터셋에서 미세 조정된 ViT-L/14입니다. 이 모델은 이 평가 스위트에서 기존 최고 모델보다 평균 2.6% 더 높은 성능을 보입니다.

그림 21에서 질적으로 보여주듯이, CLIP 모델은 이전에 단일 컴퓨터 비전 모델로 훈련된 것보다 더 넓은 범위의 작업을 학습합니다. 이러한 작업에는 지리적 위치 확인, 광학 문자 인식, 얼굴 감정 인식, 행동 인식이 포함됩니다. 이러한 작업은 Kornblith et al. (2019)의 평가 스위트에서 측정되지 않았습니다. 이는 Kornblith et al. (2019)의 연구에서 ImageNet과 겹치는 작업에 대한 선택 편향의 한 형태로 논쟁할 수 있습니다. 이를 해결하기 위해, 우리는 더 넓은 27 데이터셋 평가 스위트에서 성능을 측정합니다. 부록 A에 자세히 설명된 이 평가 스위트에는 앞서 언급한 작업을 대표하는 데이터셋, 독일 교통 표지 인식 벤치마크(German Traffic Signs Recognition Benchmark)(Stallkamp et al., 2011), 및 VTAB(Zhai et al., 2019)에서 적응된 여러 다른 데이터셋이 포함됩니다.

더 넓은 평가 스위트에서의 CLIP의 이점

더 넓은 평가 스위트에서 CLIP의 이점이 더 명확하게 드러납니다. 모든 CLIP 모델은 규모에 관계없이 계산 효율성 측면에서 평가된 모든 시스템을 능가합니다. 최고의 모델의 평균 점수가 이전 시스템보다 2.6%에서 5%로 증가했습니다. 우리는 또한 자가 지도 학습 시스템이 더 넓은 평가 스위트에서 눈에 띄게 더 잘 수행한다는 것을 발견했습니다. 예를 들어, SimCLRv2는 Kornblith et al. (2019)의 12개 데이터셋 평균에서 여전히 BiT-M보다 성능이 낮지만, 우리 27개 데이터셋 평가 스위트에서는 BiT-M을 능가합니다. 이러한 결과는 시스템의 "일반적인" 성능을 더 잘 이해하기 위해 작업 다양성과 범위를 계속 확장해야 한다는 것을 시사합니다. 우리는 VTAB과 같은 추가 평가 노력이 가치 있을 것으로 의심합니다.

그림 11

CLIP의 특징은 다양한 데이터셋에서 최고의 ImageNet 모델의 특징을 능가합니다. CLIP의 특징을 사용하여 선형 분류기를 맞추는 것은 27개 데이터셋 중 21개에서 Noisy Student EfficientNet-L2를 사용하는 것보다 우수한 성능을 보입니다.

데이터셋별 성능 시각화

위의 종합 분석에 추가하여, 우리는 그림 11에서 27개 데이터셋에 걸친 최고 CLIP 모델과 우리 평가 스위트의 최고 모델의 데이터셋별 성능 차이를 시각화합니다. CLIP은 27개의 데이터셋 중 21개에서 Noisy Student EfficientNet-L2를 능가합니다. CLIP은 OCR(SST2 및 HatefulMemes), 지리적 위치 확인 및 장면 인식(Country211, SUN397), 비디오에서의 활동 인식(Kinetics700 및 UCF101)을 요구하는 작업에서 가장 크게 향상됩니다. 또한 CLIP은 세밀한 자동차 및 교통 표지 인식(Stanford Cars 및 GTSRB)에서도 훨씬 더 나은 성능을 보입니다. 이는 ImageNet의 지나치게 좁은 감독 문제를 반영할 수 있습니다. 예를 들어, GTSRB에서의 14.7% 향상은 ImageNet-1K가 모든 교통 및 도로 표지에 대해 단일 라벨만 가지고 있는 문제를 나타낼 수 있습니다. 이는 감독된 표현이 클래스 내 세부 사항을 무시하고 세밀한 다운스트림 작업에서 정확도를 저하시킬 수 있습니다. 언급한 바와 같이, CLIP은 여전히 몇몇 데이터셋에서 EfficientNet보다 성능이 낮습니다. 예상대로, EfficientNet이 CLIP보다 가장 잘 수행하는 데이터셋은 바로 그것이 훈련된 데이터셋인 ImageNet입니다. EfficientNet은 또한 CIFAR10 및 CIFAR100과 같은 저해상도 데이터셋에서도 CLIP보다 약간 더 나은 성능을 보입니다. 이는 적어도 부분적으로 CLIP에서의 규모 기반 데이터 증강 부족 때문일 수 있습니다. EfficientNet은 또한 PatchCamelyon 및 CLEVRCounts에서 약간 더 나은 성능을 보이며, 이들 데이터셋에서는 두 접근 방식 모두 전체 성능이 여전히 낮습니다.

3.3 자연 분포 이동에 대한 견고성

2015년에 심층 학습 모델이 ImageNet 테스트 세트에서 인간 성능을 초과했다는 발표가 있었습니다(He et al., 2015). 그러나 이후 몇 년간의 연구는 이러한 모델이 여전히 많은 단순한 실수를 저지른다는 것을 반복해서 발견했습니다(Dodge & Karam, 2017; Geirhos et al., 2018; Alcorn et al., 2019). 이러한 시스템을 테스트하는 새로운 벤치마크는 종종 이들의 성능이 ImageNet 정확도와 인간 정확도 모두보다 훨씬 낮다는 것을 발견했습니다(Recht et al., 2019; Barbu et al., 2019). 이 불일치를 설명하는 것은 무엇일까요? 다양한 아이디어가 제안되고 연구되었습니다(Ilyas et al., 2019; Geirhos et al., 2020). 제안된 설명의 공통된 주제는 심층 학습 모델이 훈련 데이터셋 전반에 걸쳐 일관된 상관관계와 패턴을 찾는 데 매우 능숙하여 분포 내 성능을 향상시킨다는 것입니다. 그러나 많은 이러한 상관관계와 패턴은 실제로는 가짜이며 다른 분포에는 적용되지 않아 다른 데이터셋에서 성능이 크게 떨어집니다.

현재까지 대부분의 이러한 연구는 ImageNet에서 훈련된 모델에 대한 평가로 제한되어 있음을 주의해야 합니다. 이러한 초기 발견에서 너무 일반화하는 것은 실수일 수 있습니다. 이러한 실패가 심층 학습, ImageNet, 또는 두 가지의 조합 중 어느 정도에서 발생하는지에 대한 질문이 생깁니다. 매우 큰 데이터셋에서 자연어 감독을 통해 훈련되고 높은 제로샷 성능을 발휘할 수 있는 CLIP 모델은 이 질문을 다른 각도에서 조사할 수 있는 기회를 제공합니다.

Taori et al. (2020)은 이러한 행동을 정량화하고 이해하기 위해 ImageNet 모델에 대한 최근 포괄적인 연구입니다. Taori et al. (2020)은 ImageNet 모델의 성능이 자연 분포 이동에서 평가될 때 어떻게 변하는지를 연구합니다. 그들은 ImageNetV2(Recht et al., 2019), ImageNet Sketch(Wang et al., 2019), Youtube-BB 및 ImageNet-Vid(Shankar et al., 2019), ObjectNet(Barbu et al., 2019), ImageNet Adversarial(Hendrycks et al., 2019), ImageNet Rendition(Hendrycks et al., 2020a) 등 7개의 분포 이동에서 성능을 측정합니다. 이 데이터셋들은 다양한 소스에서 수집된 새로운 이미지로 구성되며, ImageNet-C(Hendrycks & Dietterich, 2019), Stylized ImageNet(Geirhos et al., 2018), 또는 다양한 방식으로 기존 이미지를 방해하여 생성된 적대적 공격(Goodfellow et al., 2014)과 같은 합성 분포 이동과 구별됩니다. 그들은 여러 기술이 합성 분포 이동에서 성능을 향상시키는 것이 입증되었지만, 자연 분포에서는 일관된 개선을 가져오지 못한다는 것을 발견했기 때문에 이 구별을 제안합니다.

수집된 이러한 데이터셋 전반에서 ImageNet 모델의 정확도는 ImageNet 검증 세트에서 설정된 기대보다 훨씬 낮아집니다. 다음 요약 토론에서는 별도로 명시하지 않는 한, 모든 7개의 자연 분포 이동 데이터셋과 해당 클래스 하위 집합의 ImageNet에 대한 평균 정확도를 보고합니다. 또한 두 가지 다른 평가 설정이 있는 Youtube-BB와 ImageNet-Vid의 경우, pm-0 및 pm-10 정확도의 평균을 사용합니다.

ResNet-101은 ImageNet 검증 세트와 비교하여 이러한 자연 분포 이동에서 평가될 때 5배 더 많은 실수를 합니다. 그러나 Taori et al. (2020)은 분포 이동 하에서의 정확도가 ImageNet 정확도와 예측 가능하게 증가하며, 로그 변환된 정확도의 선형 함수로 잘 모델링된다는 것을 발견하여 고무적입니다. Taori et al. (2020)은 이러한 발견을 사용하여 견고성 분석이 효과적인 견고성과 상대적인 견고성을 구별해야 한다고 제안합니다. 효과적인 견고성은 분포 이동 하에서 문서화된 분포 내 정확도와 분포 외 정확도 간의 관계로 예측되는 것보다 높은 정확도 향상을 측정합니다. 상대적인 견고성은 분포 외 정확도의 모든 향상을 포착합니다. Taori et al. (2020)은 견고성 기술이 효과적인 견고성과 상대적인 견고성 모두를 향상시키는 것을 목표로 해야 한다고 주장합니다.

그림 12

CLIP의 특징은 ImageNet에서 사전 학습된 모델과 비교할 때 작업 이동에 더 견고합니다. 두 데이터셋 분할 모두에서, CLIP 모델의 표현으로 훈련된 선형 프로브의 전이 점수가 유사한 ImageNet 성능을 가진 다른 모델보다 높습니다. 이는 ImageNet에서 훈련된 모델의 표현이 다소 작업에 과적합되었음을 시사합니다.

그림 13

제로샷 CLIP은 표준 ImageNet 모델보다 분포 이동에 훨씬 더 견고합니다. (왼쪽) 이상적인 견고한 모델(점선)은 ImageNet 분포와 다른 자연 이미지 분포에서 동일하게 잘 수행합니다. 제로샷 CLIP 모델은 이 "견고성 격차"를 최대 75%까지 줄입니다. 로짓 변환된 값에 대한 선형 적합선은 부트스트랩으로 추정된 95% 신뢰 구간을 포함합니다. (오른쪽) 바나나 클래스에 대한 분포 이동을 시각화한 것으로, 이는 7개의 자연 분포 이동 데이터셋 중 5개에서 공유됩니다. 최고 성능의 제로샷 CLIP 모델인 ViT-L/14@336px의 성능을 ImageNet 검증 세트에서 동일한 성능을 가진 ResNet-101 모델과 비교합니다.

거의 모든 Taori et al. (2020)에서 연구된 모델들은 ImageNet 데이터셋에서 훈련되거나 미세 조정되었습니다. 이 섹션의 도입에서 논의한 주제로 돌아가서, ImageNet 데이터셋 분포에 맞춰 훈련하거나 적응하는 것이 관찰된 견고성 격차의 원인일까요? 직관적으로 제로샷 모델은 특정 분포에서만 유지되는 가짜 상관관계나 패턴을 악용할 수 없을 것입니다. 왜냐하면 그 분포에서 훈련되지 않았기 때문입니다. 따라서 제로샷 모델이 훨씬 더 높은 효과적인 견고성을 가질 것으로 기대하는 것이 합리적입니다. 그림 13에서 우리는 자연 분포 이동에서 제로샷 CLIP과 기존 ImageNet 모델의 성능을 비교합니다. 모든 제로샷 CLIP 모델은 효과적인 견고성을 크게 향상시키고, ImageNet 정확도와 분포 이동 하의 정확도 간의 격차를 최대 75%까지 줄입니다.

이 결과는 제로샷 모델이 훨씬 더 견고할 수 있음을 보여주지만, ImageNet에서의 감독 학습이 견고성 격차를 일으킨다는 것을 반드시 의미하지는 않습니다. CLIP의 다른 세부 사항, 예를 들어 큰 규모와 다양한 사전 학습 데이터셋이나 자연어 감독의 사용 등이 제로샷이든 미세 조정이든 상관없이 훨씬 더 견고한 모델을 만들 수 있습니다. 잠재적으로 이를 좁히기 위한 초기 실험으로, 우리는 또한 ImageNet 훈련 세트에서 CLIP 특징에 맞춘 L2 정규화 로지스틱 회귀 분류기를 통해 ImageNet 분포에 적응한 후 CLIP 모델의 성능이 어떻게 변하는지 측정했습니다. 그림 14에서 제로샷 분류기에서 성능이 어떻게 변하는지 시각화합니다. CLIP이 ImageNet 분포에 적응하면서 ImageNet 정확도가 9.2% 증가하여 전체적으로 85.4%에 이르렀으며, Mahajan et al. (2018)의 2018년 SOTA와 동등한 정확도를 기록했음에도 불구하고, 분포 이동 하의 평균 정확도는 약간 감소합니다.

그림 14

ImageNet에 대한 감독된 적응은 ImageNet 정확도를 9.2% 향상시키지만, 평균 견고성은 약간 감소합니다. (왼쪽) 각 데이터셋에 맞춘 제로샷 CLIP은 단일 고정 제로샷 ImageNet 분류기와 유사한 클래스에 대한 예측을 풀링하는 것보다 견고성을 향상시킵니다(Taori et al., 2020). ImageNet에 적응된 CLIP 모델은 이전의 최고의 ImageNet 모델과 유사한 효과적인 견고성을 가지고 있습니다. (오른쪽) 두 개의 견고성 개입에 대한 데이터셋별 정확도 변동 세부 사항. ImageNet에 적응하는 것은 ImageNetV2에서 눈에 띄게 정확도를 증가시키지만, 다른 여러 분포에서는 정확도를 트레이드오프합니다. 데이터셋별 제로샷 분류기는 정확도를 크게 향상시킬 수 있지만, 이는 ImageNet 카테고리와 완벽하게 일치하지 않는 클래스를 포함하는 몇몇 데이터셋에만 국한됩니다.

9.2%의 정확도 증가가, 즉 약 3년간의 SOTA 향상이 분포 이동 하의 평균 성능에 어떤 개선도 가져오지 못하는 것을 보는 것은 놀라운 일입니다. 우리는 또한 그림 14에서 데이터셋별 제로샷 정확도와 선형 분류기 정확도의 차이를 분석하고, ImageNetV2 한 데이터셋에서 성능이 여전히 크게 증가하는 것을 발견합니다. ImageNetV2는 원래 ImageNet 데이터셋의 생성 과정을 밀접하게 따랐기 때문에, 감독된 적응으로 인한 정확도 향상이 ImageNet 분포 주변에 집중되어 있음을 시사합니다. 성능은 ImageNet-R에서 4.7%, ObjectNet에서 3.8%, ImageNet Sketch에서 2.8%, ImageNet-A에서 1.9% 감소합니다. 나머지 두 데이터셋, Youtube-BB와 ImageNet Vid의 정확도 변화는 중요하지 않습니다.

어떻게 ImageNet 데이터셋에서 정확도를 9.2% 향상시키면서도 분포 이동 하에서 정확도를 거의 증가시키지 않을 수 있을까?

ImageNet 데이터셋에서 정확도를 9.2% 향상시키면서도 분포 이동 하에서 정확도를 거의 증가시키지 않는 것이 어떻게 가능한가? 이 향상이 주로 "가짜 상관관계 악용"에서 비롯된 것일까? 이러한 행동이 CLIP, ImageNet 데이터셋, 그리고 연구된 분포 이동의 조합에만 고유한 것인지, 아니면 더 일반적인 현상일까? 이것이 선형 분류기뿐만 아니라 엔드 투 엔드 미세 조정에도 해당되는가? 우리는 현재 이 질문들에 대한 확신 있는 답을 가지고 있지 않습니다. 이전 연구에서도 ImageNet 이외의 분포에서 모델을 사전 학습했지만, 모델을 미세 조정한 후에만 연구하고 공개하는 것이 일반적입니다. 사전 학습된 제로샷 모델이 미세 조정된 모델보다 일관되게 더 높은 효과적인 견고성을 가지는지 이해하기 위한 첫 단계로, Mahajan et al. (2018), Kolesnikov et al. (2019), 그리고 Dosovitskiy et al. (2020) 저자들에게 그들의 모델에서도 이러한 질문을 연구하도록 권장합니다.

유연한 제로샷 자연어 기반 이미지 분류기를 통한 또 다른 견고성 개입

7개의 전이 데이터셋 간의 대상 클래스가 항상 ImageNet의 클래스와 완벽하게 일치하지 않습니다. 두 개의 데이터셋, Youtube-BB와 ImageNet-Vid는 ImageNet의 상위 클래스로 구성되어 있습니다. 이는 ImageNet 모델의 고정된 1000-way 분류기를 사용하여 예측하려고 할 때 문제가 됩니다. Taori et al. (2020)은 ImageNet 클래스 계층에 따라 모든 하위 클래스에 대한 예측을 최대 풀링하여 이 문제를 해결합니다. 그러나 때로는 이 매핑이 완벽하지 않습니다. 예를 들어, Youtube-BB의 'person' 클래스의 경우, 예측은 야구 선수, 신랑, 스쿠버 다이버에 대한 ImageNet 클래스들을 풀링하여 이루어집니다. CLIP을 사용하면 각 데이터셋의 클래스 이름을 기반으로 직접 맞춤형 제로샷 분류기를 생성할 수 있습니다. 그림 14에서 이는 평균 효과적인 견고성을 5% 향상시키지만, 일부 데이터셋에서만 큰 향상을 보입니다. 흥미롭게도, ObjectNet에서도 정확도가 2.3% 증가합니다. 비록 데이터셋이 ImageNet 클래스와 긴밀히 겹치도록 설계되었지만, ObjectNet의 제작자가 제공한 각 클래스 이름을 사용하는 것이 필요할 때 ImageNet 클래스 이름을 사용하고 예측을 풀링하는 것보다 여전히 약간 도움이 됩니다.

그림 15

몇 샷 CLIP도 기존 ImageNet 모델에 비해 효과적인 견고성을 증가시키지만, 제로샷 CLIP보다는 덜 견고합니다. 적응에 사용되는 ImageNet 훈련 데이터의 양을 최소화하면 상대적인 견고성을 감소시키는 비용으로 효과적인 견고성을 증가시킵니다. 16샷 로지스틱 회귀 CLIP은 ImageNet에서 제로샷 CLIP과 일치하지만(Figure 7에서 보고된 바와 같이) 덜 견고합니다.

제로샷 CLIP의 효과적인 견고성

제로샷 CLIP이 효과적인 견고성을 향상시키지만, 그림 14는 그 이점이 완전 감독된 설정에서는 거의 사라진다는 것을 보여줍니다. 이 차이를 더 잘 이해하기 위해, 우리는 제로샷에서 완전 감독까지의 연속에서 효과적인 견고성이 어떻게 변하는지 조사합니다. 그림 15에서 우리는 0샷, 1샷, 2샷, 4샷 ..., 128샷, 그리고 완전 감독된 로지스틱 회귀 분류기의 성능을 최고의 CLIP 모델의 특징에서 시각화합니다. 우리는 몇 샷 모델도 기존 모델보다 더 높은 효과적인 견고성을 보여주지만, 더 많은 훈련 데이터와 함께 분포 내 성능이 증가함에 따라 이 이점이 희미해지며, 대부분, 비록 전부는 아니지만, 완전 감독된 모델에서는 사라진다는 것을 봅니다. 또한, 제로샷 CLIP은 동등한 ImageNet 성능을 가진 몇 샷 모델보다 현저히 더 견고합니다.

실험 결과 요약

우리의 실험 전반에 걸쳐, 높은 효과적인 견고성은 모델이 접근할 수 있는 분포 특정 훈련 데이터의 양을 최소화함으로써 얻어지는 것으로 보이지만, 이는 데이터셋 특정 성능을 감소시키는 비용을 수반합니다.

이 결과들을 종합하면, 최근 대규모 작업 및 데이터셋 비특이적 사전 학습으로의 전환과 광범위한 평가 스위트에서 제로샷 및 몇 샷 벤치마킹으로의 재지향이 더 견고한 시스템의 개발을 촉진하고 성능에 대한 보다 정확한 평가를 제공한다는 것을 시사합니다(Yogatama et al., 2019; Linzen, 2020). 우리는 동일한 결과가 GPT 계열과 같은 NLP 분야의 제로샷 모델에서도 유지되는지 궁금합니다. Hendrycks et al. (2020b)는 사전 학습이 감성 분석에서 상대적인 견고성을 향상시킨다고 보고했지만, Miller et al. (2020)의 자연 분포 이동 하에서의 질문 응답 모델의 견고성에 대한 연구는 Taori et al. (2020)와 유사하게 효과적인 견고성 향상의 증거를 거의 발견하지 못했습니다.

인간 성능과의 비교

CLIP이 인간 성능과 인간 학습과 어떻게 비교되는가? CLIP와 유사한 평가 설정에서 인간이 얼마나 잘 수행하는지 더 잘 이해하기 위해 우리는 인간을 대상으로 한 실험을 수행했습니다. 우리는 인간 제로샷 성능이 이러한 작업에서 얼마나 강력한지, 그리고 한두 개의 이미지 샘플을 보여주었을 때 인간 성능이 얼마나 향상되는지를 파악하고자 했습니다. 이는 인간과 CLIP 간의 작업 난이도를 비교하고, 그들 간의 상관 관계와 차이점을 식별하는 데 도움이 될 수 있습니다.

우리는 5명의 다른 인간에게 Oxford IIT Pets 데이터셋(Parkhi et al., 2012)의 테스트 스플릿에 있는 3669개의 이미지를 보여주고, 그 이미지가 가장 잘 일치하는 37개의 고양이 또는 개 품종 중 하나를 선택하도록 했습니다(완전히 확신이 없으면 '모르겠다'고 선택). 제로샷 경우에는 인간에게 품종의 예를 전혀 제공하지 않고, 인터넷 검색 없이 최선을 다해 라벨을 붙이도록 요청했습니다. 원샷 실험에서는 인간에게 각 품종의 샘플 이미지를 하나씩 제공했고, 투샷 실험에서는 각 품종의 샘플 이미지를 두 개씩 제공했습니다.

제로샷 작업에서 인간 작업자가 충분히 동기부여되지 않았을 가능성이 우려되었습니다. STL-10 데이터셋(Coates et al., 2011)에서 94%의 높은 인간 정확도와 주의 체크 이미지에서 97-100%의 정확도가 우리의 신뢰를 높였습니다.

흥미롭게도, 인간은 클래스당 단 하나의 훈련 예제로 평균 성능이 54%에서 76%로 증가했으며, 추가 훈련 예제의 한계 이득은 미미했습니다. 제로샷에서 원샷으로의 정확도 향상은 거의 전적으로 인간이 확신이 없었던 이미지에서 이루어졌습니다. 이는 인간이 "모르는 것을 알고" 단일 예제를 기반으로 가장 확신이 없는 이미지에서 자신의 사전을 업데이트할 수 있음을 시사합니다. 이를 감안할 때, CLIP이 제로샷 성능(Figure 5)에 대한 유망한 훈련 전략이지만, 자연 분포 이동 테스트(Figure 13)에서도 잘 수행되지만, 몇 가지 예제에서 인간이 학습하는 방식과 이 논문의 몇 샷 방법 간에는 큰 차이가 있음을 시사합니다.

이는 Lake et al. (2016) 등 여러 연구자들이 언급한 바와 같이 기계와 인간의 샘플 효율성 간의 격차를 줄이기 위한 알고리즘적 개선이 여전히 필요함을 시사합니다. CLIP의 몇 샷 평가가 사전 지식을 효과적으로 활용하지 못하는 반면, 인간은 이를 활용하기 때문에, 몇 샷 학습에 사전 지식을 적절히 통합하는 방법을 찾는 것이 CLIP의 알고리즘적 개선에 중요한 단계일 것으로 추측됩니다. 고품질 사전 학습된 모델의 특징 위에 선형 분류기를 사용하는 것이 몇 샷 학습의 최첨단에 가깝다는 점을 감안할 때(Tian et al., 2020), 최고의 몇 샷 기계 학습 방법과 인간의 몇 샷 학습 간에는 격차가 있습니다.

인간의 정확도와 CLIP의 제로샷 정확도를 플롯하면(Figure 16), CLIP에게 가장 어려운 문제들이 인간에게도 어려운 문제라는 것을 알 수 있습니다. 오류가 일관되게 나타난다는 점에서, 우리의 가설은 이것이 데이터셋의 노이즈(잘못 라벨된 이미지 포함)와 인간과 모델 모두에게 어려운 분포 외 이미지라는 두 가지 요인에 기인한다는 것입니다.

표 2: Oxford IIT Pets에 대한 인간 성능 비교

Parkhi et al. (2012)에서와 같이, 지표는 클래스당 평균 분류 정확도입니다. 인간 제로샷 경우에서 인간 원샷 경우로 갈 때 성능 향상의 대부분은 참가자가 매우 확신이 없었던 이미지에서 이루어집니다. "추측"은 참가자가 "모르겠다"고 선택한 것이 아닌 답변을 선택한 데이터셋으로 제한됩니다. "다수결 투표"는 각 이미지별로 가장 빈번한(동률을 제외한) 답변을 선택한 것입니다.

그림 16

CLIP에게 가장 어려운 문제는 인간에게도 가장 어려운 문제인 경향이 있습니다. 여기서 우리는 CLIP의 정답 레이블의 확률로 측정된 난이도에 따라 이미지 범주를 순위 매깁니다.

5. 데이터 중복 분석

대규모 인터넷 데이터셋에서 사전 학습을 할 때 우려되는 부분은 다운스트림 평가와의 의도치 않은 중복입니다. 최악의 경우, 평가 데이터셋의 완전한 복사본이 사전 학습 데이터셋에 유출되어 일반화 테스트로서의 의미 있는 평가를 무효화할 수 있기 때문에 이는 중요합니다. 이를 방지하기 위한 한 가지 방법은 모델을 훈련하기 전에 모든 중복을 식별하고 제거하는 것입니다. 이는 진정한 홀드아웃 성능을 보장하지만, 모델이 평가될 수 있는 모든 데이터를 미리 알아야 하므로 벤치마킹과 분석의 범위를 제한합니다. 새로운 평가를 추가하면 비용이 많이 드는 재훈련이 필요하거나 중복으로 인한 미정의 이점을 보고할 위험이 있습니다.

대신, 우리는 중복이 얼마나 발생하는지와 이러한 중복으로 인한 성능 변화를 문서화합니다. 이를 위해 다음 절차를 사용합니다:

각 평가 데이터셋에 대해, 중복 감지기를 실행하여 예제를 찾습니다(부록 C 참조). 그런 다음, 발견된 가장 가까운 이웃을 수동으로 검사하고, 높은 정확도를 유지하면서 재콜을 극대화하기 위해 데이터셋별 임계값을 설정합니다. 이 임계값을 사용하여 두 개의 새로운 하위 집합, 즉 훈련 예제와의 유사성이 임계값 이상인 모든 예제를 포함하는 Overlap과 이 임계값 이하인 모든 예제를 포함하는 Clean을 만듭니다. 참고용으로 변경되지 않은 전체 데이터셋을 All로 표기합니다. 여기서 먼저 데이터 오염 정도를 Overlap의 예제 수를 All의 크기로 나눈 비율로 기록합니다.
그런 다음, 세 가지 분할에서 CLIP RN50x64의 제로샷 정확도를 계산하고, All - Clean을 주요 지표로 보고합니다. 이는 오염으로 인한 정확도 차이입니다. 양수일 경우, 이는 중복된 데이터에 대한 과적합으로 인해 전체 보고된 데이터셋 정확도가 얼마나 부풀려졌는지에 대한 우리의 추정입니다.
중복의 양이 종종 적기 때문에, 우리는 Clean의 정확도를 귀무 가설로 사용하고 Overlap 하위 집합에 대한 일측(높음) p-값을 계산하는 이항 검정도 실행합니다. 또한, 다른 검토를 위해 Dirty에 대해 99.5% Clopper-Pearson 신뢰 구간을 계산합니다.

그림 17

감지된 데이터 중복으로 인한 통계적으로 유의미한 정확도 향상이 거의 없습니다. (왼쪽) 몇몇 데이터셋은 감지된 중복 예제와 깨끗한 예제에서 제로샷 정확도의 최대 20% 차이를 보이지만, 35개 데이터셋 중 5개만이 0% 정확도 차이를 제외한 99.5% Clopper-Pearson 신뢰 구간을 가지고 있습니다. 이 중 2개는 중복 데이터에서 더 나쁜 성능을 보입니다. (오른쪽) 감지된 중복 예제의 비율이 거의 항상 한 자릿수 퍼센트이므로, 중복으로 인한 전체 테스트 정확도 증가는 Birdsnap에서 최대 0.6%에 불과합니다. 마찬가지로, 단측 이항 검정을 사용하여 계산된 정확도 개선이 통계적으로 유의미한 데이터셋은 6개뿐입니다.

분석 요약

이 분석의 요약은 그림 17에 제시되어 있습니다. 연구된 35개의 데이터셋 중 9개 데이터셋은 전혀 중복이 감지되지 않았습니다. 대부분의 이들 데이터셋은 합성 또는 전문화되어 있어 인터넷에 일반 이미지로 게시될 가능성이 적거나(MNIST, CLEVR, GTSRB와 같은 경우), 우리의 데이터셋이 생성된 날짜 이후의 새로운 데이터를 포함하여 중복이 없음을 보장합니다(ObjectNet 및 Hateful Memes). 이는 우리의 감지기가 낮은 오탐률을 가지고 있음을 보여주며, 이는 분석에서 오염의 영향을 과소평가하는 것을 방지하기 위해 중요합니다. 중간값 중복은 2.2%, 평균 중복은 3.2%입니다. 이 적은 중복으로 인해 전체 정확도는 드물게 0.1% 이상 이동하며, 7개 데이터셋만이 이 임계값을 초과합니다. 이 중에서 Bonferroni 수정 후 통계적으로 유의미한 것은 2개뿐입니다. 감지된 최대 개선은 Birdsnap에서 0.6%로, 이는 두 번째로 큰 12.1%의 중복을 가지고 있습니다. 최대 중복은 21.5%인 Country211입니다. 이는 YFCC100M에서 구성되었기 때문이며, 우리의 사전 학습 데이터셋은 필터링된 하위 집합을 포함합니다. 이 큰 중복에도 불구하고 Country211에서 정확도는 0.2% 증가에 그칩니다. 이는 예제를 동반하는 훈련 텍스트가 종종 다운스트림 평가가 측정하는 특정 작업과 관련이 없기 때문일 수 있습니다. Country211은 지리적 위치 확인 능력을 측정하지만, 이러한 중복의 훈련 텍스트를 검사한 결과 종종 이미지의 위치를 언급하지 않는 것으로 나타났습니다.

우리 분석과 관련된 두 가지 잠재적 우려를 인식하고 있습니다. 첫째, 우리의 감지기는 완벽하지 않습니다. 대리 훈련 작업에서 거의 100% 정확도를 달성하고 수동 검사 + 임계값 튜닝이 매우 높은 정밀도와 좋은 재콜을 가지고 있지만, 4억 개의 예제에서 재콜을 실질적으로 검사할 수는 없습니다. 또 다른 잠재적 혼란 요인은 Overlap과 Clean 하위 집합 간의 기본 데이터 분포가 이동할 수 있다는 것입니다. 예를 들어, Kinetics-700에서는 많은 "중복"이 실제로는 모두 검은색 전환 프레임입니다. 이는 Kinetics-700에서 Overlap의 정확도가 20% 떨어지는 이유를 설명합니다. 우리는 더 미묘한 분포 이동이 존재할 가능성이 높다고 의심합니다. CIFAR-100에서 발견한 한 가지 가능성은 매우 낮은 해상도 때문에, 많은 중복이 새나 비행기와 같은 작은 물체의 오탐이었음을 알았습니다. 정확도 변화는 대신 클래스 분포나 중복의 난이도 변화로 인한 것일 수 있습니다. 불행히도, 이러한 분포와 난이도 변화는 과적합의 효과를 가릴 수도 있습니다.

그러나 이러한 결과는 대규모 사전 학습에 대한 이전 연구에서의 유사한 중복 분석 결과와 밀접하게 일치합니다. Mahajan et al. (2018)과 Kolesnikov et al. (2019)은 유사한 중복률을 감지하고 전체 성능 변화가 미미하다는 것을 발견했습니다. 중요한 것은 Kolesnikov et al. (2019)이 이 섹션의 도입부에서 논의된 대체 중복 제거 전략을 우리가 선택한 접근 방식과 비교하여 두 접근 방식 간의 차이가 거의 없음을 관찰했습니다.

6. 한계점

CLIP에는 여전히 많은 한계가 존재합니다. 이러한 한계점 중 몇 가지는 다양한 섹션에서 분석의 일환으로 논의되었지만, 여기서 요약하여 모아보겠습니다.

성능의 한계

훈련 분할이 있는 데이터셋에서 제로샷 CLIP의 성능은 평균적으로 ResNet-50 특징 위에 선형 분류기를 적용한 간단한 감독된 기준과 경쟁할 만합니다. 그러나 이러한 데이터셋의 대부분에서 이 기준 성능은 현재의 최첨단 성능보다 훨씬 낮습니다. CLIP의 작업 학습과 전이 능력을 개선하기 위해 상당한 노력이 여전히 필요합니다. 지금까지의 성능 향상을 보면 성능을 지속적으로 개선할 수 있는 경로를 제시하지만, 제로샷 CLIP이 전반적인 최첨단 성능에 도달하려면 약 1000배의 계산량 증가가 필요하다고 추정합니다. 이는 현재의 하드웨어로는 훈련하기에 비현실적입니다. CLIP의 계산 및 데이터 효율성을 개선하기 위한 추가 연구가 필요합니다.

특정 작업에 대한 성능

섹션 3.1의 분석에서 제로샷 CLIP의 성능이 여전히 여러 종류의 작업에서 매우 약하다는 것을 발견했습니다. 작업 특화 모델과 비교할 때, CLIP의 성능은 자동차 모델, 꽃의 종, 항공기의 변종과 같은 여러 종류의 세밀한 분류에서 저조합니다. 또한 CLIP은 이미지에서 객체 수를 세는 것과 같은 더 추상적이고 체계적인 작업에서도 어려움을 겪습니다. 사진에서 가장 가까운 자동차까지의 거리를 분류하는 것과 같은 CLIP의 사전 학습 데이터셋에 포함되지 않을 가능성이 높은 새로운 작업의 경우, CLIP의 성능은 거의 무작위에 가까울 수 있습니다. 여전히 CLIP의 제로샷 성능이 거의 무작위 수준인 많은 작업이 있다고 확신합니다.

분포 일반화의 한계

섹션 3.3에서 조사한 바와 같이, 제로샷 CLIP은 많은 자연 이미지 분포에 잘 일반화되지만, 실제로 분포 외 데이터에는 여전히 일반화가 잘되지 않습니다. 부록 E에 보고된 바와 같이 OCR 작업에서 발생한 예시가 있습니다. CLIP은 디지털로 렌더링된 텍스트에서 좋은 성능을 보이는 고품질 의미론적 OCR 표현을 학습하지만, 이는 사전 학습 데이터셋에 일반적으로 포함되어 있기 때문입니다. 그러나 CLIP은 MNIST의 손으로 쓴 숫자에서는 88%의 정확도만을 달성합니다. 원시 픽셀에 대한 로지스틱 회귀의 간단한 기준이 제로샷 CLIP을 능가합니다. 의미론적 및 근접 중복 최근접 이웃 검색을 통해, 사전 학습 데이터셋에 MNIST 숫자와 유사한 이미지가 거의 없다는 것을 확인했습니다. 이는 CLIP이 심층 학습 모델의 취약한 일반화 문제를 거의 해결하지 못함을 시사합니다. 대신 CLIP은 문제를 우회하려고 시도하며, 매우 크고 다양한 데이터셋에서 훈련함으로써 모든 데이터가 효과적으로 분포 내에 있을 것이라고 희망합니다. 그러나 MNIST가 보여주듯이, 이는 쉽게 위반될 수 있는 순진한 가정입니다.

제로샷 분류기의 한계

CLIP은 다양한 작업과 데이터셋에 대해 유연하게 제로샷 분류기를 생성할 수 있지만, 여전히 주어진 제로샷 분류기에서만 개념을 선택할 수 있다는 제한이 있습니다. 이는 새로운 출력을 생성할 수 있는 이미지 캡셔닝과 같은 진정한 유연한 접근 방식과 비교할 때 상당한 제한입니다. 불행히도, 섹션 2.3에서 설명한 바와 같이, 우리가 시도한 이미지 캡셔닝 기준의 계산 효율성은 CLIP보다 훨씬 낮았습니다. 시도해볼 만한 간단한 아이디어는 CLIP의 효율성과 캡션 모델의 유연성을 결합하기 위해 대조적 및 생성적 목표를 공동 훈련하는 것입니다. 또 다른 대안으로, Andreas et al. (2017)의 'Latent Language 학습'에서 제안한 접근 방식과 유사하게 주어진 이미지에 대한 많은 자연어 설명을 검색하는 것을 추론 시간에 수행할 수 있습니다.

CLIP의 한계

CLIP은 심층 학습의 낮은 데이터 효율성을 해결하지 않습니다. 대신 CLIP은 수억 개의 훈련 예제로 확장할 수 있는 감독 소스를 사용하여 이를 보완합니다. CLIP 모델 훈련 중에 본 모든 이미지를 초당 하나씩 제시한다면, 32번의 훈련 에포크 동안 본 128억 개의 이미지를 반복하는 데 405년이 걸릴 것입니다. CLIP을 자가 감독(Henaff, 2020; Chen et al., 2020c) 및 자가 학습(Lee; Xie et al., 2020) 방법과 결합하는 것은 표준 감독 학습에 비해 데이터 효율성을 향상시키는 능력이 입증된 바 있어 유망한 방향입니다.

방법론의 한계

우리의 방법론에는 여러 중요한 한계가 있습니다. 제로샷 전이에 중점을 두었음에도 불구하고, CLIP의 개발을 안내하기 위해 전체 검증 세트에서 반복적으로 성능을 조회했습니다. 이러한 검증 세트에는 종종 수천 개의 예제가 포함되어 있으며, 이는 진정한 제로샷 시나리오에는 비현실적입니다. 유사한 우려는 반감 감독 학습 분야에서도 제기되었습니다(Oliver et al., 2018). 또 다른 잠재적 문제는 평가 데이터셋의 선택입니다. 우리는 Kornblith et al. (2019)의 12개 데이터셋 평가 스위트에 대한 결과를 표준화된 컬렉션으로 보고했지만, 주요 결과는 27개의 데이터셋을 다소 무작위로 모아 CLIP의 개발 및 기능에 공동으로 적응된 컬렉션을 사용합니다. 기존의 감독된 데이터셋을 재사용하는 대신 광범위한 제로샷 전이 능력을 평가하기 위해 명시적으로 설계된 새로운 벤치마크를 만드는 것이 이러한 문제를 해결하는 데 도움이 될 것입니다.

CLIP은 인터넷에 있는 이미지와 짝을 이루는 텍스트로 훈련됩니다. 이러한 이미지-텍스트 쌍은 필터링되지 않고 큐레이션되지 않아 CLIP 모델이 많은 사회적 편향을 학습하게 됩니다. 이는 이미지 캡션 모델에서 이전에 입증된 바 있습니다(Bhargava & Forsyth, 2019). CLIP의 이러한 행동에 대한 상세한 분석과 정량화, 그리고 잠재적 완화 전략에 대한 논의는 섹션 7을 참조하십시오.

자연어를 통한 이미지 분류기의 한계

이 작업 전반에 걸쳐 자연어를 통해 이미지 분류기를 지정하는 것이 유연하고 일반적인 인터페이스라고 강조했지만, 이것에도 한계가 있습니다. 많은 복잡한 작업과 시각적 개념은 텍스트만으로 지정하기 어려울 수 있습니다. 실제 훈련 예제는 부인할 수 없이 유용하지만, CLIP은 몇 샷 성능을 직접 최적화하지 않습니다. 우리의 작업에서는 CLIP의 특징 위에 선형 분류기를 맞추는 방법을 사용합니다. 이는 제로샷 설정에서 몇 샷 설정으로 전환할 때 직관에 반하는 성능 저하를 초래합니다. 섹션 4에서 논의한 바와 같이, 이는 제로샷 설정에서 원샷 설정으로의 전환 시 큰 향상을 보이는 인간 성능과는 현저히 다릅니다. 향후 연구에서는 CLIP의 강력한 제로샷 성능을 효율적인 몇 샷 학습과 결합하는 방법을 개발해야 합니다.

7. 더 넓은 영향

CLIP은 임의의 이미지 분류 작업을 수행할 수 있는 능력 덕분에 광범위한 기능을 가지고 있습니다. 예를 들어, 고양이와 개의 이미지를 주고 고양이를 분류하도록 하거나, 백화점에서 찍은 이미지를 주고 절도범을 분류하도록 할 수 있습니다. 후자의 경우는 AI가 적합하지 않을 수 있는 중요한 사회적 함의를 가지는 작업입니다. 모든 이미지 분류 시스템과 마찬가지로, CLIP의 성능과 목적에 대한 적합성을 평가하고 그 더 넓은 영향을 맥락에서 분석해야 합니다. CLIP은 재훈련 없이도 자신만의 분류 클래스를 쉽게 만들 수 있는 능력을 도입하여 이러한 문제를 증폭시키고 변화시킬 수 있습니다. 이는 GPT-3 (Brown et al., 2020)와 같은 대규모 생성 모델을 특징짓는 데서 발견되는 문제와 유사한 도전 과제를 제기합니다. 비트리비얼 제로샷 (또는 몇 샷) 일반화를 나타내는 모델은 광범위한 기능을 가질 수 있으며, 그 중 많은 기능은 테스트 후에만 명확히 드러납니다.

제로샷 설정에서의 CLIP의 가능성

제로샷 설정에서 CLIP을 연구한 결과, 모델은 이미지 검색이나 검색과 같은 광범위하게 적용 가능한 작업에 대한 상당한 가능성을 보여줍니다. 예를 들어, 텍스트를 주어 데이터베이스에서 관련 이미지를 찾거나, 이미지를 주어 관련 텍스트를 찾을 수 있습니다. 또한, 거의 또는 전혀 추가 데이터나 훈련 없이 맞춤형 애플리케이션으로 CLIP을 쉽게 조정할 수 있다는 점은 오늘날 우리가 상상하기 어려운 다양한 새로운 애플리케이션을 가능하게 할 수 있습니다. 이는 지난 몇 년간 대형 언어 모델에서 발생한 것과 유사합니다.

추가 연구 및 성능 평가

이 논문의 이전 섹션에서 연구된 30개 이상의 데이터셋 외에도, 우리는 FairFace 벤치마크에서 CLIP의 성능을 평가하고 탐색적 편향 테스트를 수행했습니다. 그런 다음 모델의 하위 작업인 감시에서의 성능을 특성화하고 다른 사용 가능한 시스템과 비교하여 유용성을 논의합니다. CLIP의 많은 기능은 본질적으로 다용도입니다. 예를 들어, OCR은 스캔한 문서를 검색 가능하게 하거나, 화면 읽기 기술을 구동하거나, 번호판을 읽는 데 사용될 수 있습니다. 행동 인식, 객체 분류 및 지리적 위치 확인부터 얼굴 감정 인식에 이르기까지 측정된 여러 기능은 감시에 사용될 수 있습니다. 사회적 함의를 고려하여, 우리는 감시 섹션에서 이 사용 도메인을 구체적으로 다룹니다.

모델에 내재된 사회적 편향

우리는 또한 모델에 내재된 사회적 편향을 특성화하려고 노력했습니다. 우리의 편향 테스트는 모델이 다양한 시나리오에서 어떻게 반응하는지 탐색하기 위한 초기 노력이며, 그 범위는 본질적으로 제한적입니다. CLIP 및 유사한 모델은 편향이 어떻게 나타나는지 이해하고 잠재적 개입을 식별하기 위해 특정 배포와 관련하여 분석될 필요가 있습니다. 더 넓고, 맥락적이며, 더 견고한 테스트 계획을 개발하기 위해 추가적인 커뮤니티 탐구가 필요할 것입니다. 이를 통해 AI 개발자는 범용 컴퓨터 비전 모델에서 편향을 더 잘 특성화할 수 있습니다.

Table 3. 백인 카테고리에서 FairFace 이미지의 인종, 성별 및 연령 분류 정확도 (%)

Table 4. 흑인, 인도인, 동아시아인, 동남아시아인, 중동인, 라틴계(통합하여 FairFace의 비백인 카테고리로 분류) 카테고리에서 FairFace 이미지의 인종, 성별 및 연령 분류 정확도 (%)

Table 5. FairFace 인종 카테고리별 성별 분류 정확도 (%

7.1. 편향

알고리즘적 결정, 훈련 데이터, 클래스가 정의되고 분류되는 방식에 대한 선택(비공식적으로 "클래스 디자인"이라고 부르는 것)은 모두 AI 시스템 사용으로 인한 사회적 편향과 불평등에 기여하고 이를 증폭시킬 수 있습니다 (Noble, 2018; Bechmann & Bowker, 2019; Bowker & Star, 2000). 클래스 디자인은 CLIP과 같은 모델에 특히 관련이 있는데, 이는 어떤 개발자도 클래스를 정의할 수 있으며 모델이 이에 대한 결과를 제공하기 때문입니다.

이 섹션에서는 Buolamwini & Gebru (2018)와 Kärkikäinen & Joo (2019)에서 설명한 바이어스 탐침을 바탕으로 CLIP의 일부 편향에 대한 예비 분석을 제공합니다. 또한 Solaiman et al. (2019)에서 수행한 것과 유사하게 모델의 특정 편향 예제를 찾기 위한 탐색적 편향 연구를 수행합니다.

먼저 얼굴 이미지 데이터셋 FairFace(Kärkikäinen & Joo, 2019)에서 제로샷 CLIP의 성능을 초기 편향 탐침으로 분석한 후, 추가적인 편향과 편향의 원천을 찾기 위해 모델을 더 탐구합니다.

우리는 FairFace 데이터셋에서 두 가지 버전의 CLIP을 평가했습니다: 제로샷 CLIP 모델("ZS CLIP")과 CLIP의 특징 위에 FairFace 데이터셋에 맞춘 로지스틱 회귀 분류기("LR CLIP"). LR CLIP은 FairFace 데이터셋에서 ResNext-101 32x48d 인스타그램 모델("Linear Probe Instagram")(Mahajan et al., 2018)과 FairFace 자체 모델보다 대부분의 분류 테스트에서 더 높은 정확도를 기록했습니다. ZS CLIP의 성능은 카테고리에 따라 다르며 일부 카테고리에서는 FairFace 모델보다 낮고, 다른 카테고리에서는 더 높습니다. (표 3 및 표 4 참조)

추가 편향 테스트 결과

추가적으로, 우리는 FairFace 데이터셋에서 정의된 교차 인종 및 성별 카테고리를 대상으로 LR CLIP 및 ZS CLIP 모델의 성능을 테스트했습니다. 우리는 모델의 성별 분류 성능이 모든 인종 카테고리에서 95% 이상임을 발견했습니다. 이러한 결과는 표 5에 요약되어 있습니다. LR CLIP은 FairFace 벤치마크 데이터셋에서 성별, 인종 및 연령 분류 정확도가 Linear Probe Instagram 모델보다 높았지만, 알고리즘 공정성의 근사치일 뿐이며 실제 세계 맥락에서 의미 있는 공정성 측정은 자주 실패합니다(Raji et al., 2020). 모델이 다른 하위 그룹에서 더 높은 정확도와 낮은 성능 격차를 가졌다고 해서, 영향 격차가 적다는 의미는 아닙니다(Scheuerman et al., 2019). 예를 들어, 소수 그룹에 대한 높은 성능은 회사가 얼굴 인식을 정당화하고, 인구 집단에 불균형한 영향을 미치는 방식으로 이를 배포하는 데 사용될 수 있습니다. 얼굴 분류 벤치마크를 사용하여 편향을 탐지하는 것은 얼굴 분류가 문제가 없음을 암시하거나 배포 맥락에서 인종, 연령, 성별 분류를 권장하려는 의도가 아닙니다.

차별적 해악 탐지 실험

우리는 특히 폄하적 해악을 초래할 가능성이 높은 분류 용어를 사용하여 모델을 탐사했습니다(Crawford, 2017). ZS CLIP 모델이 FairFace 데이터셋의 10,000개 이미지를 분류하도록 요구하는 실험을 수행했습니다. FairFace 클래스 외에도 'animal', 'gorilla', 'chimpanzee', 'orangutan', 'thief', 'criminal' 및 'suspicious person' 클래스를 추가했습니다. 이 실험의 목표는 폄하적 해악이 특정 인구 하위 그룹에 불균형적으로 영향을 미치는지 확인하는 것이었습니다.

우리는 이미지의 4.9% (신뢰 구간 4.6% ~ 5.4%)가 우리가 사용한 비인간 클래스 중 하나로 잘못 분류되었음을 발견했습니다('animal', 'chimpanzee', 'gorilla', 'orangutan'). 이 중 'Black' 이미지가 가장 높은 오분류율(약 14%; 신뢰 구간 12.6% ~ 16.4%)을 보였고, 다른 모든 인종의 오분류율은 8% 이하였습니다. 0-20세의 사람들이 이 카테고리에 분류되는 비율이 14%로 가장 높았습니다.

Table 6. FairFace 인종 카테고리별 범죄 관련 및 비인간 카테고리에 분류된 이미지의 비율. 라벨 세트에는 남성과 여성 각각 7개의 FairFace 인종 카테고리(총 14개), 3개의 범죄 관련 카테고리, 4개의 비인간 카테고리가 포함됩니다.

Table 7. 기본 라벨 세트와 'child' 라벨이 추가된 라벨 세트를 사용한 결과 비교를 보여주는 FairFace 연령 카테고리별 범죄 관련 및 비인간 카테고리에 분류된 이미지의 비율. 기본 라벨 세트에는 남성과 여성 각각 7개의 FairFace 인종 카테고리(총 14개), 3개의 범죄 관련 카테고리 및 4개의 비인간 카테고리가 포함됩니다.

또한, 남성 이미지의 16.5%가 'thief', 'suspicious person' 및 'criminal'과 같은 범죄 관련 클래스에 잘못 분류된 반면, 여성 이미지는 9.8%였습니다. 흥미롭게도, 0-20세의 사람들이 다른 연령대(20-60세는 약 12%, 70세 이상은 0%)에 비해 범죄 관련 클래스에 분류될 가능성이 더 높았습니다(약 18%). 범죄 관련 용어의 분류에서 인종 간에 상당한 격차가 있는 것으로 나타났습니다(표 6).

우리는 20세 이하의 사람들이 범죄 관련 카테고리와 비인간 동물 카테고리 모두에서 가장 많이 분류된다는 사실을 관찰한 후, 동일한 클래스에 'child' 카테고리를 추가하여 이미지를 분류했습니다. 이 카테고리가 모델의 동작을 크게 변화시키고 폄하적 해악이 연령에 따라 분포되는 방식을 변경하는지 확인하는 것이 목표였습니다. 이로 인해 20세 이하의 사람들이 범죄 관련 카테고리 또는 비인간 동물 카테고리에 분류되는 수가 크게 감소했습니다(표 7). 이는 클래스 디자인이 모델 성능과 모델이 보여줄 수 있는 원치 않는 편향 또는 행동을 결정하는 데 중요한 요소가 될 가능성이 있음을 시사합니다. 또한 얼굴 이미지를 사용하여 사람을 자동으로 분류하는 것에 대한 전반적인 질문을 제기합니다(y Arcas et al., 2017).

클래스 카테고리와 편향의 영향

이러한 탐사의 결과는 포함된 클래스 카테고리와 각 클래스를 설명하는 데 사용된 특정 언어에 따라 달라질 수 있습니다. 잘못된 클래스 디자인은 실제 환경에서의 성능 저하로 이어질 수 있으며, 이는 특히 개발자가 자신만의 클래스를 쉽게 디자인할 수 있는 CLIP 모델에 관련이 깊습니다.

우리는 또한 Schwemmer et al. (2020)에서 설명한 실험과 유사한 실험을 수행하여 CLIP이 남성과 여성의 이미지를 다르게 처리하는지 테스트했습니다. 이 실험의 일환으로, 우리는 라벨의 임계값을 설정하는 것과 같은 특정 설계 결정이 CLIP에 의해 출력되는 라벨에 어떻게 영향을 미치고 편향이 어떻게 나타나는지 연구했습니다.

세 가지 실험을 수행했습니다: 성별 분류 정확도를 테스트하고, 두 개의 다른 라벨 세트에서 라벨이 어떻게 다르게 분포되는지 테스트했습니다. 첫 번째 라벨 세트에는 300개의 직업 라벨을 사용했고, 두 번째 라벨 세트에는 Google Cloud Vision, Amazon Rekognition, Microsoft Azure Computer Vision이 모든 이미지에 대해 반환한 라벨을 결합한 세트를 사용했습니다.

먼저, 의회 의원들의 이미지에서 모델의 성별 예측 성능을 단순히 살펴보았습니다. 모델이 공식 설정/권력 위치에 있는 사람의 이미지를 주었을 때 남성을 남성으로, 여성을 여성으로 올바르게 인식하는지 확인하기 위해서입니다. 우리는 모델이 이미지에서 100% 정확도를 기록했음을 발견했습니다. 이는 FairFace 데이터셋에서 모델의 성능보다 약간 더 나은 성능입니다. 이러한 이유 중 하나는 의회 의원 데이터셋의 모든 이미지가 고품질이고 선명하며, 사람들이 명확히 중앙에 위치했기 때문이라고 가정합니다.

라벨 확률에 대한 임계값 설정이 반환된 라벨의 편향에 어떻게 의존하는지 연구하기 위해, 우리는 0.5%와 4.0%의 임계값을 설정한 실험을 수행했습니다. 낮은 임계값은 낮은 품질의 라벨로 이어졌습니다. 그러나 이러한 임계값 아래에서의 라벨 분포의 차이도 편향 신호를 포함할 수 있습니다. 예를 들어, 0.5% 임계값에서는 'nanny'와 'housekeeper'와 같은 라벨이 여성에게 나타나기 시작했고, 'prisoner'와 'mobster'와 같은 라벨이 남성에게 나타나기 시작했습니다. 이는 이전에 직업에 대해 발견된 성별 연관성과 유사합니다 (Schwemmer et al., 2020; Nosek et al., 2002; Bolukbasi et al., 2016).

더 높은 4% 임계값에서는 양성 모두에서 확률이 가장 높은 라벨에 "lawmaker", "legislator" 및 "congressman"이 포함되었습니다. 그러나 이러한 편향이 낮은 확률 라벨에서도 여전히 존재함은 이러한 시스템을 배포할 때 '충분히' 안전한 행동이 어떤 모습일지에 대한 더 큰 질문을 제기합니다.

Google Cloud Vision(GCV), Amazon Rekognition 및 Microsoft가 반환한 라벨 세트를 모두 사용한 결과, Schwemmer et al. (2020)이 GCV 시스템에서 발견한 편향과 유사하게, 시스템이 여성보다 남성에게 더 많은 머리카락과 외모와 관련된 라벨을 부착했습니다. 예를 들어, 'brown hair', 'blonde' 및 'blond'와 같은 라벨이 여성에게 훨씬 더 자주 나타났습니다. 또한, CLIP은 'executive' 및 'doctor'와 같은 고위 직업을 남성에게 불균형적으로 더 많이 부착했습니다. 여성에게 더 자주 부착된 네 가지 직업 중 세 가지는 'newscaster', 'television presenter', 'newsreader'였으며, 네 번째는 'Judge'였습니다. 이는 다시 GCV에서 발견된 편향과 유사하며 역사적인 성별 차이를 반영합니다 (Schwemmer et al., 2020).

흥미롭게도, 이 라벨 세트의 임계값을 0.5%로 낮추면 남성을 설명하는 라벨도 'suit', 'tie', 'necktie'와 같은 외모 지향적인 단어로 이동했습니다 (그림 18). 여성 이미지를 설명하는 데 사용되지 않은 'military person' 및 'executive'와 같은 직업 지향 단어가 남성과 여성 모두에게 사용되었으며, 이는 남성 라벨의 변화를 초래할 수 있습니다. 반대의 경우는 사실이 아니었습니다. 여성을 설명하는 단어는 여전히 남성에게는 흔하지 않았습니다.

모델 구축의 모든 단계에서의 설계 결정은 편향이 어떻게 나타나는지에 영향을 미치며, 이는 CLIP이 제공하는 유연성 때문에 특히 그렇습니다. 훈련 데이터와 모델 아키텍처에 대한 선택 외에도 클래스 디자인 및 임계값 설정과 같은 결정은 모델이 출력하는 라벨을 변경하고 결과적으로 Crawford(2017)에서 설명한 것과 같은 특정 유형의 해악을 높이거나 낮출 수 있습니다. 모델과 AI 시스템을 설계하고 개발하는 사람들은 상당한 권한을 가지고 있습니다. 클래스 디자인과 같은 결정은 모델 성능뿐만 아니라 모델 편향이 어떻게 그리고 어떤 맥락에서 나타나는지의 주요 결정 요인입니다. 이러한 실험은 포괄적이지 않으며 클래스 디자인 및 기타 편향 원천에서 발생할 수 있는 잠재적 문제를 설명하고 탐구를 촉발하기 위한 것입니다.

그림 18: 의원 이미지에서 CLIP 성능

그림 18은 Google Cloud Vision, Amazon Rekognition 및 Microsoft Azure Computer Vision에서 반환한 라벨 세트를 결합하여 의원 이미지에서 CLIP의 성능을 보여줍니다. 남성과 여성에 대해 가장 성별이 드러나는 20개의 라벨을 0.5% 임계값으로 2 테스트를 통해 식별했습니다. 라벨은 절대 빈도에 따라 정렬되었습니다. 막대는 특정 라벨에 대한 이미지의 비율을 성별로 나타냅니다.

7.2. 감시

다음으로, 사회적으로 민감한 하위 작업인 감시와 관련하여 모델 성능을 특성화하려고 했습니다. 우리의 분석은 앞서 설명한 특성화 접근 방식을 더 잘 구현하고 연구 커뮤니티가 점점 더 일반적인 목적의 컴퓨터 비전 모델의 잠재적인 미래 영향을 예측하고 이러한 시스템에 대한 규범과 점검을 개발하는 데 도움을 주기 위한 것입니다. 감시를 포함한 것은 이 도메인에 대한 열의를 나타내기 위한 것이 아니라, 사회적 함의를 고려할 때 감시가 예측하려고 시도해야 할 중요한 도메인이라고 생각하기 때문입니다(Zuboff, 2015; Browne, 2015).

CCTV 이미지 분류 및 제로샷 유명인 식별 성능 측정

우리는 CCTV 카메라에서 촬영한 이미지와 제로샷 유명인 식별에서 모델의 성능을 측정했습니다. 먼저 감시 카메라(CCTV 카메라)에서 촬영한 저해상도 이미지에서 모델 성능을 테스트했습니다. VIRAT 데이터셋(Oh et al., 2011)과 Varadarajan & Odobez(2009)가 캡처한 데이터를 사용했으며, 이들 데이터는 모두 실제 야외 장면과 비배우자로 구성되어 있습니다.

CLIP의 유연한 클래스 구성 기능을 고려하여, 12개의 다른 비디오 시퀀스에서 캡처한 515개의 감시 이미지를 대상으로 거친(grained) 및 세밀한(fine-grained) 분류를 위한 자체 구축 일반 클래스를 테스트했습니다. 거친 분류는 모델이 이미지의 주요 주제를 올바르게 식별해야 했으며(예: 주차장, 학교 캠퍼스 등), 세밀한 분류에서는 모델이 이미지의 작은 특징의 존재 여부(예: 구석에 서 있는 사람)를 식별해야 했습니다.

거친 분류를 위해, 우리는 직접 이미지를 설명하는 캡션을 작성하여 클래스를 구성했으며, 항상 모델이 선택할 수 있는 최소 6개의 옵션이 있었습니다. 추가적으로, '스트레스 테스트'를 수행하여 이미지와 '유사한' 캡션을 최소한 하나 이상 포함시켰습니다(예: '흰색 자동차가 있는 주차장' 대 '빨간색 자동차가 있는 주차장'). 초기 평가에서는 CCTV 이미지에서 모델의 상위 1 정확도가 91.8%였습니다. 두 번째 평가에서는 정확도가 51.1%로 크게 떨어졌으며, 모델은 40.7%의 확률로 '유사한' 정답을 선택했습니다.

세밀한 감지의 경우, 제로샷 모델은 거의 무작위와 같은 결과를 보였습니다. 이 실험은 이미지 시퀀스에서 작은 객체의 존재 여부를 감지하는 데만 초점을 맞추었습니다.

Table 8. CelebA Zero-Shot Top-1 신원 인식 정확도

CLIP의 야외 환경에서의 제로샷 성능 테스트

우리는 CelebA 데이터셋을 사용하여 CLIP의 '야외 환경'에서의 제로샷 성능을 테스트했습니다. 이 테스트는 모델이 사전 훈련된 공개 데이터만을 사용하여 신원 인식을 수행하는 성능을 평가하기 위해 수행되었습니다. 인터넷에 더 많은 이미지가 있는 유명인 데이터셋에서 이를 테스트했지만, 모델이 얼굴을 이름과 연관시키는 데 필요한 사전 훈련 데이터의 이미지 수는 모델이 더 강력해짐에 따라 계속 감소할 것이라고 가정합니다 (표 8 참조). 이는 큰 사회적 함의를 가지며 (Garvie, 2019), 최근 대형 언어 모델이 인터넷 데이터를 기반으로 상대적으로 잘 알려지지 않은 공인에 대한 정보를 제공하는 능력을 보여주는 자연어 처리 분야의 최근 발전과 유사합니다 (Brown et al., 2020).

실험 결과

우리는 '야외 환경' 8k 유명인 이미지에 대해 100개의 가능한 클래스 중 모델이 59.2%의 상위 1 정확도를 기록했음을 발견했습니다. 그러나 클래스 크기를 1k 유명인 이름으로 늘렸을 때 성능은 43.3%로 떨어졌습니다. 이 성능은 Google의 Celebrity Recognition과 같은 프로덕션 수준의 모델과 비교할 때 경쟁력이 없습니다. 그러나 이러한 결과가 주목할 만한 이유는 사전 훈련 데이터에서 추론된 이름을 기반으로 한 제로샷 식별 기능만 사용하여 수행되었기 때문입니다. 추가적인 작업 특화 데이터셋을 사용하지 않았으며, (상대적으로) 강력한 결과는 멀티모달 모델을 배포하기 전에 주어진 맥락과 도메인에서의 동작을 신중하게 연구해야 함을 더욱 시사합니다.

CLIP은 제로샷 기능 덕분에 상대적으로 적은 데이터를 가진 작업에 상당한 이점을 제공합니다. 그러나 얼굴 인식과 같은 많은 수요가 있는 감시 작업을 위해 대규모 데이터셋과 높은 성능의 지도 학습 모델이 존재합니다. 결과적으로 이러한 용도에 대한 CLIP의 비교 매력은 낮습니다. 또한 CLIP은 객체 감지 및 의미론적 분할과 같은 일반적인 감시 관련 작업을 위해 설계되지 않았습니다. 이는 이러한 용도를 염두에 두고 설계된 모델(예: Detectron2 (Wu et al., 2019))이 널리 사용 가능한 경우 특정 감시 작업에 대한 사용이 제한됨을 의미합니다.

그러나 CLIP은 훈련 데이터의 필요성을 제거하여 사용성을 높이는 측면을 열어줍니다. 따라서 CLIP 및 유사한 모델은 잘 맞춤형 모델이나 데이터셋이 없는 맞춤형, 틈새 감시 사용 사례를 가능하게 하고, 이러한 응용 프로그램을 구축하는 데 필요한 기술 요구 사항을 낮출 수 있습니다. 우리의 실험이 보여주듯이, ZS CLIP은 오늘날 몇 가지 감시 관련 작업에서 비상한, 그러나 예외적이지 않은 성능을 보입니다.

7.3. 향후 연구

이 예비 분석은 범용 컴퓨터 비전 모델이 제기하는 몇 가지 도전 과제를 설명하고, 이들의 편향과 영향을 엿볼 수 있게 합니다. 우리는 이 작업이 이러한 모델의 능력, 단점 및 편향을 특성화하는 미래 연구를 촉진하기를 바라며, 이러한 질문에 대해 연구 커뮤니티와 함께 논의하기를 기대합니다.

커뮤니티 탐색의 중요성

우리는 커뮤니티 탐색이 CLIP과 같은 모델의 능력을 더욱 특성화하고 - 중요한 것은 - 유망한 성능을 보이는 응용 분야와 성능이 저하될 수 있는 분야를 식별하는 데 중요한 역할을 한다고 믿습니다. 이러한 특성화 과정은 연구자가 모델이 유익하게 사용될 가능성을 높이는 데 도움이 될 수 있습니다:

모델의 잠재적으로 유익한 하위 사용 사례를 조기에 식별: 이를 통해 다른 연구자들이 응용 프로그램에 대해 생각할 수 있게 합니다.
상당한 민감성을 지닌 작업과 많은 사회적 이해관계자가 있는 작업을 부각: 이는 정책 입안자들이 개입해야 할 필요가 있을 수 있습니다.
모델의 편향을 더 잘 특성화: 이는 다른 연구자들에게 우려되는 영역과 개입이 필요한 영역에 대해 경고할 수 있습니다.
CLIP과 같은 시스템을 평가하기 위한 테스트 스위트 작성: 이를 통해 개발 주기의 초기 단계에서 모델의 능력을 더 잘 특성화할 수 있습니다.
잠재적인 실패 모드와 추가 작업이 필요한 영역 식별.

우리는 이러한 작업에 기여할 계획이며, 이 분석이 후속 연구를 위한 몇 가지 동기 부여 예제를 제공하기를 바랍니다.

8. 관련 연구

훈련 신호의 일부로 쓰여진, 말해진, 서명된 또는 기타 형태의 인간 언어를 활용하는 모델은 자연 언어를 감독 소스로 사용하는 것으로 볼 수 있습니다. 이는 인정하건대 매우 넓은 영역으로, 토픽 모델(Blei et al., 2003), 단어, 문장 및 단락 벡터(Mikolov et al., 2013; Kiros et al., 2015; Le & Mikolov, 2014) 및 언어 모델(Bengio et al., 2003)과 같은 분포 의미론의 대부분의 작업을 포함합니다. 또한 일종의 자연 언어 시퀀스를 예측하거나 모델링하는 것과 관련된 넓은 NLP 분야의 많은 부분도 포함됩니다. 설명, 피드백, 지시 및 조언의 형태로 자연 언어 감독을 의도적으로 활용하여 분류와 같은 작업을 수행하는 연구는 많은 창의적이고 고급적인 방식으로 탐구되었습니다. 대화 기반 학습(Weston, 2016; Li et al., 2016; Hancock et al., 2019)은 대화에서 대화형 자연 언어 피드백을 통해 학습하는 기술을 개발합니다. 여러 논문에서는 자연 언어 설명을 특징으로 변환하기 위해 의미론적 파싱을 활용하거나(Srivastava et al., 2017), 추가 훈련 라벨로 활용하는 방법을 연구했습니다(Hancock et al., 2018). 최근에는 ExpBERT(Murty et al., 2020)가 관계 추출 작업의 성능을 향상시키기 위해 자연 언어 설명과 관계 설명에 조건화된 심층 맥락 언어 모델이 생성한 특징 표현을 사용합니다.

CLIP은 언어 이외의 도메인에 대해 학습하기 위해 자연 언어를 훈련 신호로 사용하는 예입니다. 이 맥락에서 우리가 알고 있는 자연 언어 감독이라는 용어의 최초 사용은 Ramanathan et al. (2013)의 연구로, 자연 언어 설명이 다른 감독 소스와 함께 사용되어 비디오 이벤트 이해 작업의 성능을 향상시킬 수 있음을 보여주었습니다. 그러나 도입 및 접근 섹션에서 언급했듯이, 컴퓨터 비전에서 자연 언어 설명을 활용하는 방법은 특히 이미지 검색(Mori et al., 1999) 및 객체 분류(Wang et al., 2009)에서 이 특정 용어의 사용 이전부터 잘 알려져 있었습니다. 초기의 다른 연구는 의미론적 분할 작업을 위해 이미지와 관련된 태그(하지만 자연 언어는 아님)를 활용했습니다(Barnard et al., 2003). 최근에는 He & Peng (2017) 및 Liang et al. (2020)이 자연 언어 설명을 사용하여 새의 세밀한 시각적 분류를 개선하는 방법을 보여주었습니다. 다른 연구들은 ShapeWorld 데이터셋에서 시각적 표현과 분류기를 개선하기 위해 기초된 언어가 어떻게 사용될 수 있는지를 조사했습니다(Kuhnle & Copestake, 2017; Andreas et al., 2017; Mu et al., 2019). 마지막으로, 자연 언어를 강화 학습 환경과 결합하는 기술(Narasimhan et al., 2015)은 시스템적으로 제로샷 작업을 수행하는 등 흥미로운 새로운 행동을 보여주었습니다(Hill et al., 2019).

CLIP의 사전 훈련 작업은 텍스트-이미지 검색을 최적화합니다. 이 연구 영역은 90년대 중반으로 거슬러 올라가며 앞서 언급한 Mori et al. (1999)이 초기 연구의 대표적인 예입니다. 초기 노력은 주로 예측 목표에 초점을 맞추었으나, 시간이 지남에 따라 커널 정준 상관 분석 및 다양한 순위 목표와 같은 기술을 사용하여 공동 다중 모달 임베딩 공간을 학습하는 방향으로 연구가 전환되었습니다(Weston et al., 2010; Socher & Fei-Fei, 2010; Hodosh et al., 2013). 시간이 지남에 따라 연구는 많은 조합의 훈련 목표, 전이 및 보다 표현적인 모델을 탐구하고 성능을 지속적으로 향상시켰습니다(Frome et al., 2013; Socher et al., 2014; Karpathy et al., 2014; Kiros et al., 2014; Faghri et al., 2017).

이미지 이외의 도메인에서도 자연 언어 감독을 활용한 다른 연구들이 있습니다. Stroud et al. (2020)은 이미지 대신 비디오와 설명 텍스트를 짝지어 대규모 표현 학습을 탐구했습니다. 여러 연구에서는 밀도 높은 구어체 자연 언어 감독을 비디오에 사용하는 방법을 연구했습니다(Miech et al., 2019; 2020b). CLIP과 함께 고려할 때, 이러한 연구들은 대규모 자연 언어 감독이 많은 도메인에서 고품질 인식 시스템을 학습하는 유망한 방법임을 시사합니다. Alayrac et al. (2020)은 원시 오디오를 추가적인 감독 소스로 추가하여 이 연구 라인을 확장하고, 세 가지 감독 소스를 모두 결합하여 얻은 이점을 보여주었습니다.

CLIP 작업의 일환으로 이미지-텍스트 쌍의 새로운 데이터셋을 구성했습니다. 현대의 이미지-텍스트 검색 작업은 Pascal1K (Rashtchian et al., 2010), Flickr8K (Hodosh et al., 2013), Flickr30K (Young et al., 2014)와 같은 군중 소싱된 문장 수준의 이미지 캡션 평가 데이터셋에 의존했습니다. 그러나 이러한 데이터셋은 여전히 상대적으로 작아서 성능을 제한합니다. Ordonez et al. (2011)과 같은 자동으로 더 큰 데이터셋을 만드는 방법이 여러 가지 제안되었습니다. 딥러닝 시대에 Mithun et al. (2018)은 인터넷에서 수집한 추가적인 이미지-텍스트 쌍이 검색 성능을 향상시킬 수 있음을 보여주었고, Conceptual Captions (Sharma et al., 2018), LAIT (Qi et al., 2020), OCR-CC (Yang et al., 2020)와 같은 여러 새로운 자동 구성된 데이터셋이 만들어졌습니다. 그러나 이러한 데이터셋은 여전히 훨씬 더 공격적인 필터링을 사용하거나 특정 작업을 위해 설계되어 WIT보다 훨씬 작습니다.

CLIP과 관련된 아이디어는 웹 기반 감독 학습입니다. 이 연구 라인은 이미지 검색 엔진을 쿼리하여 용어를 검색하여 이미지 데이터셋을 구축하고, 반환된 이미지의 레이블로 쿼리를 사용하는 방법을 탐구합니다(Fergus et al., 2005). 이러한 대규모이지만 노이즈가 많은 데이터셋으로 훈련된 분류기는 더 작은 신중하게 레이블된 데이터셋으로 훈련된 분류기와 경쟁할 수 있습니다. 이러한 이미지-쿼리 쌍은 또한 추가적인 훈련 데이터로 사용되어 표준 데이터셋의 성능을 향상시키는 데 종종 사용됩니다(Chen & Gupta, 2015). CLIP은 데이터셋 생성 과정의 일부로 검색 쿼리를 사용하지만, 단어 또는 짧은 n-그램 쿼리만 사용하는 것이 아니라 이미지와 함께 발생하는 전체 텍스트 시퀀스를 감독으로 사용합니다. 우리는 CLIP의 이 단계를 텍스트 쿼리에만 제한하고 있으며, 대부분의 웹 기반 감독 작업은 자체 복잡한 검색 및 필터링 파이프라인이 있는 표준 이미지 검색 엔진을 사용합니다. 이 연구 라인 중에서 Learning Everything about Anything: Webly-Supervised Visual Concept Learning (Divvala et al., 2014)은 CLIP과 유사한 야망과 목표를 가지고 있습니다.

마지막으로, CLIP은 비전과 언어의 공동 모델 학습에 대한 최근의 활발한 활동과 관련이 있습니다(Lu et al., 2019; Tan & Bansal, 2019; Chen et al., 2019; Li et al., 2020b; Yu et al., 2020). 이 연구 라인은 시각적 질문 응답, 시각적 상식 추론, 멀티모달 함의와 같은 복잡한 하위 작업을 해결하기 위해 비전과 언어를 풍부하게 연결하는 데 중점을 둡니다. 이러한 접근법은 일반적으로 이미지 특징 모델, 영역 제안/객체 감지 모델, 사전 훈련된 마스킹 언어 모델(BERT 등)과 같은 세 가지(또는 그 이상의) 사전 훈련된 하위 시스템을 결합한 인상적으로 설계된 모델을 활용합니다. 이러한 시스템은 이미지-텍스트 쌍에 다양한 훈련 목표를 통해 공동으로 미세 조정되고 앞서 언급한 작업에 적용되어 인상적인 결과를 달성합니다. CLIP은 자연 언어 감독을 통해 시각적 모델을 처음부터 학습하는 데 중점을 두며, 공동 주의 모델로 두 도메인을 밀접하게 연결하지 않습니다. CLIP 모델에서 이미지와 텍스트 도메인 간의 유일한 상호 작용은 학습된 공동 임베딩 공간에서 단일 내적입니다. 우리는 CLIP이 이 연구 라인과 결합되는 것을 기대합니다.

9. 결론

우리는 NLP에서 작업 불가지론적 웹 규모 사전 훈련의 성공을 다른 도메인으로 전이할 수 있는지 조사했습니다. 이러한 공식을 채택하면 컴퓨터 비전 분야에서 유사한 행동이 나타나며, 이 연구 라인의 사회적 함의를 논의했습니다. CLIP 모델은 훈련 목표를 최적화하기 위해 사전 훈련 중 다양한 작업을 수행하는 법을 학습합니다. 이러한 작업 학습은 자연 언어 프롬프트를 통해 활용되어 많은 기존 데이터셋으로 제로샷 전이를 가능하게 합니다. 충분한 규모에서 이 접근법의 성능은 특정 작업에 특화된 지도 학습 모델과 경쟁할 수 있지만, 여전히 많은 개선의 여지가 있습니다.

감사의 말

CLIP이 훈련된 데이터 생성에 참여한 수백만 명의 사람들에게 감사드립니다. OpenAI에서 이미지 조건부 언어 모델에 대해 작업한 Susan Zhang, 의사 코드 오류를 잡아낸 Ishaan Gulrajani, 논문의 더 넓은 영향 섹션에 대해 심도 있는 피드백을 제공한 Irene Solaiman, Miles Brundage, Gillian Hadfield에게도 감사드립니다. 또한 이 프로젝트에서 사용된 소프트웨어 및 하드웨어 인프라에 대해 중요한 작업을 수행한 OpenAI의 가속화 및 슈퍼컴퓨팅 팀에게도 감사드립니다. 마지막으로 Numpy (Harris et al., 2020), SciPy (Virtanen et al., 2020), ftfy (Speer, 2019), TensorFlow (Abadi et al., 2016), PyTorch (Paszke et al., 2019), pandas (pandas development team, 2020), scikit-learn (Pedregosa et al., 2011) 등 프로젝트 전반에 걸쳐 사용된 많은 소프트웨어 패키지의 개발자들에게도 감사드립니다.

2103.00020v1.pdf

6.50MB

'인공지능' 카테고리의 다른 글

JEST : Data curation via joint example selection further accelerates multimodal learning (1)	2024.07.19
CharacterGen: Efficient 3D Character Generation from Single Imageswith Multi-View Pose Calibration (2)	2024.07.18
MusicLM: Generating Music From Text (2)	2024.07.16
Emu Video: Factorizing Text-to-Video Generation by Explicit Image Conditioning (1)	2024.07.15
Segment Anything (2)	2024.07.14

CLIP : Learning Transferable Visual Models From Natural Language Supervision

2. 접근 방식

2.1 자연어 감독

2.2 충분히 큰 데이터셋 생성

2.3 효율적인 사전 학습 방법 선택

2.4 모델 선택 및 확장

2. 접근 방식

2.5 훈련

3. 실험

3.1 제로샷 전이

3.1.1 동기

n-그램의 종류

예시

n-그램의 사용

CLIP에서의 n-그램

3.1.2 CLIP을 이용한 제로샷 전이

표 1. 이전 제로샷 전이 이미지 분류 결과와 CLIP 비교

3.1.3 초기 비교: Visual N-Grams와 CLIP

3.1.4 프롬프트 엔지니어링과 앙상블링

다의성 문제

단일 단어 문제

프롬프트 엔지니어링

Figure 4

앙상블링

그림 5

3.1.5 제로샷 CLIP 성능 분석

그림 6

그림 7

그림 8

그림 9

3.2 표현 학습

그림 10

더 넓은 평가 스위트에서의 CLIP의 이점

그림 11

데이터셋별 성능 시각화

3.3 자연 분포 이동에 대한 견고성

그림 12

그림 13

그림 14

어떻게 ImageNet 데이터셋에서 정확도를 9.2% 향상시키면서도 분포 이동 하에서 정확도를 거의 증가시키지 않을 수 있을까?

유연한 제로샷 자연어 기반 이미지 분류기를 통한 또 다른 견고성 개입

그림 15

제로샷 CLIP의 효과적인 견고성

실험 결과 요약

인간 성능과의 비교

표 2: Oxford IIT Pets에 대한 인간 성능 비교

그림 16

5. 데이터 중복 분석

그림 17

분석 요약

6. 한계점

성능의 한계

특정 작업에 대한 성능

분포 일반화의 한계

제로샷 분류기의 한계

CLIP의 한계

방법론의 한계

자연어를 통한 이미지 분류기의 한계

7. 더 넓은 영향

제로샷 설정에서의 CLIP의 가능성

추가 연구 및 성능 평가

모델에 내재된 사회적 편향

7.1. 편향

추가 편향 테스트 결과

차별적 해악 탐지 실험

클래스 카테고리와 편향의 영향

그림 18: 의원 이미지에서 CLIP 성능

7.2. 감시

CCTV 이미지 분류 및 제로샷 유명인 식별 성능 측정

CLIP의 야외 환경에서의 제로샷 성능 테스트

실험 결과

7.3. 향후 연구

커뮤니티 탐색의 중요성

8. 관련 연구

9. 결론

감사의 말

'인공지능' 카테고리의 다른 글

'인공지능' Related Articles

티스토리툴바