본문 바로가기

인공지능

Will we run out of data? Limits of LLM scaling based on human-generated data

요약

우리는 공개된 인간 생성 텍스트 데이터의 가용성이 대규모 언어 모델(LLM) 확장에 미치는 잠재적 제약을 조사합니다. 현재 추세에 기반하여 훈련 데이터에 대한 수요 증가를 예측하고, 공개된 인간 텍스트 데이터의 총량을 추정합니다. 우리의 연구 결과에 따르면, 현재의 LLM 개발 추세가 계속된다면, 2026년에서 2032년 사이에 모델들이 공개된 인간 텍스트 데이터의 총량과 대략 비슷한 크기의 데이터셋으로 훈련될 것이며, 모델이 과도하게 훈련된다면 이보다 약간 더 이르게 도달할 수 있습니다. 우리는 인간 생성 텍스트 데이터셋을 더 이상 확장할 수 없을 때 언어 모델링의 발전이 어떻게 지속될 수 있는지 탐구합니다. 우리는 합성 데이터 생성, 데이터가 풍부한 도메인에서의 전이 학습, 데이터 효율성 향상 등이 지속적인 발전을 지원할 수 있다고 주장합니다.

 

1. 서론

최근 언어 모델링의 진전은 주로 웹이나 큐레이션된 말뭉치에서 가져온 방대한 양의 인간 생성 텍스트에 대한 비지도 학습에 크게 의존해왔습니다(Zhao et al., 2023). 인간 생성 공개 텍스트 데이터의 가장 큰 데이터셋인 RefinedWeb, C4, RedPajama 등은 수조 개의 단어를 수집한 수십억 개의 웹 페이지로 구성되어 있습니다(Penedo et al., 2023; Together.ai, 2023). 공개된 인간 텍스트 데이터에 대한 수요는 계속해서 증가할 가능성이 큽니다. 모델의 크기와 훈련을 효율적으로 확장하기 위해, 대규모 언어 모델(LLMs)은 일반적으로 신경 스케일링 법칙에 따라 훈련됩니다(Kaplan et al., 2020; Hoffmann et al., 2022). 이러한 관계는 훈련 데이터셋의 크기를 늘리는 것이 LLM의 성능을 효율적으로 향상시키는 데 중요하다는 것을 의미합니다.

이 논문에서 우리는 인간 생성 공개 텍스트 데이터가 이 10년을 넘어 확장을 지속할 수 없다고 주장합니다. 이 결론을 뒷받침하기 위해, 우리는 훈련 데이터에 대한 수요 증가와 공개된 인간 텍스트 데이터 생산을 모델링합니다. 이 모델을 사용하여 LLM 개발의 궤적이 언제 공개된 인간 텍스트 데이터의 가용량을 완전히 소진할지를 예측합니다. 그런 다음 합성 데이터 생성, 데이터가 풍부한 도메인에서의 전이 학습, 비공개 데이터를 사용하는 등 이 제약을 회피할 수 있는 다양한 잠재적 전략을 탐구합니다.

 

도표 1. 인간 생성 공개 텍스트의 유효량과 주목할 만한 LLM을 훈련시키는 데 사용된 데이터셋 크기의 예측치. 재고와 데이터셋 크기 예측선이 교차하는 지점은 현재 LLM 개발 추세가 계속된다면 재고가 완전히 활용될 것으로 예상되는 중간 연도(2028년)를 나타냅니다. 이 시점에서 모델들은 인덱싱된 웹에서의 총 유효 텍스트 재고에 접근하는 데이터셋 크기로 훈련될 것입니다: 약 4e14 토큰으로, 이는 과도하게 훈련되지 않은 모델의 경우 약 5e28 FLOP의 훈련 계산량에 해당합니다. 개별 점들은 특정 주목할 만한 모델들의 데이터셋 크기를 나타냅니다. 모델 설명은 2장에서 다룹니다.

 

1.1 관련 연구

인터넷 데이터의 양

여러 연구는 인터넷의 크기와 정보 내용을 정량화하려고 했습니다. Murray H. & Moore(2000)는 인터넷의 크기를 약 21테라바이트의 데이터를 포함하는 21억 개의 고유 웹 페이지로 추정했습니다. Coffman & Odlyzko(1998)와 Odlyzko(2016)는 1990년대 초반에 공개 인터넷 트래픽이 연간 약 100%의 빠른 성장률을 보였으나, 2010년대 후반에는 특히 선진국에서 두 자릿수로 성장률이 둔화되었다고 발견했습니다. 최근 Reinsel et al.(2018)은 전 세계에서 매년 생성, 캡처 또는 복제되는 새로운 데이터의 총량을 330억 테라바이트로 추정했습니다. 그러나 이 분석은 이미지, 비디오, 텍스트 데이터와 같은 다양한 데이터 형식으로 세분화되지 않았습니다. Google의 인덱스에만 초점을 맞추어, van den Bosch et al.(2016)은 2006년부터 2015년까지의 데이터를 추정하여, 시간이 지남에 따라 크게 변동했지만 대략 수십억 개의 웹 페이지에 달한다고 밝혔습니다.

머신러닝의 데이터 병목 현상

Muennighoff et al.(2023)은 LLM 훈련을 위한 데이터 부족을 완화하기 위한 여러 기술을 연구했습니다. 특히, 데이터 반복, 더 많은 코드 데이터 추가, 데이터 전처리 중 품질 필터 완화를 고려했습니다. 이들은 이러한 기술을 사용하여 작은 데이터 예산을 보완할 때의 성능 손실을 정량화하였고, 데이터 반복 및 코드 데이터 포함이 텍스트 데이터 예산이 최대 75% 감소할 때도 이를 보완할 수 있음을 발견했습니다. Xue et al.(2023)도 데이터 부족에 대한 해결책으로 다중 에폭 훈련을 연구했습니다. Nostalgebraist(2022)는 고품질 훈련 데이터가 곧 머신러닝의 병목 현상이 될 것이라고 주장했습니다. 주요 AI 연구자들은 데이터 가용성이 머신러닝 시스템의 발전을 제한할 수 있다는 우려를 표명했습니다. Anthropic의 CEO인 Dario Amodei는 데이터 부족으로 인해 AI 시스템의 확장이 정체될 확률이 10%라고 추정했습니다(Roose & Newton, 2023). 이는 공개된 인간 텍스트 데이터의 한정된 공급이 제기하는 제한을 조사하는 것이 중요함을 강조합니다.

 

표 1. 토큰 단위의 웹 데이터 재고량 추정치. 이미지와 비디오의 경우 포인트 추정치만 있습니다.

 

2. 데이터 부족 모델

우리의 핵심 질문은 공개된 인간 텍스트 데이터의 제한된 가용성이 대규모 언어 모델(LLM) 확장을 제한할 수 있는지 여부입니다. 우리는 두 가지 주요 변수를 고려합니다: 사용 가능한 공개 인간 텍스트 데이터의 총량(“데이터 재고”)과 LLM 훈련 시 실제로 사용되는 이 데이터의 양(“데이터셋 크기”). 이 섹션에서는 데이터 재고와 데이터셋 크기를 예측하는 모델을 개발합니다.

2.1 데이터셋 크기 정량화

모델을 명시하려면 "데이터"를 어떻게 정량화할지 명확히 해야 합니다. 이를 위해, 훈련 데이터셋의 크기를 관심 있는 토큰 수로 정의합니다. 대규모 영어 텍스트 샘플에서는 일반적으로 한 토큰이 약 0.8 단어에 해당합니다(부록 E 참조). 이 정의의 한 가지 제한점은 텍스트 코퍼스의 크기가 텍스트가 토큰화되는 방식에 따라 달라진다는 것입니다. 그렇지만 실무에서는 일반적인 토크나이저 간에 코퍼스의 토큰 수가 크게 다르지 않습니다. 또한, 가장 두드러진 두 가지 대안인 단어 수와 바이트 단위 저장 크기는 모달리티에 따라 크게 다를 수 있으며, 경우에 따라 정의되지 않을 수도 있습니다.

2.2 데이터 재고 추정

모델의 첫 번째 주요 변수는 데이터 재고 S입니다. 우리는 인덱싱된 웹의 크기와 평균 웹 페이지에 포함된 데이터 양을 계산하여 이를 추정합니다. Common Crawl의 통계를 사용합니다. 웹 데이터에는 모델 성능에 기여하지 않는 많은 저품질 텍스트 조각이 포함되어 있으므로(Penedo et al., 2023), 데이터 품질 차이를 고려하여 추정치를 조정합니다. 또한, 다중 에폭 훈련 가능성을 고려하여 조정합니다. 이러한 조정은 2.3장에서 더 자세히 설명합니다. 추가적으로 견고성을 확인하기 위해 세계 인구를 기반으로 매년 생성되는 인터넷 텍스트의 양을 추정합니다. 표 1에는 이러한 추정 결과가 나와 있습니다.

모델의 모든 관측 변수에 대한 불확실성을 로그 정규 분포로 모델링하고, 각각에 대한 95% 신뢰 구간(CI)을 보고합니다. 잠재 변수의 CI는 이러한 변수를 정의하는 함수적 관계의 몬테카를로 시뮬레이션을 통해 얻습니다.

 

2.2.1 인덱싱된 웹

Common Crawl은 2500억 개 이상의 웹 페이지로 구성된 정기적으로 업데이트되는 오픈 소스 웹 데이터 수집기로, RefinedWeb, C4, RedPajama와 같은 대부분의 공개 웹 데이터셋의 기초를 제공합니다(Common Crawl, 2024). 인덱싱된 웹의 하위 집합으로서, Common Crawl의 최대 크기는 본질적으로 인덱싱된 웹의 크기에 의해 제한됩니다. 인덱싱된 웹의 크기를 추정하기 위해 Google의 인덱스 크기를 대리 변수로 사용합니다. van den Bosch et al.(2016)이 제안한 방법론을 적용하여, Google의 인덱스에는 약 2500억 개의 웹 페이지가 포함되어 있으며, 95% 신뢰 구간은 1000억에서 12000억 웹 페이지에 이릅니다(부록 B 참조). Common Crawl이 인덱싱된 웹의 대표 샘플이라고 가정하면, 이를 사용하여 웹 페이지당 일반 텍스트 바이트의 평균 양을 추정할 수 있습니다. 이 숫자는 2013년 약 6100바이트에서 2021년 약 8200바이트로 시간이 지남에 따라 증가했습니다. 우리는 웹 페이지당 평균 일반 텍스트 바이트를 7000[95%: 6100, 8200]으로 추정합니다. 각 토큰은 4바이트의 일반 텍스트에 해당하므로[95%: 2, 5] 2024년 인덱싱된 웹에서의 토큰 원재고는 약 510조[95%: 130T, 2100T]로 계산됩니다. 2013년 이후로, 평균 Common Crawl 웹 페이지의 일반 텍스트 크기는 매년 2%에서 4% 사이로 증가하고 있습니다. 그러나 전체 웹 페이지 수의 성장률을 추정하는 것은 상반된 증거로 인해 더 어려운 문제입니다. van den Bosch et al.(2016)이 사용한 방법론은 지난 10년 동안 Google 인덱스의 크기가 상대적으로 일정하게 유지되었다고 제안하며, 이는 새로운 웹 페이지가 정기적으로 생성된다는 점에서 직관에 반하는 결과입니다. 부록 B에서는 Google 인덱스 크기의 성장 부족에 대한 대체 설명을 논의합니다.

인덱싱된 웹 예상 성장

인덱싱된 웹의 성장률을 더 잘 추정하기 위해 우리는 몇 가지 대리 변수를 고려합니다: 글로벌 IP 트래픽, 링크 부패율(link rot rates), 인터넷 사용자 수의 증가. 2016년 글로벌 IP 트래픽은 24% 증가했는데 (Cisco, 2017), 이는 텍스트 데이터 생성보다는 소비에 해당하므로 웹 페이지 성장률의 상한으로 간주될 수 있습니다. 반면에 인터넷 사용자 수는 연간 약 2-4% 증가하고 있으며(2.2.2절 참조), 링크 부패율 추정치는 2%에서 16% 사이입니다(부록 B).

Google 인덱스 크기가 일정하게 유지되려면, 링크 부패율은 새로운 웹 페이지 또는 링크의 생성으로 상쇄되어야 하며, 이는 약 10%의 성장률을 시사합니다. 그러나 두 자릿수 성장률은 평균 인터넷 사용자가 시간이 지남에 따라 훨씬 더 많은 웹 페이지를 생성한다는 것을 의미하며, 이는 트위터 사용자당 트윗 수가 거의 일정하게 유지되는 것(GDELT, 2020)과 같은 몇 가지 관찰 결과에 의해 반박됩니다. 이러한 고려 사항을 감안할 때, 우리는 연간 0%에서 10% 사이의 신뢰 구간을 설정합니다.

 

그림 2. 인터넷 사용자의 과거 및 예상 진화. 과거 데이터는 Ritchie & Roser(2020)의 자료입니다.

 

2.2.2 인터넷 인구

데이터를 생성하는 과정을 명확히 설명하는 대체 데이터 재고 모델을 고려합니다. 이 모델은 인터넷의 텍스트 데이터 대부분이 사용자 생성 콘텐츠이며 소셜 미디어, 블로그, 포럼 등의 플랫폼에 저장된다는 관찰에 의존합니다. AI 생성 텍스트가 점점 더 흔해지고 있지만, 이 모델에서는 이를 제외하고 3장에서 논의합니다.

원칙적으로, 인터넷 사용자 수와 사용자당 평균 생성 데이터량을 고려하여 공개된 인간 생성 텍스트 데이터의 양을 추정할 수 있습니다. 데이터 생성의 증가는 주로 인터넷 사용자 수의 증가에 의해 주도됩니다. 인터넷 사용자의 증가를 두 가지 요소로 모델링합니다: (1) 인구 증가와 (2) 인터넷 보급률 증가, 즉 인터넷을 사용하는 인구의 비율입니다. 전자는 유엔의 표준 예측을 참고합니다(United Nations, 2022). 인터넷 보급률은 1990년 ∼0%에서 2016년 50%, 오늘날 60% 이상으로 S-곡선을 따랐으므로(Ritchie & Roser, 2017), Ritchie & Roser (2017)의 데이터를 사용하여 시그모이드 함수로 모델링합니다.

마지막으로, 인터넷 사용자당 생성되는 데이터 양은 국가 및 시간에 따라 문화, 인구 통계, 사회경제적 요인, 온라인 서비스의 차이로 인해 다양합니다. 이러한 변화를 정량화하는 것은 복잡하고 이 분석의 범위를 벗어나므로, 사용자당 평균 데이터 생성률이 일정하다고 가정하여 예측 가능한 추정을 가능하게 합니다.

이 인터넷 사용자 수 모델은 역사적 데이터와 밀접하게 일치합니다(그림 2). 이 모델에 대한 자세한 설명은 부록 A에 있습니다. 주요 온라인 플랫폼에 대한 보고된 사용자 통계를 바탕으로(부록 C 참조), 2024년에 인터넷에 업로드된 텍스트 데이터 총량을 180T에서 500T 토큰으로 추정합니다. 미래의 데이터 축적을 예측하기 위해, 매년 예측된 인터넷 사용자 수에 따라 2024년 초기 추정을 조정합니다. 이를 통해 전 세계 온라인 인구의 연간 데이터 기여도를 추정할 수 있습니다. 그런 다음, 이러한 연간 기여도를 시간에 따라 누적하여 총 인터넷 텍스트 데이터 재고를 모델링합니다. 최종 추정치는 3100T [95%: 1900T, 5200T] 토큰입니다. 이 추정치는 인덱싱된 웹과 딥 웹의 데이터를 모두 포함하므로, 인덱싱된 웹 크기의 상한으로 작용합니다.

2.3 데이터 품질과 다중 에폭 훈련

이전 하위 섹션에서는 분석에 사용하는 모델의 핵심 기초를 설명했습니다. 그러나 예측을 수행하기 전에 몇 가지 추가 고려 사항을 고려해야 합니다. 특히, 언어 모델의 확장에서 데이터 제약에 중점을 두고 있으므로, 훈련 데이터셋의 실제 토큰 수가 LLM 성능 향상에 중요한 요소가 아닐 수 있습니다. 예를 들어, 데이터 품질 차이(Li et al., 2023)와 훈련 에폭 수(Muennighoff et al., 2023)가 최종 모델 성능에 상당한 영향을 미칠 수 있습니다. 이 하위 섹션에서는 이러한 요소의 중요성을 분석하고 모델을 수정합니다. 데이터 품질 및 다중 에폭 훈련에 대한 조정은 그림 3에 나와 있습니다.

 

그림 3. 품질 및 반복에 대한 조정과 토큰 수에 따른 조정된 재고 크기 그림. 먼저 품질이 낮은 데이터를 필터링한 다음, 다중 에포크 학습을 위해 결과 데이터 세트를 복제합니다.

 

2.3.1 데이터 품질

“토큰 수”라는 척도만 고려하는 것이 지나치게 단순한 이유 중 하나는 모든 공개 인간 텍스트 데이터가 동일하게 생성되는 것이 아니기 때문입니다. 직관적으로, 주로 책이나 위키피디아를 기반으로 훈련된 모델이 유튜브 댓글로만 훈련된 모델보다 더 나은 성능을 보일 것으로 예상할 수 있습니다. 이처럼, 책에서 나온 공개 인간 텍스트 데이터는 유튜브 댓글보다 “고품질”입니다. 이러한 직관은 일부 실증적 관찰에 의해 뒷받침됩니다. 예를 들어, 중복 제거(Lee et al., 2022) 및 데이터 필터링(Gao, 2021)과 같은 데이터 처리 기술이 모델 성능을 향상시키는 것으로 나타났습니다.

그러나 이러한 효과를 모델에 포함시키는 것은 간단하지 않습니다. 우선, 데이터 품질에 대한 표준적인 측정 방법이 없습니다(Mitchell et al., 2023). 대신, 우리는 다음과 같은 다소 모호한 작업 정의에 의존해야 합니다: 비슷한 데이터셋 크기에서 훈련할 때 더 높은 성능을 나타내는 데이터셋은 다른 데이터셋보다 더 높은 품질이다. 최근 연구 결과에 따르면 적절한 필터링을 통해 웹에서 추출한 데이터가 인간이 큐레이팅한 소스( 인간이 큐레이팅한 소스란, 사람들이 직접 선별하고 편집하여 품질을 높인 텍스트 데이터를 의미합니다 )보다 더 나은 성능을 보일 수 있습니다(Penedo et al., 2023). 또한, Xie et al. (2023)은 웹 데이터와 인간이 큐레이팅한 소스로 구성된 데이터셋인 The Pile에서 웹 데이터 비율을 40-70%까지 증가시키는 것이 상당히 높은 성능을 이끌어낸다고 발견했습니다.

이러한 실증적 발견은 평균적으로 인터넷 공개 인간 텍스트 데이터가 인간이 큐레이팅한 소스보다 “낮은 품질”일 수 있지만, 신중한 데이터 처리를 통해 이를 보완할 수 있음을 시사합니다. 이러한 고려 사항을 바탕으로, 우리는 데이터 품질을 고려하여 이전 모델을 얼마나 조정해야 하는지 결정할 수 있습니다. 우리는 이것을 실제로 최적의 성능을 달성하기 위해 “저품질” 데이터가 얼마나 필터링되는지로 구체화합니다.

Penedo et al.(2023)은 Common Crawl의 원시 데이터를 신중하게 필터링하고 중복 제거하여 인간이 큐레이팅한 말뭉치를 능가하는 5T 토큰 데이터셋을 생성했습니다. 이 과정의 필터링 부분은 웹 데이터셋 크기를 약 30% 줄였습니다. 한편, Marion et al.(2023)은 퍼플렉시티 측정을 사용하여 Common Crawl 하위 집합의 중복 제거된 데이터 중 약 50%를 가지치기(pruning)하는 것이 최적의 성능을 이끌어낸다고 발견했습니다. 이러한 실증적 결과를 바탕으로, 우리는 중복 제거된 웹 데이터의 10%에서 40% 사이가 성능을 크게 저하시키지 않고 훈련에 사용될 수 있다고 95% 확신합니다.

 

2.3.2 다중 에폭

데이터 품질 외에도 "토큰 수"를 측정 척도로 사용하는 것은 다중 에폭 훈련의 가능성을 고려하지 않습니다. 데이터 재고를 다중 에폭에 맞게 조정해야 하는 정도는, 동일한 데이터를 여러 에폭에 걸쳐 훈련시키는 것이 새로운 "고유" 데이터로 훈련시키는 것에 비해 얼마나 효과적인지에 따라 달라집니다. Muennighoff et al. (2023)은 이를 실증적으로 조사하여, 다중 에폭으로 훈련된 모델의 성능을 위한 스케일링 법칙을 적용했습니다. 구체적으로, 다중 에폭으로 훈련된 모델의 경우, 이 법칙은 단일 에폭으로 동일한 성능을 내는 모델을 생성할 데이터셋 크기를 추정합니다. 이것이 다중 에폭 훈련에서의 "효과적인 데이터셋 크기"입니다.

저자들은 다중 에폭에서 얻을 수 있는 효과적인 데이터셋 크기의 최대 증가치를 3배에서 15배 사이로 추정하며, 우리는 이 추정을 모델 조정에 반영합니다. 추가적인 에폭이 점점 더 적은 성과를 내므로, 15배라는 상한선은 비효율적인 훈련 절차를 의미하며, 이는 일반적인 관행과는 맞지 않습니다. 이 때문에 우리는 이 값을 5배로 줄입니다.

 

역사적 데이터셋 크기 성장 예측

위 그래프는 역사적 데이터셋 크기 성장 예측을 나타냅니다. 이 그래프는 주어진 연도에 대해 훈련 데이터셋 크기의 성장을 보여줍니다.

이 그래프는 2020년부터 2030년까지의 예상 데이터셋 크기를 보여주며, 시간이 지남에 따라 데이터셋 크기가 기하급수적으로 증가하는 경향을 확인할 수 있습니다.

import numpy as np
import matplotlib.pyplot as plt

# Variables
y0 = 2020  # Base year
Y = np.arange(2020, 2031)  # Years from 2020 to 2030
G_D_mean = 1.1  # Mean growth factor per year (assuming a mean annual growth rate of 10%)
G_D_std = 0.02  # Standard deviation for the lognormal distribution
D_y0 = 100  # Base dataset size

# Generate lognormal distribution for G_D and D_y0
G_D = np.random.lognormal(mean=np.log(G_D_mean), sigma=G_D_std, size=1000)
D_y0_dist = np.random.lognormal(mean=np.log(D_y0), sigma=0.1, size=1000)

# Calculate D_H(y) for each year in Y
D_H = []
for y in Y:
    D_H_y = D_y0_dist * (G_D ** (y - y0))
    D_H.append(np.mean(D_H_y))

# Plotting the graph
plt.figure(figsize=(10, 6))
plt.plot(Y, D_H, marker='o', linestyle='-', color='b', label="Dataset Size Growth Projection")
plt.xlabel("Year")
plt.ylabel("Dataset Size")
plt.title("Historical Dataset Size Growth Projection")
plt.legend()
plt.grid(True)
plt.show()

 

그림 4. 데이터 사용량 예측. 과거 추세와 컴퓨팅 가용성 추정에 스케일링 법칙을 더한 두 가지 데이터 사용량 추정치입니다. 음영 영역은 추정한 중앙값의 90% CI를 나타냅니다. 점은 개별 트레이닝 실행 횟수입니다.

 

2.4. 데이터셋 크기 성장 예측

데이터셋 크기 D의 미래 값을 예측하기 위해, 우리는 과거 성장률을 검토하고 이를 기반으로 추정합니다. 역사적 성장을 추정하기 위해 Epoch(2022) 데이터베이스를 사용합니다. 이 데이터베이스는 300개 이상의 머신 러닝 모델에 대한 주석을 포함하는 포괄적인 데이터베이스입니다. 우리는 2010년부터 2024년 사이에 발표된 논문에서 대규모 언어 모델(LLM)만을 포함하도록 데이터를 필터링하여 약 80개의 데이터 포인트를 얻었습니다.

그런 다음, 데이터셋 크기의 로그 값을 시간에 대해 선형 회귀를 수행합니다. 이 결과는 연간 0.38 오더 오브 매그니튜드(OOM/y)의 중앙값 추정을 도출하며, 이는 연간 약 2.4배 증가에 해당합니다. 부트스트랩된 95% 신뢰 구간은 0.27에서 0.48 OOM/y입니다. 이 추세를 앞으로 예측하기 위해, 우리는 현재 사용되는 가장 큰 데이터셋의 크기(약 10T 토큰)를 기준으로 합니다.

기본적으로 이 역사적 추세를 이 기준선에서 추정하면, 이 수십 년이 끝날 때쯤 시스템이 1,000조(1 quadrillion) 토큰 이상으로 훈련될 수 있음을 시사합니다(그림 4 참조). 데이터 재고가 무제한이라 하더라도 데이터셋 크기의 역사적 성장률은 무한히 지속될 수 없습니다. 과거에는 컴퓨팅 파워의 증가가 더 큰 훈련 데이터셋에 대한 수요를 촉진했으며, 이는 밀집 트랜스포머의 신경 스케일링 법칙( Neural Scaling Laws for Dense Transformers)과 일치합니다. 이 법칙에 따르면 훈련 데이터 크기는 훈련 계산량의 제곱근에 비례해야 합니다(Hoffmann et al., 2022; Dey et al., 2023; Fetterman et al., 2023).

밀집 트랜스포머의 신경 스케일링 법칙( Neural Scaling Laws for Dense Transformers)

Compute-based Dataset Size Growth Projection

다음은 계산 기반 데이터셋 크기 성장 예측을 나타내는 식입니다:

혼합 데이터셋 크기 성장 예측

최종 데이터셋 크기 성장 예측은 역사적 데이터셋 크기와 계산 기반 예측의 가중 평균입니다:

 

그림5: 인간이 생성한 공개 텍스트의 유효 스톡과 주목할 만한 LLM을 훈련하는 데 사용되는 데이터 세트 크기 예측. 스톡과 데이터 세트 크기 예측선의 교차점은 현재의 LLM 개발 추세가 계속될 경우 스톡이 충분히 활용될 것으로 예상되는 중간 연도(2028년)를 나타냅니다. 이 시점에서 모델은 인덱싱된 웹에서 텍스트의 실제 유효 스톡에 근접하는 데이터 세트 크기(약 4e14토큰)로 훈련되며, 이는 과훈련된 모델에서 약 5e28FLOP의 훈련 계산에 해당합니다.

 

그림6: 컴퓨팅 기반 데이터 사용량 예측, 프론티어 모델이 2025년부터 5배까지 과훈련된다고 가정할 때 이 정책은 컴퓨팅 최적 확장 정책보다 더 일찍 데이터의 재고가 효과적으로 사용되도록 합니다.

 

2.5. 공개 인간 텍스트 데이터의 재고가 완전히 소진되는 시점은 언제인가?

우리의 데이터셋 크기 증가 예측과 데이터 재고 추정을 결합하면, 과거 추세가 계속될 경우 훈련 런에서 전체 재고가 사용될 시점을 추정할 수 있습니다. 그림 5는 효과적인 데이터의 예상 가용성과 사용을 보여줍니다. 이러한 예측이 교차하는 지점은 공개 텍스트 데이터가 소진되는 시점을 나타냅니다. 중앙값 소진 연도는 2028년이며, 2032년까지 소진될 가능성이 매우 높습니다. 데이터 재고가 완전히 소진될 때 모델들은 훈련 중에 약 5e28 FLOP를 사용할 것입니다.

우리의 예측에서 중요한 가정은 모델이 계산 최적화(Compute-optimal)로 훈련된다는 것입니다. 그러나 많은 개발자는 대신 추론(Inference) 중에 더 나은 효율성을 달성하기 위해 모델을 "과도하게 훈련(Overtrain)"시키기로 결정할 수 있으며, 이는 더 많은 데이터를 필요로 합니다. 개발자가 선택할 과도한 훈련의 정도는 여러 요인, 특히 추론 중 생성될 토큰 수에 따라 다르며 사전에 예측하기 어렵습니다. 부록 F의 분석에 따르면, 5배의 과도한 훈련이 합리적인 선택이라고 간주합니다. 이는 우리의 예측보다 1년 앞서 데이터 병목 현상을 초래할 것이며, 훈련 계산량은 약 6e27 FLOP에 도달할 것입니다.

우리의 예측에 따르면, 데이터는 이 10년 동안 LLM 훈련에 있어 중요한 병목 현상이 될 수 있습니다, 특히 LLM이 계속해서 과도하게 훈련된다면 말입니다. 이 시간표는 최근 몇 년간의 빠른 진전을 감안할 때 LLM 성능에서 잠재적으로 상당한 개선을 허용합니다(Ho et al., 2024; Sevilla et al., 2022). 그러나 AI의 거의 70년 역사와 비교할 때 이 시간표는 상대적으로 짧습니다. 다가오는 몇 년 동안 상당한 발전이 이루어질 수 있지만, 다가오는 데이터 병목 현상은 AI의 장기적인 발전에 긴급한 도전 과제를 제시합니다. AI 발전이 2030년대까지 계속되려면 새로운 데이터 소스 또는 덜 데이터에 의존하는 기술이 개발되어야 합니다. 이 논문의 다음 섹션에서는 이러한 가능성 중 일부를 다룰 것입니다.

 

3. 공개된 인간 텍스트 데이터 너머

이 논문의 핵심 초점은 공개된 인간 텍스트 데이터에 있지만, 우리의 모델 예측이 더 넓은 의미에서 잘못되었거나 불완전할 수 있는 방식을 이해하는 것이 필요합니다. 중요한 점은 모델이 공개된 인간 텍스트 데이터가 10년 말쯤 완전히 사용될 것이라고 예측하지만, 이것이 반드시 그 시점에서 훈련 데이터가 머신 러닝 확장의 병목 현상이 될 것임을 의미하지는 않는다는 것입니다. 이 섹션에서는 공개된 인간 텍스트 데이터의 병목 현상을 우회할 수 있는 가능한 방법들을 간단히 조사합니다.

예를 들어, 우리의 모델은 공개된 인간 텍스트 데이터 재고를 증가시키는 기본 프로세스에 큰 변화가 없을 것이라고 가정합니다. 이 가정이 깨질 수 있는 단순한 방법 중 하나는 더 많은 사람들이 텍스트를 생성하도록 비용을 지불받는 경우입니다. 이는 특정 유형의 데이터에 대해 소규모로는 가치가 있을 수 있지만, 일반적인 사전 훈련을 위해 상당한 양의 텍스트를 경제적으로 생성하는 방법으로는 가능성이 낮습니다.

공개된 인간 텍스트 데이터의 병목 현상을 우회하기 위한 나머지 전략들 중에서, 특히 유망해 보이는 세 가지 광범위한 기술 범주를 식별합니다. 이들은 다음과 같습니다:

a) 모델 자체를 사용하여 더 많은 데이터를 생성: 모델을 사용하여 합성 데이터를 생성함으로써 훈련에 필요한 데이터를 보충할 수 있습니다.

b) 멀티모달리티와 전이 학습: 다른 도메인이나 기존 데이터셋을 활용하여 언어 모델을 훈련시키는 방법입니다. 예를 들어, 이미지, 소리, 비디오와 같은 멀티모달 데이터를 사용하거나, 도메인 간 전이 학습을 통해 데이터를 보충할 수 있습니다.

c) 비공개 데이터 사용: 공개되지 않은 비공개 데이터를 활용하여 훈련 데이터의 한계를 극복할 수 있습니다. 이러한 데이터는 기업 내부 데이터, 특정 연구 데이터 등으로 구성될 수 있습니다.

이러한 전략들은 공개된 인간 텍스트 데이터의 한계를 넘어 머신 러닝 모델을 확장하는 데 중요한 역할을 할 수 있습니다.

 

3.1 AI 생성 데이터

OpenAI는 하루에 약 1000억 단어를 생성한다고 보고되었습니다(Griffin, 2024). 이를 연간으로 환산하면 약 36.5조 단어에 해당하며, 이는 Common Crawl의 고품질 단어 총 수량 추정치와 크게 다르지 않습니다. 만약 이 접근법이 효과가 있다면, 다양한 모델과 시간을 걸쳐 생성된 출력물을 축적하여 훈련 데이터의 재고가 크게 확장될 수 있습니다. 그러나 생성된(합성) 데이터로 훈련하는 효과에 대한 증거는 현재 혼재되어 있습니다.

한 가지 문제는 모델이 원래 인간 데이터 분포에 대한 정보를 잃을 수 있다는 점입니다. 모델 출력물에 반복적으로 훈련하면 점점 더 동질적이고 비현실적인 출력물이 생성될 수 있습니다(Shumailov et al., 2023). 더 일반적으로, 합성 데이터에 반복적으로 훈련하면 점진적으로 또는 심지어 부정적인 성과를 낳을 수 있으며(Singh et al., 2023), 스케일링 동작이 악화될 수 있습니다(Fan et al., 2023; Dohmatob et al., 2024).

이러한 문제는 더 큰 다양성을 가진 훈련 데이터를 사용하거나(Fan et al., 2023; OpenAI et al., 2019), 인간 생성 데이터와 합성 데이터를 혼합하여 훈련함으로써 어느 정도 완화될 수 있습니다(Gunasekar et al., 2023; Shumailov et al., 2023; Gerstgrasser et al., 2024; Alemohammad et al., 2023). 반면, 수학, 프로그래밍, 게임과 같이 모델 출력이 비교적 쉽게 검증될 수 있는 도메인에서는 합성 데이터로 훈련하는 것이 큰 가능성을 보였습니다(Yang et al., 2023; Liu et al., 2023; Haluptzok et al., 2023). 예를 들어, AlphaZero(Silver et al., 2017)는 셀프 플레이를 통해 훈련되었고, 최근에는 AlphaGeometry(Trinh et al., 2024)가 기하학 문제를 해결하려는 시도로부터 생성된 합성 데이터만을 사용하여 훈련되었습니다.

합성 데이터의 유용성이 출력 검증이 더 어려운 자연어와 같은 도메인에서도 일반화될지 여부는 명확하지 않습니다. 우리는 합성 데이터가 데이터 병목 현상을 우회할 수 있는 가장 유망한 경로 중 하나로 보고 있습니다. 이는 대규모로 훈련 데이터를 생성할 수 있는 잠재력, 특정 도메인에서의 성공 사례, 그리고 사용과 관련된 문제를 완화할 수 있는 잠재적 전략이 존재하기 때문입니다.

 

3.2 멀티모달 및 전이 학습

또 다른 옵션은 텍스트 데이터를 넘어 다른 도메인이나 비텍스트 모달리티(예: 이미지)의 데이터를 사용하여 모델을 훈련하는 것입니다. 부록 D에는 가장 중요한 모달리티의 데이터 재고에 대한 대략적인 추정치가 포함되어 있으며, 현재의 비디오 및 이미지 재고가 데이터 병목 현상을 방지할 만큼 충분하지 않다는 결론을 내립니다. 그러나 금융 시장 데이터, 과학 데이터베이스 등 다양한 유형의 데이터를 제공할 수 있는 다른 소스가 있습니다. 예를 들어, (Stephens et al., 2015)는 2025년까지 매년 200만에서 4000만 테라바이트의 유전체 데이터가 증가할 것으로 예측합니다.

데이터가 풍부한 도메인을 언어 모델링에 활용하는 것이 항상 가능한 것은 아니지만, 특정 사례에서 이는 실현 가능하다는 증거가 이미 있습니다. 예를 들어, 현재의 최첨단 모델인 GPT-4V는 이미지와 텍스트 데이터를 모두 사용하여 훈련됩니다(OpenAI, 2023; Pichai & Hassabis, 2023). Aghajanyan et al. (2023)은 여러 모달리티의 데이터에 대해 이 질문을 연구하고, 이러한 모달리티가 텍스트와 함께 훈련될 때 일부 시너지가 있음을 보여줍니다. 일반적으로, 전이 학습의 실현 가능성을 더 잘 이해하려면 전이 학습을 위한 스케일링 법칙과 같은 추가 연구가 필요합니다(Hernandez et al., 2021).

3.3 비공개 데이터 사용

인덱싱된 웹은 방대하지만, 그 크기는 검색 엔진으로 접근할 수 없는 딥 웹에 비해 작습니다. 딥 웹의 가장 큰 구성 요소는 페이스북, 인스타그램 또는 트위터와 같은 폐쇄형 콘텐츠 플랫폼입니다. 이러한 플랫폼의 일부는 인덱싱되지만, 대다수는 그렇지 않습니다. 또 다른 큰 비공개 텍스트 데이터 저장소는 WhatsApp이나 페이스북 메신저와 같은 인스턴트 메시징 애플리케이션에서 찾을 수 있습니다.

부록 C에서는 콘텐츠 플랫폼과 인스턴트 메시징 앱 모두 각각 약 1,000조(1 quadrillion) 토큰의 데이터를 포함하고 있다고 추정합니다. 이를 인덱싱된 웹의 유사한 크기의 원시 텍스트 재고와 결합하면 총 재고는 3,000조(3 quadrillion) 토큰에 이를 수 있습니다. 이 증가는 인덱싱된 웹의 데이터만을 사용할 때보다 약 1년 반 정도 데이터 병목 현상을 지연시킬 것입니다.

그러나 비공개 데이터의 유용성은 우리의 추정치가 나타내는 만큼 높지 않을 가능성이 큽니다. 첫째, 이러한 데이터로 훈련하는 것은 AI 모델 훈련에 사용될 것으로 기대하지 않고 플랫폼에 데이터를 제출한 사용자의 프라이버시를 심각하게 침해하는 것이며, 법적 문제에 직면할 가능성이 큽니다. 둘째, 소셜 미디어 콘텐츠의 품질은 웹 콘텐츠보다 상당히 낮을 수 있습니다. 마지막으로, 이 데이터는 여러 폐쇄형 플랫폼에 걸쳐 분산되어 있으며, 이는 서로 다른 주체에 의해 제어되기 때문에 하나의 훈련 런에서 모든 데이터를 사용하는 것은 불가능할 가능성이 큽니다.

 

3.4. 데이터 효율성 기술

Ho et al. (2024)에 따르면, LLM 훈련 기술과 알고리즘은 매년 0.4 OOM/y [95%: 0.1, 0.8]의 속도로 개선되고 있습니다. 이는 동일한 성능 수준을 달성하기 위해 매년 대략 0.4 OOM 적은 계산량이 필요함을 의미합니다. 이러한 개선의 일부는 데이터 사용 효율성이 높아졌기 때문입니다. 유사한 샘플 효율성의 큰 향상은 강화 학습에서도 발견되었습니다(Dorner, 2021). LLM 효율성 향상의 정확한 비율이 "더 적은 데이터로 더 많은 일을 수행"하는 것에서 비롯되었는지는 알 수 없지만, 데이터 효율성의 개선 속도가 데이터 재고의 고갈을 보상할 수 있을 가능성이 있습니다.

3.5. 기타 기술

또 다른 가능성은 실제 세계와의 상호작용을 통한 학습입니다. 여기에는 LLM이 사용자로부터 받은 메시지로 훈련하거나, ML 모델이 충분히 정교해져 자율적으로 행동할 수 있게 될 경우, 감각 관찰이나 실제 세계 실험의 결과로부터 학습하는 것이 포함될 수 있습니다. 만약 AI 모델이 실제 세계에 대한 인간 지식을 초과하려면 이러한 형태의 학습이 어느 시점에서 필요해질 것입니다.

추가적으로, 데이터 선택(data selection) 기술의 광범위한 범주가 있습니다. 여기에는 가지치기(pruning) (Marion et al., 2023), 도메인 구성 조정(domain composition tuning) (Xie et al., 2023), 그리고 교육적 학습(curriculum learning) (Campos, 2021)과 같은 기술이 포함됩니다. 그러나 이러한 기술 클래스는 얻는 이익이 미미하기 때문에 매우 유망하지는 않다고 봅니다.

결론

이 논문에서는 공개된 인간 텍스트 데이터의 한계를 우회하기 위한 다양한 전략을 탐구했습니다. AI 모델의 훈련에 있어 데이터 병목 현상을 극복하기 위해 합성 데이터 생성, 멀티모달리티와 전이 학습, 비공개 데이터 사용, 데이터 효율성 기술 및 기타 새로운 학습 방법들이 제안되었습니다. 이러한 접근법은 앞으로의 AI 모델 확장과 성능 향상에 중요한 역할을 할 수 있습니다.

 

4. 논의

이 논문에서는 머신 러닝 시스템 확장에서 직면할 과제와 기회를, 특히 공개된 인간 텍스트 데이터의 유한한 본질을 고려하여 검토했습니다. 우리의 분석은 이 10년이 끝날 무렵, 공개된 인간 텍스트 데이터에 대한 현재의 의존이 지속 불가능해질 수 있는 중요한 분기점에 도달하고 있음을 보여줍니다. 이러한 병목 현상이 다가오고 있음에도 불구하고, 전이 학습과 자체 생성 데이터는 공개된 인간 텍스트 데이터의 제약을 넘어 머신 러닝 시스템의 지속적인 성장과 발전을 가능하게 하는 실행 가능한 유망한 경로로 식별되었습니다.

우리의 결론은 두 가지입니다. 첫째, 공개된 인간 텍스트 데이터에 기반한 현재의 패러다임은 앞으로 10년 동안 지속될 수 없을 것입니다. 둘째, 그 이전에 대체 데이터 소스가 채택될 가능성이 높아 머신 러닝 시스템이 계속 확장될 수 있을 것입니다. 대체 데이터 소스에 대한 우리의 논의는 주로 질적이지만, 데이터 품질에 대한 더 나은 이해가 전이 학습과 합성 데이터의 이점을 정량적으로 추정할 수 있게 할 것입니다. 예를 들어, 전이 학습의 스케일링 실험을 통해 서로 다른 분포 간의 근접성 또는 시너지를 정량화하고(Aghajanyan et al., 2023; Hernandez et al., 2021), 데이터 재고를 효과적으로 확장할 수 있는 새로운 데이터셋을 식별할 수 있습니다.

이 논문은 데이터의 미래 역할을 이해하는 데 관련이 있을 수 있는 몇 가지 고려 사항을 탐구하지 않았습니다. 첫째, 데이터 선택은 모델의 원하는 기술이나 능력에 따라 달라져야 합니다. 경제적 또는 과학적으로 가치 있는 기술과 이를 가르치기 위해 필요한 데이터셋을 식별하면 중요한 데이터 격차가 드러날 수 있습니다. 둘째, 자율적인 실제 세계 탐사와 실험을 수행할 수 있는 시스템과 같은 미래의 머신 러닝 혁신은 학습을 위한 주요 정보 소스를 변화시킬 수 있습니다.

 

5. 결론

우리는 최첨단 언어 모델에 사용되는 훈련 데이터셋 크기와 이용 가능한 인간 생성 공개 텍스트 데이터의 총 재고의 성장 추세를 예측했습니다. 우리의 분석은 데이터셋 크기의 빠른 성장이 계속된다면, 모델이 2026년에서 2032년 사이 어느 시점에 공개된 인간 텍스트 데이터의 전체 공급을 사용할 것이며, 프런티어 모델이 과도하게 훈련된 경우 1~2년 더 일찍 이 시점에 도달할 수 있음을 시사합니다. 이 시점에서 공개된 인간 텍스트 데이터의 가용성은 언어 모델의 추가 확장에서 제한 요소가 될 수 있습니다.

그러나 데이터 효율성의 꾸준한 개선과 전이 학습 및 합성 데이터 생성과 같은 기술의 가능성을 고려할 때, 우리는 공개된 인간 텍스트 데이터의 가용성 문제를 극복할 수 있을 것으로 예상합니다. 장기적인 예측을 할 때, 특히 AI 분야의 빠른 발전 속도를 고려할 때 본질적인 불확실성을 인정하는 것이 중요합니다. 우리의 결과는 데이터 효율성 성장률과 새로운 방법으로 인한 잠재적 성능 향상을 정량화하기 위한 추가 연구의 필요성을 강조합니다. 또한, 미래 연구는 다양한 데이터 도메인에서의 전이 학습의 실현 가능성과 효과, 합성 데이터 생성이 모델 성능에 미치는 영향 등을 탐구해야 합니다.

 

영향 성명서

웹에서 데이터를 수집하여 AI 시스템의 대규모 훈련에 사용하는 관행은 공정성과 정의에 관한 중요한 문제를 제기합니다. 특히, 이러한 시스템을 훈련하는 데 사용된 데이터의 창작자들에게 보상을 제공해야 한다는 강력한 논거가 있습니다. AI는 생산성과 전반적인 복지를 크게 향상시킬 잠재력을 가지고 있지만, 이러한 정의 관련 고려 사항을 반영하여 혜택이 공평하게 분배되도록 하는 것이 중요합니다.

우리의 연구는 소셜 미디어 플랫폼과 메시징 앱의 데이터가 AI 시스템을 훈련시키는 데 중요한 가치 있는 자원이 될 수 있음을 시사합니다. 그러나 이러한 유형의 데이터를 훈련에 사용하는 것은 심각한 프라이버시와 보안 문제를 야기합니다. 적절한 보호 장치가 없으면 이러한 플랫폼에서 민감한 개인 정보가 AI 시스템 사용자에게 노출될 수 있습니다. 비인덱스된 플랫폼 데이터를 훈련에 사용하는 것과 관련된 위험은 이 데이터를 사용하는 데서 얻을 수 있는 잠재적인 이익을 초과할 수 있습니다.

따라서, AI 시스템 훈련에 사용되는 데이터의 공정한 보상 체계와 프라이버시 보호를 위한 강력한 조치가 필요합니다. 이를 통해 AI 발전이 지속 가능한 방식으로 이루어지며, 그 혜택이 데이터 제공자들에게도 공평하게 돌아갈 수 있도록 해야 합니다.

 

2211.04325v2.pdf
0.84MB