Large Language Diffusion Models

https://ml-gsai.github.io/LLaDA-demo/

SOCIAL MEDIA TITLE TAG

SOCIAL MEDIA DESCRIPTION TAG TAG

ml-gsai.github.io

Large Language Diffusion Models

Autoregressive models (ARMs) are widely regarded as the cornerstone of large language models (LLMs). We challenge this notion by introducing LLaDA, a diffusion model trained from scratch under the pre-training and supervised fine-tuning (SFT) paradigm. LLa

arxiv.org

초록
자기회귀 모델(ARM)은 대형 언어 모델(LLM)의 초석으로 널리 간주됩니다. 본 연구에서는 사전 학습과 지도 미세조정(SFT) 패러다임 하에 처음부터 학습된 확산 모델인 LLaDA를 소개하며, 이러한 인식을 도전합니다. LLaDA는 전방향 데이터 마스킹 과정과, 마스킹된 토큰을 예측하기 위해 기본 트랜스포머로 파라미터화된 역방향 과정을 통해 분포를 모델링합니다. 우도 경계를 최적화함으로써, 이는 확률적 추론을 위한 원칙적인 생성적 접근법을 제공합니다. 광범위한 벤치마크에서 LLaDA는 강력한 확장성을 보여주며, 자체 구성한 ARM 기준선보다 우수한 성능을 기록합니다. 특히, LLaDA 8B는 인컨텍스트 학습에서 LLaMA3 8B와 같은 강력한 LLM과 경쟁할 만하며, SFT 이후 다중 회차 대화와 같은 사례 연구에서 인상적인 명령 수행 능력을 나타냅니다. 더욱이, LLaDA는 역전 저주 문제를 해결하여, 역전 시의 완성 과제에서 GPT-4o를 능가합니다. 우리의 연구 결과는 확산 모델이 ARM에 대한 실행 가능하고 유망한 대안임을 확립하며, 앞서 논의한 주요 LLM 기능들이 본질적으로 ARM에만 국한된 것이 아님을 시사합니다.

프로젝트 페이지 및 코드: https://ml-gsai.github.io/LLaDA-demo/

기계 학습, ICML

우도 경계란 모델이 데이터를 생성하는 확률, 즉 로그 우도를 직접 최대화하는 대신에 최적화할 수 있는 계산 가능한 하한값을 의미합니다. 보통 이는 증거 하한(Evidence Lower Bound, ELBO)이라고도 불리며, 모델이 실제 데이터 분포에 근접하도록 유도하는 역할을 합니다.

확률 우도 경계라고 표현하는 것은, 모델의 학습 목표가 단순히 데이터가 발생할 확률을 높이는 것이 아니라, 그 확률의 하한값을 최적화함으로써 안정적인 확률적 추론을 가능하게 하는 접근법임을 강조하는 것입니다.

1 서론

지금 증명된 것은 한때 단지 상상이었다.
— William Blake

대형 언어 모델(LLM) (Zhao et al., 2023)은 전적으로 생성 모델링(generative modeling)의 틀 안에 속한다. 구체적으로, LLM은 실제이지만 아직 알려지지 않은 언어 분포 pdata(⋅) 를 포착하기 위해, 최대 우도 추정 혹은 동등하게는 두 분포 간 KL 발산 최소화를 통해 모델 분포 pθ(⋅) 를 최적화한다:

그림 1: 제로/소수 샷 벤치마크. 우리는 LLaDA를 처음부터 8B 파라미터라는 전례 없는 규모로 확장하여 강력한 LLM (Dubey et al., 2024)과 경쟁할 만한 성능을 달성하였다.

주요 접근 방식은 흔히 ‘다음 토큰 예측 패러다임’이라고 불리는 자기회귀 모델링(ARM)에 의존하여 모델 분포를 정의한다:

이 패러다임은 (Radford, 2018; Radford et al., 2019; Brown, 2020; OpenAI, 2022) 놀라울 정도로 효과적임이 입증되어 현재 LLM의 기초가 되었다. 그럼에도 불구하고 근본적인 의문이 남는다: LLM이 보여주는 지능을 달성하는 유일한 실행 가능한 경로가 자기회귀 패러다임뿐인가?

우리는 그 답이 단순한 “예”가 아님을 주장한다. 이전에 간과되었던 핵심 통찰은, LLM의 본질적인 특성을 근본적으로 뒷받침하는 것은 자기회귀 공식화(즉, 식 (2)) 자체가 아니라 생성 모델링 원칙(즉, 식 (1))이라는 점이다. 다만, LLM의 특정 고유 한계는 그들의 자기회귀적 성격에서 직접 기인할 수 있다.

특히, 우리는 확장성이 Transformer(Vaswani, 2017), 모델 및 데이터 크기, 그리고 식 (1)의 생성 모델링 원칙에 의해 유도되는 Fisher 일관성¹ 간의 상호 작용의 결과이지, ARM의 고유한 결과가 아님을 주장한다. 시각 데이터에 대한 확산 트랜스포머(Bao et al., 2023; Peebles & Xie, 2023)의 성공(Brooks et al., 2024)은 이러한 주장을 뒷받침한다.

¹ 이는 무한한 데이터, 충분히 큰 네트워크, 그리고 최적의 학습 조건 하에서 실제 데이터 분포를 복원할 수 있는 능력을 의미한다. (Fisher, 1922)

더욱이, 명령 수행과 인컨텍스트 학습(Brown, 2020)의 능력은 ARMs의 독점적인 이점이 아니라, 구조적으로 일관된 언어적 과제에 대해 모든 적절한 조건부 생성 모델의 고유한 특성으로 보인다. 또한, ARM은 무손실 데이터 압축기(Deletang et al.,; Huang et al., 2024b)로 해석될 수 있지만, 충분히 표현력이 뛰어난 확률 모델은 유사한 능력을 달성할 수 있다(Shannon, 1948).

그럼에도 불구하고, LLM의 자기회귀적 특성은 주목할 만한 문제점을 내포한다. 예를 들어, 토큰을 순차적으로 하나씩 생성하는 방식은 높은 계산 비용을 초래하며, 왼쪽에서 오른쪽으로 진행되는 모델링은 역방향 추론 과제(Berglund et al., 2023)에서 효과를 제한한다. 이러한 고유 한계는 LLM이 더 길고 복잡한 과제를 처리하는 데 제약을 가한다.

이러한 통찰에 힘입어, 우리는 LLaDA(Large Language Diffusion with mAsking)를 도입하여 LLM이 보여주는 능력이 식 (2)의 ARM을 넘어서 생성 모델링 원칙에서 발생할 수 있는지 조사하고자 한다. 전통적인 ARM과 달리, LLaDA는 분리된 무작위 마스킹 과정을 포함하고 그 역방향 과정을 근사하기 위해 마스크 예측기를 학습시키는 마스킹 확산 모델(MDM) (Austin et al., 2021a; Ou et al., 2024)을 활용한다. 이러한 설계는 LLaDA가 양방향 의존성을 갖는 모델 분포를 구성하고 로그 우도의 하한을 최적화할 수 있게 하여, 기존 LLM에 대한 탐구되지 않은 원칙적 대안을 제공한다.

우리는 데이터 준비, 사전 학습, 지도 미세조정(SFT), 평가의 표준 파이프라인을 채택하여 LLaDA를 전례 없는 8B 크기의 언어 확산 모델로 확장하였다. 특히, LLaDA 8B는 2.3조 토큰을 대상으로 0.13백만 H800 GPU 시간으로 처음부터 사전 학습되었고, 이후 450만 쌍의 데이터에 대해 SFT가 진행되었다. 언어 이해, 수학, 코드, 중국어 등 다양한 과제에서 LLaDA는 다음과 같은 기여를 보여준다:

확장성. LLaDA는 10²³ FLOPs의 계산 예산까지 효과적으로 확장되며, 동일한 데이터로 학습된 자체 구성 ARM 기준선과 비교하여 MMLU, GSM8K 등 여섯 개 과제에서 유사한 결과를 달성한다.
인컨텍스트 학습. 주목할 만하게, LLaDA 8B는 거의 모든 15개의 표준 제로/소수 샷 학습 과제에서 LLaMA2 7B (Touvron et al., 2023)를 능가하며, LLaMA3 8B (Dubey et al., 2024)와 동등한 성능을 보인다.
명령 수행. LLaDA는 SFT 후 다중 회차 대화와 같은 사례 연구에서 입증된 바와 같이 명령을 따르는 능력을 크게 향상시킨다.
역방향 추론. LLaDA는 순방향 및 역방향 과제 전반에 걸쳐 일관된 성능을 보이며 역방향 저주(Berglund et al., 2023)를 효과적으로 극복한다. 특히, 역방향 시 완성 과제에서 GPT-4o를 능가한다.

그림 2: LLaDA의 개념적 개요.
(a) 사전 학습. LLaDA는 모든 토큰에 동일한 비율로 독립적으로 무작위 마스크(t ∼ U[0, 1])가 적용된 텍스트로 학습된다.
(b) SFT. 응답 토큰에 대해서만 마스킹이 적용될 수 있다.
(c) 샘플링. LLaDA는 t = 1(완전 마스킹)에서 t = 0(마스킹 해제)까지의 확산 과정을 시뮬레이션하며, 유연한 재마스킹 전략으로 각 단계에서 모든 마스크를 동시에 예측한다.

2 접근 방법
본 절에서는 그림 2에 제시된 바와 같이, LLaDA의 확률적 공식화²와 함께 사전 학습, 지도 미세조정, 추론 과정을 소개한다.

² 여기서는 LLaDA 접근 방식에 초점을 둔다. 보다 엄밀한 MDM 공식화는 관심 있는 독자를 위해 부록 A에 제시되어 있다.

2.1 확률적 공식화
식 (2)에 제시된 ARM과 달리, LLaDA는 전방향(forward) 과정과 역방향(reverse) 과정을 통해 모델 분포 pθ(x)를 정의한다(Austin et al., 2021a; Ou et al., 2024). 전방향 과정은 토큰을 점진적으로 마스킹하여, t=1이 되었을 때 시퀀스 전체가 마스킹되도록 한다. t∈[0,1] 범위에서 시퀀스 x는 확률 t로 무작위 마스킹되고, 확률 1−t로는 마스킹되지 않는다. 역방향 과정은 마스킹된 데이터를 순차적으로 예측하여 복원한다.

흥미롭게도, LLaDA는 토큰을 마스킹할 때 0에서 1 사이의 무작위로 변동하는 마스킹 비율(Devlin, 2019)을 사용한다. 이는 부분적 혹은 완전 마스킹을 모두 다룰 수 있는 유연한 학습을 가능하게 하며, 실제로 인컨텍스트 학습에서 강력한 성능을 보인다. 또한 이산 역방향 과정을 통해 극단적인 환경에서도 Fisher 일관성(Fisher, 1922)을 보장하여, 데이터와 파라미터 규모가 커지는 상황에서도 높은 확장 가능성을 시사한다.

“이 마스킹 복원 손실을 최소화하면 결과적으로 모델이 log⁡pθ(x)를 최대화하는 효과를 얻는다.”
라는 뜻으로 이해하시면 됩니다.

2.2 사전 학습
LLaDA는 마스크 예측기로 Transformer(Vaswani, 2017)를 사용하며, 이는 기존 LLM과 유사한 구조를 가진다. 그러나 LLaDA는 예측 시 전체 입력을 볼 수 있는 구조이므로, 인과적(causal) 마스크를 사용하지 않는다.

우리는 서로 다른 크기의 LLaDA 모델을 두 가지(1B와 8B)로 학습하였다. 여기서는 LLaDA 8B와 LLaMA3 8B (Dubey et al., 2024)의 모델 아키텍처를 요약하고, 자세한 내용은 부록 B.2에 제시한다. 대부분의 하이퍼파라미터를 일관되게 유지하되, 몇 가지 필요한 수정 사항을 적용하였다. 예를 들어, 단순화를 위해 그룹화된 쿼리 어텐션(grouped query attention)(Ainslie et al., 2023) 대신 일반적인(바닐라) 멀티헤드 어텐션을 사용하였다. 이는 LLaDA가 KV 캐싱과 호환되지 않아 key와 value 헤드의 개수가 달라지기 때문이다. 그 결과 어텐션 레이어의 파라미터 수가 늘어나므로, 유사한 모델 크기를 유지하기 위해 FFN 차원을 줄였다. 또한, 우리의 데이터에 맞춰 조정된 토크나이저(Brown, 2020)를 사용함에 따라 어휘집(vocabulary) 크기가 약간 다르다.

LLaDA 모델은 총 2.3조(2.3T) 토큰으로 구성된 데이터셋을 사용해 사전 학습되었으며, 이는 기존 대형 언어 모델(LLM)(Touvron et al., 2023; Chu et al., 2024)과 매우 유사한 데이터 프로토콜을 따르고, 어떠한 특수 기법도 추가 적용하지 않았다. 데이터는 온라인 코퍼스에서 가져왔으며, 수작업으로 설계된 규칙과 LLM 기반 접근법을 통해 저품질 콘텐츠를 필터링했다. 일반 텍스트뿐 아니라 고품질 코드, 수학, 다국어 데이터도 포함된다. 데이터 소스와 도메인의 혼합 비율은 축소된(scale-down) ARM 기준에 따라 결정하였다. 사전 학습 시 시퀀스 길이를 4096 토큰으로 고정하여 사용했으며, 동일 규모와 데이터셋을 사용하는 ARM과 유사한 0.13백만 H800 GPU 시간이 소요되었다.

훈련 시퀀스 x_0에 대해, 구간에서 무작위로 t를 샘플링하고, 각 토큰을 독립적으로 동일 확률 로 마스킹하여 x_t를 얻는다(그림 2(a) 참고). 그리고 식 (3)을 몬테카를로 방법으로 추정하여 확률적 경사하강법(stochastic gradient descent)으로 학습한다. 추가로 Nie et al. (2024)를 따라, LLaDA가 가변 길이 데이터를 다루는 능력을 높이기 위해 사전 학습 데이터 중 1%는 [1,4096]범위에서 균등하게 샘플링된 임의 길이로 설정하였다.

우리는 훈련을 중단하지 않고 진행하면서 학습 과정을 모니터링하기 위해 Warmup-Stable-Decay(Hu et al., 2024) 학습률 스케줄러를 사용하였다. 구체적으로, 초기 2000번 이터레이션 동안 학습률을 0에서 4 × 10^-4까지 선형으로 증가시킨 후, 4 × 10^-4 로 유지했다. 1.2T 토큰을 처리한 뒤에는 학습률을 1 × 10^-4 로 낮추고, 이후 0.8T 토큰 동안 해당 값을 유지하여 학습의 안정성을 확보했다. 마지막 0.3T 토큰에 대해서는 학습률을 1 × 10^-4 에서 1 × 10^-5 로 선형적으로 감소시켰다. 또한, weight decay를 0.1로 설정한 AdamW(Loshchilov, 2017) 옵티마이저, 배치 크기 1280, 그리고 GPU당 로컬 배치 크기 4를 사용했다. 8B 실험은 단 한 번 수행되었으며, 하이퍼파라미터 튜닝은 별도로 진행하지 않았다.

2.4 추론(Inference)
생성 모델로서 LLaDA는 새로운 텍스트를 샘플링할 수 있을 뿐 아니라, 후보 텍스트의 우도를 평가하는 기능도 제공한다.

3 실험(Experiments)
우리는 LLaDA의 확장성(scalability), 지시문 수행 능력(instruction-following), 그리고 인컨텍스트 학습(in-context learning) 능력을 표준 벤치마크에서 평가한 뒤, 보다 통제된 데이터셋에서의 분석과 사례 연구(case study)를 통해 종합적인 평가를 수행한다.

3.1 언어 과제에서의 LLaDA 확장성

먼저, 우리가 자체적으로 구성한 ARM(autoregressive model) 기준선과 비교하여, 다운스트림 과제에서 LLaDA의 확장성을 조사한다. 구체적으로, 1B 규모에서 LLaDA와 ARM은 동일한 아키텍처, 데이터, 기타 모든 설정을 공유하도록 했다. 더 큰 규모에서는, 자원 제약으로 인해 부록 B.2에서 자세히 설명한 대로, 동일한 데이터로 학습하되 모델 크기가 약간 다른 LLaDA와 ARM 모델의 결과도 보고한다. 평가 시에는 계산 비용(computational cost)을 통합된 확장 지표(scaling metric)로 사용했으며, 여섯 가지 표준적이고 다양한 과제에 초점을 맞추었다.

그림 LABEL:fig:scaling에서 보이듯, LLaDA는 전반적으로 ARM과 매우 경쟁력 있는 양상을 보이며, 특히 MMLU와 GSM8K 같은 과제에서 더 강력한 확장성을 나타낸다. PIQA처럼 성능이 다소 뒤처지는 과제에서도, 규모가 커질수록 LLaDA가 ARM과의 격차를 좁힌다. 특이치(outlier)의 영향이 상당할 수 있음을 고려하여, 오해를 피하기 위해 정량적 확장 곡선의 피팅은 수행하지 않았다. 그럼에도 불구하고 결과는 LLaDA의 확장성이 분명히 드러남을 보여준다.

Nie et al. (2024)는 동일한 우도(likelihood)에 도달하기 위해, MDM이 ARM보다 16배 더 많은 계산량을 필요로 한다고 제안한다. 그러나 본 연구에서는 보다 보편적으로 적용 가능한 결론을 도출하기 위해, 몇 가지 중요한 차이점을 지적한다. 특히, 우도는 다운스트림 과제 성능을 직접적으로 반영하지 않는 상대적으로 간접적인 지표이며, 확산(diffusion)은 우도의 하한(bound)을 최적화하므로 ARM과 직접 비교가 어렵다. 또한, 우리는 Nie et al. (2024)에서 다룬 계산 범위( 10^18~10^20 )를 이번 연구에서 10^18~10^23 범위로 확장하였다.

표 1: 사전 학습된 LLM의 벤치마크 결과.
‘∗*’는 LLaDA 8B Base, LLaMA2 7B Base, LLaMA3 8B Base를 동일 프로토콜(부록 B.5 참고)로 평가했음을 의미한다. ‘†’ 및 ‘¶’ 표시는 각각 Chu et al. (2024); Yang et al. (2024)와 Bi et al. (2024)에서 인용한 결과다. 괄호 안 숫자는 평가 시 사용된 샷(shots) 수이며, “-”는 알려지지 않은 데이터를 의미한다.

괄호 안의 숫자는 샷(shot)의 개수.
“-”는 해당 데이터가 알려지지 않았음을 의미함.

3.2 벤치마크 결과

우리는 LLaDA 8B의 인컨텍스트 학습(in-context learning) 및 지시문 수행(instruction-following) 능력을 종합적으로 평가하기 위해, 유사 규모의 기존 LLM(Touvron et al., 2023; Dubey et al., 2024; Chu et al., 2024; Yang et al., 2024; Bi et al., 2024; Jiang et al., 2023)과 비교 실험을 수행하였다. 과제 선정 및 평가 프로토콜은 기존 연구와 일치하도록 구성했으며, 일반 과제, 수학, 코드, 중국어 분야에서 널리 쓰이는 15개 벤치마크를 포함한다. 자세한 내용은 부록 B.5에 제시하였다. 좀 더 직접적인 비교를 위해, 우리는 기존 대표 LLM(Touvron et al., 2023; Dubey et al., 2024)을 동일 구현 환경에서 재평가하였다.

표 2: 사후 학습(포스트 트레이닝)을 거친 LLM의 벤치마크 결과.
LLaDA는 SFT 절차만을 사용하였으며, 다른 모델들은 강화학습(RL) 기반 정렬을 추가로 적용하였다.
∗*는 LLaDA 8B Instruct, LLaMA2 7B Instruct, LLaMA3 8B Instruct를 동일 프로토콜(부록 B.5 참고)로 평가했음을 의미한다.
‘†’ 및 ‘¶’ 표시는 각각 Yang et al. (2024)와 Bi et al. (2024)에서 인용한 결과다.
괄호 안 숫자는 인컨텍스트 학습 시 사용된 샷(shot) 수를 나타내며, “-”는 알려지지 않은 데이터를 의미한다.

사전 학습(Pre-training)
표 1에서 확인할 수 있듯이, 2.3T 토큰으로 사전 학습된 LLaDA 8B는 거의 모든 과제에서 LLaMA2 7B를 상회하며, 전반적으로 LLaMA3 8B와 경쟁할 만한 성능을 보인다. 특히 수학과 중국어 과제에서 강점을 보이는데, 이는 일부 과제에서 다소 약한 성능을 보이는 이유(데이터 품질 및 분포 차이, 대규모 LLM 데이터셋이 비공개인 상황 등)와 같은 맥락에서 비롯된다고 추정한다.

주목할 만한 점은, GSM8K 예시에 대해 데이터 누출(data leakage)의 가능성을 철저히 배제했다는 것이다. 먼저, 그림 LABEL:fig:scaling에서 보이듯 LLaDA는 GSM8K에 대해 ARM 기준선보다 우수한 성능을 나타냈다. 또한, 부록 B.7에 제시된, GSM8K와 유사하지만 전혀 보지 못한(fully unseen) 과제(Ye et al., 2024)에 대해서도 동일한 결론이 유지되었다.

사후 학습(Post-training)
표 2에서 LLaDA 8B Instruct와 기존 LLM의 성능을 비교하였다. SFT를 거치면서 대부분의 다운스트림 과제에서 LLaDA 성능이 향상되었지만, MMLU처럼 일부 지표에서는 성능이 하락했다. 이는 SFT 데이터 품질이 최적이 아니었을 가능성 때문이라고 추정한다. 전반적으로, 우리는 강화학습(RL) 기반 정렬을 수행하지 않았으므로, LLaMA3 8B Instruct보다 다소 낮은 결과를 보이나, 많은 지표에서 격차가 크지 않다. 주목할 점은, SFT만으로도 LLaDA가 상당히 뛰어난 지시문 수행 능력을 보여준다는 것이며, 이는 3.4절에서 자세히 다룬다. RL 기반 정렬은 향후 과제로 남긴다.

종합 평가
데이터 공개 수준의 제한이 있음에도 불구하고, 우리는 표준화된 절차를 채택하고 다양한 과제를 도입함으로써 LLaDA가 보여주는 뛰어난 역량을 충분히 입증했다고 본다. 우리가 아는 한, LLaDA는 현재 유일하게 자기회귀적이지 않은(non-autoregressive) 경쟁력 있는 모델이다.

3.3 역방향 추론 및 분석

표 3: 시 완성 과제에서의 비교

표 4: 샘플링 과정 및 생성된 다중 회차 대화의 시각화

LLaDA의 응답에서 어두운 색은 샘플링 후반 단계에서 예측된 토큰을 나타내며, 밝은 색은 초기 예측을 의미한다.

모델의 역방향 추론 능력을 정량화하기 위해(Berglund et al., 2023), 우리는 Allen-Zhu & Li (2023)에서 제시한 프로토콜을 따랐다. 구체적으로, 496쌍의 유명한 중국 시 구절을 모은 데이터셋을 구성하였다. 시의 한 구절이 주어지면, 모델은 추가적인 미세조정 없이 후속 구절(순방향) 또는 선행 구절(역방향)을 생성하는 과제가 주어진다. 예제는 부록 B.8에서 확인할 수 있다. 이러한 설정은 이전 연구(Nie et al., 2024; Kitouni et al., 2024)보다 단순하고 현실적인 평가 방식을 제공한다.

표 3에서 보이듯, LLaDA는 역방향 저주(reversal curse; Berglund et al., 2023)를 효과적으로 극복하여, 순방향과 역방향 과제 모두에서 일관된 zero-shot 성능을 보여준다. 반면, Qwen 2.5와 GPT-4o는 두 과제 간에 상당한 성능 차이를 보인다. 순방향 생성 결과는 두 ARM 모델이 훨씬 더 큰 데이터셋과 높은 계산 자원을 활용함으로써 강력한 성능을 보인다는 것을 확인시켜 주지만, 역방향 과제에서는 LLaDA가 두 모델을 큰 폭으로 능가한다.

우리는 역방향 과제를 위해 특별히 설계한 부분은 없었음을 강조한다. 직관적으로, LLaDA는 토큰들을 유도 편향(inductive bias) 없이 균일하게 취급하여 균형 잡힌 성능을 달성한다. 자세한 내용은 부록 A.2를 참조하라.

또한, 부록 B.3 및 부록 B.6에 자세히 기술된 바와 같이, 리마스킹(remasking) 전략과 샘플링 단계의 효과도 분석하였다.

3.4 사례 연구
표 3.3에 제시된 LLaDA 8B Instruct가 생성한 샘플을 통해, 모델의 지시문 수행 능력을 보여준다. 첫째, 해당 표는 LLaDA가 자기회귀적이지 않은 방식으로 일관되고 유창하며 확장된 텍스트를 생성할 수 있는 능력을 보여준다. 둘째, 모델의 다중 회차 대화 능력을 강조하며, 대화 내역을 효과적으로 유지하고 여러 언어에 걸쳐 문맥에 적합한 응답을 생성하는 모습을 확인할 수 있다. 우리가 아는 한, 기존 ARM에서 벗어나 최초로 이러한 채팅 기능을 구현한 LLaDA의 성능은 인상적이다. 리마스킹 및 추론 과제에 관한 추가 사례 연구는 부록 B.9를 참고하라.

4 관련 연구
확산 모델(Diffusion models) (Sohl-Dickstein et al., 2015; Ho et al., 2020; Song et al., 2020)은 시각 영역에서는 탁월한 성능을 보였으나, 광범위한 연구에도 불구하고 대형 언어 모델(LLM)에 대해서는 아직 검증되지 않았다.

텍스트 데이터를 연속화하여 확산 모델을 직접 적용하는 간단한 접근법이 있다 (Li et al., 2022; Gong et al., 2022; Han et al., 2022; Strudel et al., 2022; Chen et al., 2022; Dieleman et al., 2022; Richemond et al., 2022; Wu et al., 2023; Mahabadi et al., 2024). 또는, 일부 방법은 이산(discrete) 분포의 연속적 파라미터를 모델링하기도 한다 (Lou & Ermon, 2023; Graves et al., 2023; Lin et al., 2023; Xue et al., 2024). 그러나 확장성(scalability)은 여전히 도전 과제로 남아 있는데, 1B 파라미터 모델이 ARM과 유사한 성능을 달성하기 위해서는 ARM의 64배에 달하는 계산량이 필요하다 (Gulrajani & Hashimoto, 2024).

또 다른 접근법은 연속 확산(continuous diffusion)을 새로운 전방향 및 역방향 동역학을 갖는 이산 프로세스로 대체하는 것이다 (Austin et al., 2021a). 이로 인해 다양한 변형들이 등장하게 되었다 (Hoogeboom et al., 2021b, a; He et al., 2022; Campbell et al., 2022; Meng et al., 2022; Reid et al., 2022; Sun et al., 2022; Zheng et al., 2023; Chen et al., 2023; Gat et al., 2024; Zheng et al., 2024; Sahoo et al., 2024; Shi et al., 2024). 특히, Lou et al. (2023)는 마스크 확산(masked diffusion)이 이산 확산의 특별한 경우로서, GPT-2 규모에서 ARM과 동등하거나 그 이상의 perplexity를 달성함을 보여주었다. Ou et al. (2024)는 기본적인 이론적 결과들을 확립하였으며, 이는 우리의 모델 설계, 학습 및 추론에 동기를 부여하였다(부록 A 참조). Nie et al. (2024)는 MDM이 GPT-2 규모에서 질문 응답(question answering)과 같은 언어 과제에 어떻게 활용될 수 있는지를 탐구하였고, Gong et al. (2024)는 MDM 공식화 내에서 ARM을 미세조정하였다. 그러나 이러한 개선은 특정 지표에 한정되어 있으며, 이 접근법이 강력한 LLM과 비교 가능한 기초 모델(foundation model)을 제공할 수 있을지는 종합적인 평가 하에서는 불분명하다.

이에 비해, 본 연구는 MDM을 처음부터 8B 파라미터라는 전례 없는 규모로 확장하여 LLaMA 3와 같은 선도적인 LLM과 경쟁할 만한 성능을 달성하였다.

특히, 이미지 생성에 관한 평행 연구(Chang et al., 2022, 2023)는 텍스트 데이터에 적용된 MDM과 일치하는 결과를 보여준다.

5 결론 및 논의
어려움 속에 기회가 있다.
placeholder, placeholder, placeh — 알베르트 아인슈타인

우리는 확산 모델에 기반한, 원칙적이며 이전에는 탐구되지 않았던 대형 언어 모델링 접근법인 LLaDA를 소개한다. LLaDA는 확장성, 인컨텍스트 학습, 그리고 지시문 수행 능력에서 강력한 성능을 보여주며, 강력한 LLM과 견줄 만한 결과를 달성한다. 또한 LLaDA는 양방향 모델링과 향상된 강인성 등 독특한 장점을 제공하여, 기존 LLM들이 가진 여러 내재적 한계를 효과적으로 극복한다. 우리의 연구 결과는 확산 모델이 실행 가능하고 유망한 대안임을 입증할 뿐 아니라, 이러한 필수 능력들이 본질적으로 ARM에만 내재되어 있다는 기존의 가정에 의문을 제기한다.

유망함에도 불구하고, 확산 모델의 잠재력은 아직 완전히 탐구되지 않았다. 본 연구의 여러 한계는 향후 연구에 있어 중요한 기회를 제공한다.

계산 자원 제한으로 인해, LLaDA와 ARM 간의 직접 비교—예를 들어 동일한 데이터셋으로 학습하는 경우—는 10²³ FLOPs 미만의 예산 내에서만 이루어졌다. 가능한 최대 규모의 LLaDA 모델을 학습하고 그 잠재력을 보여주기 위해 자원을 집중한 결과, ARM 기준선을 동일한 규모로 확장할 수 없었다. 또한, LLaDA를 위해 특수한 어텐션 메커니즘이나 위치 임베딩을 설계하지 않았으며, 시스템 차원의 구조 최적화도 적용하지 않았다. 추론 측면에서는, 가이드 메커니즘(Dhariwal & Nichol, 2021; Ho & Salimans, 2022)에 대한 우리의 탐구가 아직 초기 단계에 머물러 있으며, LLaDA는 현재 추론 하이퍼파라미터에 민감하게 반응한다. 게다가, LLaDA는 성능 향상과 인간 의도에 부합하도록 하는 데 중요한 강화 학습 정렬(Ouyang et al., 2022; Rafailov et al., 2024) 과정을 아직 거치지 않았다.

앞으로 LLaDA의 규모는 주요 경쟁 모델들(Achiam et al., 2023; Dubey et al., 2024; Google, 2024; Anthropic, 2024; Yang et al., 2024; Liu et al., 2024)보다 여전히 작으므로, 그 능력을 완전히 평가하기 위해서는 추가적인 규모 확장이 필요하다. 또한, LLaDA의 다중 모달 데이터 처리 능력은 아직 탐구되지 않았다. LLaDA가 프롬프트 튜닝 기법(Wei et al., 2022)에 미치는 영향과 에이전트 기반 시스템(Park et al., 2023; Wang et al., 2024)으로의 통합 역시 완전히 이해되지 않았다. 마지막으로, LLaDA의 사후 학습에 대한 체계적인 조사가 O1과 유사한 시스템(OpenAI, 2024; Guo et al., 2025)의 개발을 촉진할 수 있을 것으로 기대된다.

영향력 성명서
본 연구는 확산 기반 대안을 제시함으로써 LLM에서 지배적인 자기회귀 모델링의 우위에 도전한다. 우리의 연구 결과는 대화형 인공지능, 코드 생성, 그리고 복잡한 추론 과제 등에서 잠재적으로 응용될 수 있는 자연어 처리 분야의 대안적 확률론적 패러다임을 탐구할 수 있는 새로운 길을 연다.

그러나 확산 기반 모델은 전통적인 LLM과 마찬가지로, 대규모 학습이 환경에 미치는 영향, 유해하거나 오해의 소지가 있는 콘텐츠 생성의 잠재적 악용, 그리고 학습 데이터에 내재한 편향의 증폭과 같은 사회적 문제들을 야기할 수 있다. 이러한 문제들을 해결하는 것은 확산 기반 언어 모델의 책임 있는 개발 및 배포를 보장하는 데 필수적이다.

감사의 말씀
본 연구는 중국국가자연과학재단(No. 92470118), 베이징자연과학재단(No. L247030), 베이징 노바 프로그램(No. 20220484044), 인민대학교 ‘더블퍼스트 클래스’ 이니셔티브를 위한 주요 혁신 및 기획 융합 플랫폼, 중앙 대학의 기초 연구 기금, 인민대학교 연구 기금(22XNKJ13), 그리고 앤트 그룹 연구 기금의 지원을 받았다. 본 연구는 교육부 차세대 지능형 검색 및 추천 공학연구센터에서 일부 수행되었다.

뭘 말하고 싶은진 알겠는데, 굳이 읽어야하나?

'인공지능' 카테고리의 다른 글

Transformers without Normalization (2)	2025.03.27
SANA-Sprint: One-Step Diffusion with Continuous-TimeConsistency Distillation (3)	2025.03.23
Layer Normalization (4)	2025.02.17
DeepSeek-V3 Technical Report (2)	2025.02.14
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (2)	2025.02.12

JunHan's AI Factory

Large Language Diffusion Models

3.1 언어 과제에서의 LLaDA 확장성

'인공지능' 카테고리의 다른 글

티스토리툴바

Large Language Diffusion Models

3.1 언어 과제에서의 LLaDA 확장성

'인공지능' 카테고리의 다른 글

'인공지능' Related Articles

티스토리툴바