본문 바로가기

인공지능

Anchored Preference Optimization and Contrastive Revisions: Addressing Underspecification in Alignment

https://arxiv.org/abs/2408.06266

 

Anchored Preference Optimization and Contrastive Revisions: Addressing Underspecification in Alignment

Large Language Models (LLMs) are often aligned using contrastive alignment objectives and preference pair datasets. The interaction between model, paired data, and objective makes alignment a complicated procedure, sometimes producing subpar results. We st

arxiv.org

 

초록
대규모 언어 모델(Large Language Models, LLMs)은 종종 대조적 정렬 목적(contrastive alignment objectives)과 선호 쌍(preference pair) 데이터셋을 사용해 정렬(alignment)된다. 그러나 모델, 쌍 데이터, 정렬 목적 간의 상호작용은 정렬 과정을 복잡하게 만들며, 때로는 기대 이하의 결과를 낳는다. 본 연구에서는 이를 분석하여 다음과 같은 두 가지 주요 발견을 제시한다. (i) 응답 자체가 대조적(contrastive)일 때 선호 데이터가 더 나은 학습 신호를 제공하며, (ii) 정렬 목적이 학습 중 모델에 대한 제어력을 더 많이 부여할수록 성능이 개선된다.

 

이러한 통찰을 바탕으로, 우리는 Contrastive Learning from AI Revisions (CLAIR)라는 새로운 데이터 생성 방법을 제안한다. 이는 보다 대조적인 선호 쌍을 생성하도록 설계되었다. 또한, 우리는 제어 가능성이 높고 더 안정적인 정렬 목적 함수인 Anchored Preference Optimization (APO)를 제시한다.

 

Llama-3-8B-Instruct 모델을 다양한 비교 가능한 데이터셋과 정렬 목적 함수로 정렬하고, 인간 평가와 높은 상관관계를 보이는 MixEval-Hard 점수를 통해 성능을 측정하였다. CLAIR로 생성한 선호 데이터는 모든 데이터셋 중 가장 강력한 성능을 보였으며, APO는 덜 제어 가능한 정렬 목적들보다 일관되게 우수한 결과를 냈다. 최종적으로, 32K CLAIR 선호 데이터와 APO를 활용해 학습한 모델은 Llama-3-8B-Instruct 대비 7.65% 성능 향상을 달성했으며, GPT-4 turbo와의 성능 격차를 45%까지 좁혔다.

 

1 서론

그림 1 설명: 정렬(alignment)은 선호 데이터와 학습 목적의 관점에서 명확히 정의되지 않는다.
(A) 선호 쌍(preference pair)은 무관한 측면에서도 차이가 날 수 있는데, Contrastive Learning from AI Revisions (CLAIR)은 특정 측면만을 목표로 한 선호 신호를 생성한다.
(B) 모델의 품질 자체가 정렬 학습에 영향을 미칠 수 있으며, Anchored Preference Optimization (APO)은 이를 명시적으로 고려한다.

 

언어 모델을 선호도(preferences)와 정렬하는 것은 LLM 개발의 핵심 구성 요소이며, 모델의 성능, 안전성, 인간 가치에 대한 부합성을 크게 향상시킨다(Christiano et al., 2017; Ouyang et al., 2022; Bai et al., 2022). 이러한 선호도는 입력 x에 대한 두 출력

선호 쌍(preference pair) 형태로 표현될 수 있으며, 이는 단일 출력보다 풍부한 학습 신호를 제공하고 더 표현력 있는 학습 목적을 가능하게 한다. 최근에는 대조 학습 목적(contrastive learning objectives)을 통해 정렬이 보다 쉽게 수행될 수 있게 되었다(Rafailov et al., 2024b).

 

하지만 이러한 장점에도 불구하고 정렬 결과는 여전히 최적과 거리가 있을 수 있다(Eisenstein et al., 2023; Feng et al., 2024; Park et al., 2024). 본 논문에서는 정렬의 본질을 (i) 데이터가 표현하는 선호 신호, 그리고 (ii) 대조적 목적 함수의 학습 동역학 두 측면에서 분석한다. 우리는 이 두 축에서 기존 정렬 방법이 충분히 명시되지 않았음을 발견했다. 이를 해결하기 위해, (i) 선호 데이터는 최소한의 대조성을 가져야 하며, (ii) 정렬 목적은 모델과 데이터 간의 특정한 정렬 상황을 고려해야 한다고 주장한다(그림 1 참조). 이러한 분석은 왜 기존 방법들이 서브옵티멀(suboptimal)한 결과를 보이는지 설명한다. 예를 들어, 5장에서 우리는 고품질 출력으로 정렬한 모델조차도 쌍이 여러 통제 불가능한 측면에서 다를 경우 성능이 저하될 수 있음을 보여준다.

 

이러한 통찰에 기반해 두 가지 주요 기여를 제안한다.

  1. Contrastive Learning from AI Revisions (CLAIR)
    • 한 출력만 최소한으로 수정해 선호도를 표현하는 새로운 선호 쌍 생성 방법.
    • 판정자(judge)가 우수한 응답을 선택하는 기존 방법과 달리, 보다 정밀한 학습 신호를 제공한다.
  2. Anchored Preference Optimization (APO)
    • 모델과 데이터 간의 관계를 명시적으로 고려하는 대조적 목적 함수(contrastive objective) 계열.
    • 이러한 맞춤형 학습 동역학은 기존 목적 대비 더 우수한 정렬 성능을 달성한다.

 

우리는 (i) 최소 대조성(minimally contrastive)을 갖춘 선호 데이터, (ii) 정렬 학습 동역학의 차별성이라는 두 요소의 역할을 연구하기 위해, 네 가지 선호 데이터셋과 다섯 가지 정렬 목적 함수를 조합해 모델을 개별적으로 정렬하였다.

  • 데이터셋 구성:
    • CLAIR 방법으로 생성한 데이터셋
    • 두 가지 판정자 기반(judge-based) 데이터셋 (Reinforcement Learning from AI Feedback; Bai et al. 2022)
    • CLAIR의 대조성을 제거(ablated)한 변형 데이터셋
  • 정렬 목적 함수:
    • DPO (Rafailov et al., 2024b)
    • KTO (Ethayarajh et al., 2024)
    • 선호 응답에 대한 지속적 지도학습(SFT)
    • 제안한 APO의 두 변형(variants)

각 모델에 대해 MixEval-Hard 정확도(Ni et al., 2024)길이 통제 AlpacaEval 점수(Dubois et al., 2024)를 측정했으며, 두 벤치마크 모두 인간 평가 결과와 높은 상관성을 보인다(Chiang et al., 2024).

 

실험 설정:

  • 정렬 대상 모델: Llama-3-8B-Instruct (Dubey et al., 2024)
  • 선호 판정 및 수정: GPT-4 turbo (Achiam et al., 2023) 활용

결과:
32K CLAIR 선호 데이터와 APO로 정렬한 가장 강력한 모델은 MixEval-Hard에서 7.65% 성능 향상을 기록하였으며, GPT-4 turbo와의 성능 격차를 45%까지 좁혔다. 분석 결과, CLAIR 선호 데이터의 대조성(contrastiveness)이 성능 향상의 핵심 요인임을 확인하였다. 또한 모든 정렬 데이터셋에서 APO가 가장 우수한 성능을 달성하였다. 마지막으로, 특정 모델과 선호 데이터셋 조합에 적합한 APO 변형을 선택하는 방법을 제시하고, 최근 정렬 연구들과 CLAIR 및 APO의 관계를 심층적으로 논의한다.

 

2 정렬(Alignment)에서의 불충분 명세(Underspecification)

정렬 과정은 대상 모델(target model), 선호 데이터셋(preference dataset), 정렬 목적(alignment objective) 간의 복잡한 상호작용을 만들어낸다. 본 장에서는 선호 데이터를 기반으로 한 모든 정렬 시도에서 나타나는 실패 사례(failure case)를 데이터와 목적 측면으로 나누어 분석한다.

 

2.1 선호 데이터의 문제

 

그러나 이 응답 쌍(pair)은 여러 측면에서 차이가 날 수 있으며, 이 중 일부는 선호도와 무관한 허위(spurious) 차이일 수 있다. 이러한 허위 차이는 학습 시 크레딧 할당 문제(credit assignment problem)를 야기하여 정렬 학습을 어렵게 만든다. 반대로, 최소 대조성(minimally contrastive)을 갖춘 응답 쌍은 차이가 적은 축(axis)에서만 발생하므로 허위 차이가 줄어든다. 따라서 선호 쌍이 명확한 최소 대조성을 보일수록 정렬 학습 신호는 더 선명해진다.

 

현재 사용되는 선호 데이터셋들은 대조성의 정도(contrastiveness)에서 큰 차이를 보인다. 예를 들어, Stanford Human Preferences dataset (Ethayarajh et al., 2022)에서는 두 출력이 같은 Reddit 게시물에 대한 응답일 뿐이며, 반드시 서로 비교 가능하도록 설계된 것은 아니다. 이상적인 선호 데이터셋은 두 응답 간의 차이가 매우 통제된(controlled) 형태로 구성되어야 한다. 이러한 통찰은 이후 3장에서 소개할 CLAIR 방법의 기반이 된다.

 

2.2 정렬 목적의 문제

선호 삼중항은 단지 한 응답이 다른 응답보다 낫다는 정보만을 제공한다. 그러나 우수한 응답이 정말로 "좋은(good)" 응답인지에 대한 정보는 제공하지 않으므로 모호성(ambiguity)이 발생한다.

 

 

대표적인 사례로, UltraFeedback (Cui et al., 2024) 데이터셋의 승자 응답 중 약 80%는 Chatbot Arena Elo (Chiang et al., 2024) 기준으로 Llama-3-8B-Instruct보다 성능이 낮은 모델에서 생성된 것이다. 이런 데이터셋으로 Llama-3-8B-Instruct를 단순 정렬하면 모델 성능이 악화될 수 있다. 이러한 사례는 4장에서 소개할 Anchored Preference Optimization (APO)의 필요성을 보여준다.

 

그림 2 설명

프롬프트에 대한 Llama-3-8B-Instruct의 응답과, 이에 대한 GPT4-turbo의 수정(revision) 예시. 두 응답 간 차이가 하이라이트되어 있으며, 수정본은 원래 응답의 개요는 유지하면서도 개선 가능한 부분을 향상시켰다. 예를 들어, 원본에서 잘못된 파리 식당 수(2개)를 수정본에서는 정확히 3개로 고쳤다.

 

요약

현재 정렬 접근법은 두 가지 주요 축에서 명세가 불충분(underspecified)하다:

  1. 비대조적(non-contrastive) 데이터로 인해 선호 신호가 약하게 표현될 수 있다.
  2. 정렬 목적은 모델-데이터 관계(model-data relation)를 고려해야 한다.

이후 장에서는 이 두 축을 개선하기 위한 방법을 제시한다.

 

3 CLAIR: 수정 기반 대조 학습 (Contrastive Learning from AI Revisions)

이번 장에서는 Contrastive Learning from AI Revisions (CLAIR)을 소개한다. CLAIR은 최소한의 대조성(minimally contrasting)을 갖춘 선호 쌍(preference pair)을 생성하기 위한 일반 절차다.

 

3.1 방법 개요

본 연구에서는 더 강력한 LLM을 수정자로 활용하며, 수정 프롬프트는 명확성(clarity), 정확성(correctness), 흥미도(engagement)를 개선하도록 설계되었다(자세한 프롬프트와 데이터셋은 부록 A 참고). 그림 2는 이 방식으로 생성된 삼중항 예시를 보여준다. 여기서 패자 응답은 Llama-3-8B-Instruct가 생성했으며, GPT4-turbo가 이를 수정하였다. 수정본은 원본의 대부분을 유지하면서도 세부 사항을 개선한 형태다.

 

Dubey et al. (2024)도 llama-3.1 모델 개발 시 인간 수정(human revision)을 사용했지만, 이 과정은 최소 대조성을 만드는 것이 아니라 품질 차이를 크게 만드는 데 초점을 맞췄다는 점에서 CLAIR과 다르다.

 

3.2 기존 방법과의 차별점

기존 선호 데이터 수집 방식과 CLAIR의 가장 큰 차별점은 데이터 생성 방식이다. 예를 들어, on-policy judge paradigm(Reinforcement Learning from AI Feedback; Bai et al. 2022)에서는 다음과 같이 두 출력을 모델 M(x)에서 샘플링하고, 판정자(Judge)가 승자와 패자를 결정한다.

 

또한 off-policy judge paradigm에서는 대상 모델과 다른 모델 M′, M′′에서 출력된 응답을 비교해 판정자가 승패를 가른다

이 두 가지 판정 기반 접근법은 CLAIR과 비교할 수 있는 유용한 기준선(baseline) 역할을 한다.

 

3.3 추가 기준선: Stronger Preferred

 

3.4 데이터셋 구성

정렬 실험(섹션 5)에서 사용하기 위해, 우리는 식 (1)~(4) 절차를 통해 네 가지 선호 데이터셋을 구축했다. 모든 데이터셋은 UltraFeedback (Cui et al., 2024)에서 균일하게 샘플링된 32K 프롬프트를 기반으로 한다. UltraFeedback은 다양한 도메인을 포괄하는 널리 사용되는 선호 데이터셋이다.

  • 대상 모델 M: Llama-3-8B-Instruct
  • 오프-폴리시 판정 데이터셋: UltraFeedback의 기존 판정 결과 활용
    (이 데이터의 승자 출력 중 약 80%는 Chatbot Arena Elo 기준으로 Llama-3-8B-Instruct보다 약한 모델에서 생성됨)

3.5 최소 대조성 평가

CLAIR의 핵심 목표 중 하나는 최소 대조성(minimally contrastive) 선호 쌍을 만드는 것이다. 이를 평가하기 위해 두 가지 단순한 휴리스틱 지표를 사용했다.

  • Jaccard Similarity (↑ 높을수록 좋음): 승자와 패자의 토큰 집합 간 교집합/합집합 비율
  • Levenshtein Edit Distance (↓ 낮을수록 좋음): 승자와 패자 간 문자 단위 편집 거리

이 지표에서 최소 대조성이 높을수록 Jaccard 유사도는 높고, Levenshtein 거리는 낮아야 한다.

 

3.6 결과

표 1: Llama-3-8B-Instruct 기반 네 가지 데이터셋에서 승자와 패자 응답 간 유사도 분석

CLAIR 데이터셋은 두 지표 모두에서 가장 높은 품질의 대조성을 보여주며, 다른 방식보다 훨씬 우수한 결과를 기록했다.

 


그러면 증류모델이나 교사모델인거지. 거의 교사모델에 가까운건데 이게 뭐가 새롭지?

 

증류(Knowledge Distillation)

  • 교사 모델의 완전한 출력을 그대로 학생 모델이 학습
  • 학생 모델은 교사의 전체 행동 패턴을 따라가게 됨
  • 결과적으로 교사 모델의 편향까지 전이될 수 있고, 불필요하게 큰 차이를 학습하게 됨

CLAIR

  • 대상 모델의 출력(y_l)을 기준으로 최소 수정(minimal revision)만 수행
  • 교사 모델은 완전한 답을 재작성하지 않고, “차이를 최소화하면서 필요한 부분만 개선”
  • 학습 신호는 대상 모델의 한계점에만 집중
  • 결과적으로 대조 학습(contrastive learning)에 최적화된 데이터셋 생성

CLAIR은 단순히 "데이터셋을 바꾸는 것"처럼 보이지만,
사실상 대상 모델의 출력을 교사 모델이 교정하는 과정을 통해 데이터셋 자체를 새롭게 정의하는 방법이고,
이게 기존 RLHF나 전통 증류와 달리 최소 대조성을 보장하는 정렬 데이터셋을 만든다는 점에서 새로운 접근이야.

 

그러면 만약에 CLAIR를 수행하는 모델이 계속 잘못되게하면 이상한거 아니야? 그리고 해당 모델들은 이미 dpo, ppo 방식으로 진행되서 실제 쌍을 완전하게 분리시킬수 있는지도 모르고
 
 

즉, CLAIR의 전제는 “대상 모델과 Reviser 모델의 품질 격차가 존재해야 함”

  • 둘 다 이미 DPO/PPO 정렬된 최신 모델이라면, 쌍을 만들 때 "분리되는 특징"이 적어서 학습 효과가 낮아질 수 있음.

이미 꽤 괜찮은 모델이 존재하고, 그걸 더 정교하게 정렬하려는 실무적 최적화 느낌


4 앵커드 선호 최적화 (Anchored Preference Optimization, APO)

그림 3 설명:
DPO(식 A), APO-zero(식 B), APO-down(식 C)의 그래디언트를 비교한 것이다.

  • 방향(Direction):
    APO 계열은 학습 중 승자와 패자 출력의 확률을 증가시킬지, 감소시킬지 명시적으로 지정한다. 반면 DPO는 단순히 확률 차이(likelihood difference)만 증가시키기 때문에, 실제 학습 중 승자·패자의 확률이 각각 어느 방향으로 움직이는지에 대한 모호성이 존재한다. 방향을 명시적으로 정의하는 것은 APO 계열의 핵심으로, 모델과 데이터 간의 정렬을 더 정확히 맞출 수 있게 한다.
  • 크기(Magnitude):
    APO의 각 항은 델타 함수로 스케일링된다. 이 델타 함수δ(x)=σ(x)(1−σ(x))x=0에서 전역 최대값을 갖고, x→±∞로 갈수록 0에 수렴한다. 이 특성 덕분에, 최적화 대상 값이 학습 초기 상태와 크게 달라지면 APO 그래디언트가 포화(saturate)되어 더 안정적인 최적화가 가능해진다(Ethayarajh et al., 2024).

4.1 DPO (Direct Preference Optimization)

4.2 APO (Anchored Preference Optimization)

이 문제를 해결하기 위해, 우리는 APO(Anchored Preference Optimization)를 제안한다. APO는 각 보상 항의 절대 증감 방향을 명시적으로 제어할 수 있어, 학습 중 확률의 절대적 증가·감소를 조정할 수 있는 정렬 목적 함수 계열이다.

 

본 논문에서는 APO-zeroAPO-down이라는 두 변형을 중점적으로 다룬다.

 

 

4.3 APO와 다른 목적 함수와의 관계

  • APO는 승자-패자 보상 차이에 더해, 각 보상의 방향성(증가/감소)과 조건(양수/음수)을 명시적으로 지정하는 목적 함수의 상위 개념으로 볼 수 있다.
  • 다양한 변형을 정의할 수 있으며, 특정 모델-데이터 조합에 맞춰 목적 함수를 맞춤화할 수 있다.

 

4.4 KTO와 APO의 연결

Ethayarajh et al. (2024)의 Kahneman–Tversky Optimization (KTO)는 선호 쌍 대신 단일 응답 + 선호 여부 라벨로 학습한다. KTO의 목표는 보상을 KL-divergence 기준으로 밀어 올리거나 내리는 것이다. APO 관점에서 보면, KL-divergence를 앵커(anchor)로 삼아 자연스럽게 쌍 기반 변형 KTO-pair를 정의할 수 있다.

이 KL 항은 항상 0 이상이므로, 승자 보상은 양수 방향으로 밀리고, 패자 보상은 양수 또는 음수로 밀릴 수 있다.

 

4.5 APO 관점에서의 통찰

  • KTO는 승자 확률 증가를 내장한 목적 함수라 SFT(승자 출력에 대한 지도 학습) 없이도 잘 동작
  • 반면 DPO는 SFT가 있어야 좋은 성능을 보였음
  • APO의 관점에서 보면, 이런 차이는 보상 방향 명시 여부에서 비롯됨
  • 단, 승자 출력 품질이 모델보다 낮을 때는 이런 방식(KTO/APO-zero)이 성능 저하를 유발할 수 있음을 지적


5 정렬 실험 (Alignment Experiments)

CLAIR과 APO의 효과를 검증하기 위해, UltraFeedback 32K 프롬프트(3장에서 설명)로 생성한 네 가지 선호 데이터셋을 사용해 Llama-3-8B-Instruct를 정렬(alignment)했다. 데이터셋 생성 시 GPT-4 turbo를 Judge(판정자) 또는 Reviser(수정자)로 활용했다. 각 데이터셋은 4장에서 설명한 네 가지 정렬 목적(DPO, KTO-pair, APO-zero, APO-down)으로 학습했으며, 승자 응답만을 사용한 SFT도 기준선으로 포함했다.

 

5.1 평가 방법론

인간 평가(Human Judgement)는 모델이 인간 선호에 얼마나 잘 정렬되었는지를 평가하는 가장 확실한 지표다. 예를 들어, Chatbot Arena(Chiang et al., 2024)는 수천 개의 응답 쌍 비교(human pairwise judgment)로 모델 성능을 순위화한다. 그러나 이 방법은 비용이 매우 크다.

 

이를 대신해, Chatbot Arena 순위와 높은 상관관계(ρ=0.96)를 보이는 벤치마크인 MixEval-Hard (Ni et al., 2024)를 사용했다.

  • MixEval-Hard 특성:
    • 다양한 도메인의 난이도 높은 질의(hard queries)
    • 정답이 알려진 ground-truth 기반 평가
    • GPT-3.5-turbo로 정답 여부 판정
    • 비용이 AlpacaEval보다 훨씬 저렴
  • 질의 출처:
    MATH, BBH, DROP, GSM8k, AGIEval, TriviaQA, MBPP, MMLU, HellaSwag, BoolQ, GPQA, PIQA, OpenBookQA, ARC, CommonsenseQA, SIQA 등 다양한 벤치마크에서 샘플링

베이스라인 성능:

  • Llama-3-8B-Instruct (추가 정렬 전)
    • 2024-06-01 Split: 41.45%
    • 2024-08-11 Split: 40.5%
  • GPT-4 turbo와의 성능 격차: 약 17%

보조 평가:

  • LC-AlpacaEval2.0도 함께 측정했으나, MixEval-Hard를 주 평가 도구로 사용한 이유:
    1. LC-AlpacaEval2.0은 비용이 매우 높음
    2. MixEval-Hard는 정답 기반 평가이며, AlpacaEval은 LLM 판정 기반이라 비교적 불안정

 

표 2: Llama-3-8B-Instruct를 18 에폭 동안 정렬한 후, 2024-06-01 및 2024-08-11 스플릿에서의 MixEval-Hard 최대 및 평균 향상치. (괄호 안은 표준편차) 가장 높은 전반적 성능은 굵게, 데이터셋별 최고 성능은 밑줄로 표시하였다. MixEval-Hard를 주요 평가 도구로 사용했지만, 두 개의 최고 MixEval-Hard 체크포인트에서의 LC-AlpacaEval2.0 평균 점수 향상응답 길이(문자 수) 증가량도 함께 보고한다. 결과적으로 CLAIR이 MixEval-Hard에서 가장 큰 전반적 성능 향상을 보였으며, APO 계열 방법이 Judge 기반 및 CLAIR 데이터셋 모두에서 최고 성능을 달성했다.

 


Stronger Preferred 설정에서 DPO/KTO/APO 성능이 모두 떨어진 건, 이 방법들이 튜닝(세밀 조정) 목적으로 설계되었기 때문이고, 기본 학습(ground-up learning)에는 적합하지 않다는 걸 보여주는 지표라고 볼 수 있어.

 

CLAIR 부분의 APO-zero와 APO-down 결과가 정말 의심스럽네요. 구체적으로 이상한 점들을 정리해보면:

CLAIR APO 결과의 이상한 점들:

  1. APO-zero: 5.06점 - 다른 모든 방법들이 2-3점대인데 혼자만 5점대로 튀어나옴
  2. APO-down: -6.30점 - 갑자기 크게 음수로 떨어짐 (다른 APO 방법과 11점 이상 차이)
  3. 길이 변화도 극단적: APO-zero는 +520자, APO-down은 +2559자로 비정상적으로 김

하지만 여전히 의심스러운 점들:

  1. 다른 데이터셋과의 일관성: Judge나 Stronger에서는 이런 극단적 패턴이 안 보이는데, CLAIR만 이렇게 특이할까?
  2. 길이 증가의 메커니즘: APO-down이 +2559자나 늘어난 것이 단순히 "차별화 전략" 때문일까? 이건 좀 과도해 보임
  3. 실험 재현성: 이런 극단적 결과가 여러 시드에서 일관되게 나타났는지 의문

-> appendix d에서 의문 해결


 

5.2 학습 사양(Training Specifications)

Llama-3-8B-Instruct 모델은 각 선호 데이터셋과 정렬 목적 함수 조합별로 총 18 에폭(epoch) 동안 학습되며, 매 에폭마다 체크포인트를 저장한다. SFT를 제외한 모든 정렬 목적 함수에서 공통으로 사용하는 하이퍼파라미터 β 값은 0.1로 설정하였다. 프롬프트와 응답은 각각 512 토큰으로 잘린 상태에서 학습에 사용된다. 모델은 NVIDIA H100 GPU 8개로 구성된 단일 노드 환경에서 유효 배치 크기 16으로 학습되었으며, RMSProp 옵티마이저를 사용하여 학습률 2×10−7에서 시작해 18 에폭 동안 선형적으로 0까지 감소시키는 스케줄을 적용했다. 모든 학습은 TRL 라이브러리(von Werra et al., 2020)로 구현되었다.

 

5.3 결과(Results)

우리는 동일한 학습 실행에서 모든 체크포인트의 최대 및 평균 MixEval-Hard 개선치를 보고한다. 이를 통해 정렬 전 과정에서의 최적 성능과 평균적 효과를 모두 평가할 수 있다. 평가에는 서로 다른 쿼리 세트를 갖는 2024-06-01 및 2024-08-11 버전의 MixEval-Hard를 사용했다. LC-AlpacaEval2.0의 경우 평가 비용이 높기 때문에, MixEval-Hard에서 가장 성능이 좋았던 두 체크포인트만을 대상으로 승률을 측정해 평균을 보고한다. 두 평가 모두 시스템 프롬프트는 사용하지 않았다. 모든 데이터셋과 정렬 목적 함수에 대한 분석은 표 2에 요약되어 있으며, 이후 섹션에서 자세히 논의한다.

 

5.3.1 선호 데이터(Preference Data)

특정 데이터셋의 품질을 평가하기 위해, 그 데이터셋과 가장 잘 맞는 정렬 목적 함수를 조합했을 때의 성능을 살펴본다. APO-zero를 적용했을 때, 대조성이 높은 CLAIR 데이터셋이 가장 큰 성능 개선을 보였다. MixEval-Hard 2024-06-01 스플릿에서 CLAIR는 최대 +7.65%, 평균 +2.93% 개선으로, 모든 실험 중 가장 높은 성능 향상을 기록했다. 이 +7.65% 향상은 32K 쌍만으로 GPT4-turbo와의 성능 격차를 45% 줄이는 효과를 보였다.

 

1장에서 언급했듯, 통제되지 않은 대조성(uncontrolled contrastiveness)은 모델 성능을 저하시킬 수 있다. 이 현상은 Stronger Preferred 데이터셋 결과에서 극명하게 드러나는데, 이 데이터셋은 성능이 크게 하락한다. CLAIR와 마찬가지로 Stronger Preferred도 승자 출력을 더 강력한 모델이 생성하지만, CLAIR는 최소 대조성을 보장하는 반면 Stronger Preferred는 그렇지 않다. 따라서 CLAIR의 revision 과정에서 유도되는 대조성이 성능 향상의 핵심 요인임을 알 수 있다.

 

on-policy judge와 off-policy judge 데이터셋 모두 최적 정렬 목적 함수와 결합 시 성능 개선을 보였지만, on-policy가 off-policy보다 더 나은 결과를 냈다. 이는 대상 모델의 출력에 대한 평가가 일반적으로 더 관련성이 높다는 점에서 직관적이다.

 

LC-AlpacaEval2.0 결과도 대체로 MixEval-Hard와 유사한 추세를 보였으나, on-policy judge 데이터셋은 CLAIR보다 높은 점수를 기록했다. 두 벤치마크 모두 모델의 인간 평가와 높은 상관성을 보이지만, MixEval-Hard는 평가 비용이 낮아 모든 체크포인트를 평가할 수 있었기 때문에 주요 평가 도구로 사용되었다. LC-AlpacaEval2.0의 강건성 문제는 부록 D에서 추가로 논의되며, MixEval-Hard를 구성하는 각 벤치마크별 성능 분해 분석은 부록 B에서 다룬다.

 

5.3.2 정렬 목적 함수(Alignment Objectives)

MixEval-Hard에서 Anchored Preference Optimization(APO)은 Stronger Preferred 데이터셋을 제외한 모든 선호 데이터셋에서 일관되게 가장 큰 성능 향상을 보였다. Stronger Preferred에서는 모든 대조 학습 목적 함수가 SFT보다 저조했다.

 

선호 데이터셋과 대상 모델의 관계가 어떤 APO 변형이 최적인지를 결정하는데, 이는 2장에서 예측한 내용과 일치한다.

  • 승자 출력이 대상 모델보다 품질이 낮을 때 → APO-down이 더 적합 (예: off-policy judge 데이터셋)
  • 승자 출력이 대상 모델보다 품질이 높을 때 → APO-zero가 더 적합 (예: CLAIR, on-policy judge 데이터셋)

또한 on-policy judge 데이터셋은 CLAIR보다 승자 출력의 품질이 Llama-3-8B-Instruct보다 조금만 우수해 목적 함수 간 차이가 덜 뚜렷하다. 반면 CLAIR의 승자 출력은 더 강력한 모델이 생성했기 때문에 대상 모델보다 훨씬 우수하여, 정렬 목적 함수의 차이가 성능에 더 뚜렷하게 반영된다.

 
 
 

5.4 분석(Analysis)

그림 4 설명:
CLAIR, on-policy judge, off-policy judge, Stronger Preferred 선호 데이터셋을 사용해 APO-down, APO-zero, DPO 정렬 목표로 학습한 Llama-3-8B-Instruct 모델의 승자/패자 출력에 대한 로그 우도(log-likelihood)와 보상(reward) 변화를 나타냄. 각 데이터셋에서 100개의 홀드아웃 선호 쌍을 사용해 측정했다.

 

5.4.1 선호 데이터 분석 (Preference Data)

  • 우도(likelihood)로 데이터셋 특성 파악 가능:
    • On-policy judge 데이터셋:
      • 모든 응답이 대상 모델에서 생성됨 → 승자/패자 모두 높은 우도
    • Off-policy judge 데이터셋:
      • 응답이 전부 다른 모델에서 생성됨 → 승자/패자 모두 낮은 우도
    • CLAIR & Stronger Preferred:
      • 패자 출력은 높은 우도, 승자 출력은 낮은 우도
  • 보상(reward)과 우도의 관계:
    • 보상은 우도의 변화량을 추적하므로 초기값은 항상 0에서 시작
    • 승자-패자 보상 차이는 학습 중 승자 우도가 얼마나 더 증가했는지를 나타냄
    • 초기 우도 격차가 큰 경우, 승자 보상 차이가 양수여도 로그 우도 격차는 음수로 남을 수 있음
      • CLAIR 데이터셋에서 실제로 이런 현상이 나타남
  • CLAIR vs Stronger Preferred 비교:
    • 학습 중 우도 변화 패턴은 매우 유사하지만,
      • CLAIR는 최소 대조성(minimal contrastiveness) 덕분에 승자-패자 차이가 의미 있는 개선으로 이어짐
      • Stronger Preferred는 무의미한 차이가 많아 성능 향상과 무관한 정렬 발생

5.4.2 정렬 목표 분석 (Alignment Objectives)

  • APO-zero:
    • 가장 높은 승자/패자 보상을 지속적으로 기록
    • 승자 ↑ / 패자 ↓ 방향으로 강하게 학습하는 특성과 일치
  • APO-down:
    • 가장 낮은 보상을 지속적으로 기록
    • 승자/패자 모두 낮추는 학습 전략 특성과 일치
  • DPO:
    • 학습 초기: APO-zero와 유사 (높은 보상)
    • 학습 후반: APO-down과 유사 (낮은 보상)
    • 이 이중 패턴 때문에 최종 성능도 APO-down과 가장 유사하게 수렴
    • 그러나 어떤 데이터셋에서도 최고 성능은 아님
    • 두 전략(APO-zero/APO-down)의 중간 지점에 위치한 특성 때문

핵심 결론

  • 대조 정렬(contrastive alignment) 학습은 단순한 SFT보다 훨씬 복잡함
  • 결과는 다음 요소의 상호작용에 크게 좌우됨:
    1. 정렬 목표 함수의 의미(semantics)
    2. 학습 데이터의 대조 신호(contrastive signal)
    3. 데이터 품질과 대상 모델의 관계
  • 우리의 결과는 이 세 속성의 상호작용을 면밀히 고려하는 것이 필수적임을 보여줌.

6 관련 연구(Related Work)

이 절에서는 Contrastive Learning from AI Revisions(CLAIR)Anchored Preference Optimization(APO)가 기존 정렬(alignment) 연구와 어떤 관계를 맺고 있는지 살펴본다.

 

Reinforcement Learning from Human or AI Feedback (RLHF / RLAIF)

RLHF와 RLAIF(Ouyang et al., 2022; Bai et al., 2022; Yuan et al., 2024)는 인간 선호에 모델을 정렬시키는 대표적 기법이다. 이 방식은 먼저 선호 판단(preference judgment)으로 보상 모델을 학습한 후, 해당 보상으로 언어 모델을 강화학습(Schulman et al., 2017)하는 구조를 갖는다. 명시적 보상 모델 없이 정렬을 수행하기 위해, Direct Preference Optimization(DPO; Rafailov et al., 2024b)은 대조 학습 목표(contrastive objective)를 직접 사용하여 LM을 정렬한다.

 

CLAIR와 APO의 핵심 통찰

본 연구는 두 가지 핵심 통찰을 제시한다:

  1. 대조적 선호 데이터의 역할
  2. 모델과 데이터 관계에 따른 앵커링(anchoring) 필요성

이 통찰은 선호 비교를 사용하는 모든 정렬 방법에 적용 가능하다. 예를 들어, 잘못된 선호 신호(spurious preference)로 학습된 보상 모델은 실제 보상을 제대로 반영하지 못해 reward overoptimization 또는 hacking 문제(Gao et al., 2023; Rafailov et al., 2024a)를 유발할 수 있다.

 

이후 섹션에서는 먼저 대조 정렬(contrastive alignment) 기법과 변형들을 다루고(Wang et al., 2024 참조), 마지막으로 선호 데이터셋과 그 생성 방식을 논의한다.

 

모델 변화 강도 제어 (Changing the LM more/less)

Amini et al. (2024)와 Wu et al. (2024a)는 선호 쌍 간 강도 차이에 주목했다. 두 연구 모두 승자 출력이 패자보다 얼마나 더 선호되는지를 측정하고, 이에 따라 모델을 더 많이/덜 변경하도록 학습 목표를 조정한다.

  • Amini et al. (2024): 골드 보상 차이를 사용해 대조 목적에 인스턴스별 마진(instance-level margin) 추가
  • Wu et al. (2024a): 배치 단위로 β\beta 스케일링
  • 기타 연구(Zhao et al., 2023; Azar et al., 2024; Meng et al., 2024): 정적 하이퍼파라미터로 마진 지정

이 연구들은 모델 변경 강도를 다루지만, CLAIR은 더 나은 학습 신호 생성에, APO는 훈련 동역학 명시화에 중점을 둔다.

 

학습 동역학 제어 (Controlling training dynamics)

DPO가 승자 출력의 우도를 감소시킬 수 있다는 현상은 여러 연구에서 지적되고 분석되었다(Feng et al., 2024; Pal et al., 2024). 이를 보완하기 위해 일부 연구(Hong et al., 2024; Pentyala et al., 2024; Adolphs et al., 2023; Zhao et al., 2023; Xu et al., 2024)는 승자 출력 우도를 명시적으로 높이는 추가 손실 항을 도입한다. 이들은 APO의 변형으로 볼 수 있으나, 데이터셋과 모델 특성에 따라 앵커링 전략을 달리해야 한다는 점을 인식하지 못하며, 필요할 경우 승자 우도를 낮추는 방법도 제공하지 않는다. Rafailov et al. (2024a)와 Azar et al. (2024)는 정렬 방법을 일반화하지만, 앵커링 개념은 포함하지 않는다.

 

비쌍 데이터 학습 (Learning from unpaired data)

Ethayarajh et al. (2024), Richemond et al. (2024), Jung et al. (2024)은 쌍 대신 단일 응답과 보상(unpaired examples and rewards)으로 정렬을 수행한다. Zhang et al. (2024)와 Duan et al. (2024)은 비쌍 환경에서 원하지 않는 응답(undesirable examples)만을 사용한다. 본 연구는 쌍(pair) 기반 선호에 집중하지만, APO의 핵심 통찰은 비쌍 데이터에도 적용된다. 예컨대 Ethayarajh et al. (2024)는 각 응답에 이진 라벨(원하는/원하지 않는)을 부여하는데, 이 라벨의 의미는 모델 품질에 상대적이다. 약한 모델에서 긍정적 사례가 강한 모델에선 오히려 부정적 사례가 될 수 있어, 앵커링의 필요성이 생긴다.

 

길이 제어 최적화 (Length-controlled optimization)

판정 기반으로 생성된 선호 쌍은 더 긴 답변을 선호하는 편향이 있을 수 있다(Saito et al., 2023). 이를 방지하기 위해 Meng et al. (2024), Park et al. (2024)는 학습 중 생성 길이를 명시적으로 제어했다. 이러한 제약은 APO에 자연스럽게 통합 가능하며, CLAIR revision을 통해서도 장황함(verbosity) 편향을 줄일 수 있다. 예컨대 Reviser를 설계할 때 응답 길이를 늘리지 않도록 설정할 수 있다.

 

참조 모델 없는 최적화 (Reference-free optimization)

몇몇 연구(Meng et al., 2024; Zhao et al., 2023; Hong et al., 2024; Xu et al., 2024)는 보상 대신 승자/패자 우도의 대조 관계를 직접 최적화해 참조 모델(reference model) 필요성을 제거했다. 이들은 모두 대조 학습 기반이므로 CLAIR과 APO의 통찰이 그대로 적용된다. 또한 CLAIR 데이터셋 실험은 참조 없는 최적화 특성을 설명하는 데도 도움이 된다. 그림 4에서 보듯 CLAIR 데이터셋에서 모델은 보상 기준으로는 충분히 정렬되었지만, 패자 출력의 절대 우도가 여전히 더 높다. 이는 revision 과정에서 발생한 초기 우도 격차 때문이다.

 

반복 최적화 (Iterative optimization)

훈련 중 참조 모델을 갱신하는 방식은 성능 향상을 가져올 수 있다(Kim et al., 2024; Rosset et al., 2024; Wu et al., 2024b). 이러한 통찰 역시 본 연구에 적용 가능하다.

 

선호 데이터셋 (Preference Datasets)

Chiang et al. (2024)는 여러 AI 어시스턴트와의 대화에서 인간 선호 판단 데이터셋을 공개했다. 인간 평가 부담을 줄이기 위해, 일부 연구는 LLM 기반 판정(Cui et al., 2024; Zhu et al., 2023)이나 지표 기반 판정(Jiang et al., 2023)으로 선호 라벨링을 확장한다. CLAIR과 달리 이들 연구는 revision으로 선호 쌍을 만들지 않는다. Bai et al. (2022)은 헌법(constitution)이라는 사전 정의된 기준으로 LLM에게 응답을 수정(prompt revision)해 안전성을 높였고, Dubey et al. (2024)는 llama-3.1 모델 개발에서 인간 revision을 활용했다. 이들 역시 revision을 사용하지만, CLAIR은 최소 대조성(minimal contrast)을 만드는 데 초점을 맞추며, 이 대조성이 정렬 결과에 미치는 효과를 구체적으로 연구했다.

 

7 미래 연구(Future Work)

본 연구에서는 APO 목적 함수 계열의 두 가지 변형을 제안했다. 각 방법은 학습 과정에서 대상 모델과 선호 쌍 간의 관계를 구체적으로 반영한다. 그러나 실제 환경의 선호 데이터셋은 매우 다양한 형태의 선호 쌍을 포함할 수 있으며, 데이터셋 전체가 특정 APO 변형과 완벽하게 대응되지 않을 가능성이 크다.

 

이를 해결하기 위한 자연스러운 확장은, 데이터셋 수준이 아닌 선호 쌍 단위로 최적 APO 변형을 선택하는 방법이다. 이를 위해, 사전 학습된 보상 모델(off-the-shelf reward model)을 활용해 학습 전 각 선호 쌍을 평가하고 그 결과를 바탕으로 최적의 APO 변형을 적용하는 휴리스틱 접근을 고려할 수 있다.

 

8 결론(Conclusion)

모델 정렬 성능은 크게 다음 두 요인에 의해 영향을 받는다:

  1. 선호 쌍의 대조성(contrastiveness)
  2. 대상 모델과 정렬 데이터 간의 관계

이를 바탕으로, 본 연구에서는 두 가지 기여를 제안했다:

  • CLAIR(Contrastive Learning from AI Revisions): 더 나은 대조성을 가진 선호 쌍을 생성하는 데이터 제작 기법
  • APO(Anchored Preference Optimization): 맞춤형 학습 동역학을 제공하는 정렬 목적 함수 계열

Llama-3-8B-Instruct를 정렬하는 실험에서, CLAIR 선호 쌍은 네 가지 비교 가능한 선호 데이터셋 중 가장 높은 성능 향상을 보였으며, APO 계열은 기존 정렬 목표 대비 일관되게 우수한 성능을 달성했다.