Antidistillation Sampling

Frontier models that generate extended reasoning traces inadvertently produce rich token sequences that can facilitate model distillation. Recognizing this vulnerability, model owners may seek sampling strategies that limit the effectiveness of distillatio

arxiv.org

초록
고도화된 프런티어 모델(frontier models)은 확장된 추론 과정을 생성하는 과정에서, 모델 증류(distillation)에 유용하게 사용될 수 있는 풍부한 토큰 시퀀스를 무심코 만들어낸다. 이러한 취약성을 인식한 모델 소유자는, 모델 성능을 저해하지 않으면서도 증류의 효율을 제한할 수 있는 샘플링 전략을 찾게 된다. Antidistillation sampling(안티증류 샘플링)은 바로 이러한 기능을 제공한다. 이 기법은 모델의 다음 토큰 확률 분포를 전략적으로 수정함으로써, 추론 과정을 ‘오염’시켜 증류에 덜 효과적으로 만들면서도, 모델의 실제 활용성은 그대로 유지한다.

1. 서론

확장된 추론 과정을 생성하도록 학습된 대형 언어 모델(Large Language Models, LLMs)은 수학, 코딩, 일반 추론 벤치마크 전반에 걸쳐 인상적인 성능을 보여준다 [예: 1]. 그러나 이러한 생성된 추론 과정(trace)은 이중적인 역할을 수행한다. 모델의 성능을 향상시키는 동시에, 보조 모델이 이러한 추론 과정을 학습 데이터로 활용하여 원 모델의 능력을 모방할 수 있도록 하는 모델 증류(model distillation)를 가능하게 한다 [2, 3]. 특히, 모델 증류는 유사한 성능의 모델을 처음부터 훈련시키는 데 드는 연산 비용의 일부만으로도 보조 모델의 성능을 크게 향상시킬 수 있다는 점에서 주목할 만하다 [3].

하지만 모델 증류의 장점에도 불구하고, 이 기술의 효율성과 효과성은 프런티어 추론 모델(frontier reasoning model)을 제공하는 기업에 여러 가지 단점을 초래한다. 첫째, 확장된 추론 과정을 반환하는 것은 기업의 핵심 지식재산(intellectual property)을 포기하는 행위로, 경쟁사들이 프런티어 기술을 저렴하게 복제할 수 있도록 만든다. 둘째, 증류의 가능성은 프런티어 모델 제공자에게 토큰 확률을 숨기거나, 추론 과정을 요약하거나, 전반적으로 사용자-모델 간 상호작용을 제한하도록 유도한다. 마지막으로, 안전한 모델 행동(예: 탈옥 시도에 대한 저항 [4, 5])은 증류된 모델에는 종종 제대로 계승되지 않아, 유해한 콘텐츠를 생성할 위험이 있다 [6].

이러한 문제들을 해결하기 위해, 우리는 안티증류 샘플링(Antidistillation Sampling)이라는 기법을 제안한다. 이 기법의 핵심 아이디어는 다음과 같다: 추론 모델의 샘플링 분포를 조정하여, 생성된 추론 과정이 (1) 증류 시도를 '오염시키고(poison)', (2) 원래의 조정되지 않은 확률 분포상에서 높은 확률을 유지하도록 만든다. 이 방법은 고유한 모델 능력을 보호하면서도, 모델이 다양한 실제 응용에 유용하게 사용될 수 있도록 성능을 유지한다.

그림 1 설명:
안티증류 샘플링을 통해 생성된 추론 과정은 증류 시도를 방해하는 동시에, 원래 교사 모델(teacher)의 다운스트림 성능은 유지한다. 위쪽과 아래쪽 행은 각각 MATH [7]와 GSM8K [8] 데이터셋에 대한 결과를 보여준다. 왼쪽 열은 다양한 샘플링 방식에 따른 교사 모델의 정확도를, 오른쪽 열은 해당 방식으로 생성된 추론 과정으로 증류된 학생 모델의 성능을 나타낸다. 주목할 점은, 두 데이터셋 모두에서 동일한 교사 모델 성능을 유지한 상태에서, 안티증류 샘플링은 일반적인 temperature 샘플링에 비해 증류된 모델의 성능을 현저히 저하시킨다는 것이다.

1.1 관련 연구

여러 프런티어 AI 연구소들은 모델 증류(model distillation)의 효과를 인정하고 이를 적극 활용하고 있다. 예를 들어, OpenAI는 자사의 API 내에서 모델 증류를 하나의 서비스로 제공하고 있다 [9]. 이러한 증류 파이프라인의 동기를 부여한 모델 증류의 가능성에 대한 인식은 적어도 Schmidhuber의 연구까지 거슬러 올라간다 [10]. 보다 최근에는 Hinton 외 [2]가 증류된 ‘전문 특화 모델(specialist models)’이 다양한 분야에서 인상적인 성능을 달성할 수 있음을 보여주었다. 이후로도 많은 연구들이 증류를 통해 어떻게 모델 능력이 이전되는지를 이해하고자 하였다 [11, 12, 13, 14]. 실제로 일부 연구소에서는 상업용 LLM을 훈련하는 데 있어 증류를 부분적으로 활용하고 있으며, 이때 경쟁사 모델로부터 생성된 확장된 추론 과정을 수집해 사용하는 것으로 추정되기도 한다 [15]. 이러한 관행은 프런티어 모델 운영자들에게 전략적 취약점이 될 수 있으며, 본 논문에서 제안하는 알고리즘의 중요성을 강조하는 근거가 된다.

본 논문이 다루는 위협 모델은 학생 모델(student model)이 교사 모델(teacher model)이 생성한 데이터로 훈련되는 시나리오이며, 이는 모델 프라이버시 및 보안과 관련된 다양한 주제와 맞닿아 있다. 예컨대, 모델 추출 공격(model extraction attack)은 별도의 훈련이나 증류 없이 쿼리 기반 접근을 통해 모델 가중치를 추정하며 [16], 학습 데이터 추출 공격(training data extraction attack)은 프런티어 모델로부터 직접 학습 데이터를 수집한다 [17]. 안티증류 샘플링이 이러한 공격으로부터 일정 수준의 방어 효과를 제공할 수는 있지만, 이는 본 논문의 주요 범위를 벗어난다. 보다 관련 있는 분야는 데이터 중독(data poisoning)에 관한 문헌이다. 이 분야에서는 악의적으로 조작된 데이터를 모델 학습 과정에 주입해 특정한 원치 않는 결과를 유도한다(예: [18]). Rando와 Tramèr [19]는 선호도 데이터(preference data)에 백도어를 삽입함으로써 RLHF(RL with Human Feedback)로 파인튜닝된 모델을 손상시킬 수 있음을 보여주기도 했다. 본 연구는 데이터 중독 및 프라이버시 보호 기법을 결합하여, 프런티어 모델에 내재된 귀중한 지식을 보호하는 데 목적을 둔다.

끝으로, 안티증류 샘플링은 LLM의 제어된 디코딩(controlled decoding)이라는 보다 넓은 틀 내에서 위치지어진다 [20]. 이 분야에서는 부가적인 목적 함수를 통해 디코딩 과정을 조정한다. 기존 연구들로는 생성 품질 향상을 위한 대비 목적 함수(contrastive objectives) 활용 [21], 제약 디코딩을 최적화 문제로 재정식화 [22], 에너지 기반 제약 조건(energy-based constraints)의 도입 [23] 등이 있다. 이러한 접근들과 유사해 보일 수 있으나, 안티증류 샘플링은 서로 다른 문제를 해결하고자 한다. 즉, 디코딩 목적 함수에 증류 인식(distillation-aware) 패널티 항을 도입함으로써, 생성되는 추론 과정을 ‘오염시켜’ 해당 결과를 기반으로 파인튜닝된 모델의 성능을 저하시킨다.

✅ 핵심 주장 1: 모델 증류는 매우 강력하고 실제로도 널리 사용되고 있다

OpenAI를 포함한 주요 연구소들이 모델 증류를 실무에 활용 중이며,
Hinton 등의 연구를 통해 "전문 특화 모델"로도 증류가 잘 된다는 것이 입증됨.
일부 기업은 경쟁사의 reasoning trace를 수집하여 증류에 활용할 가능성도 있음.

👉 요점: 모델 증류는 실제로 매우 효과적이고, 경쟁사의 능력을 복제하는 수단으로 악용될 수 있음.

✅ 핵심 주장 2: reasoning trace 기반 증류는 보안적·전략적 위협이 될 수 있다

reasoning trace를 반환하는 것 자체가 지식재산(IP)의 유출로 이어지고,
증류된 모델은 안전성(safety behavior)을 제대로 계승하지 못함 → 탈옥(jailbreaking) 위험 존재.
따라서 모델 제공자는 아예 reasoning trace나 token 확률을 숨기는 등의 제한을 둘 유인이 있음.

👉 요점: reasoning trace 공개는 기술적 유출과 보안 취약점이라는 이중 리스크를 유발함.

✅ 핵심 주장 3: 안티증류 샘플링은 이 위협을 방어할 수 있는 새로운 방식이다

기존 연구에서 다룬 데이터 중독(data poisoning), 백도어 삽입 같은 보안 기법과 맥락을 같이하며,
동시에 LLM의 controlled decoding 분야에 속하는 새로운 생성 조절 기법임.
핵심은 “디코딩 과정에서 증류를 어렵게 만드는 목적 함수를 넣는 것”임.

👉 요점: 안티증류 샘플링은 기존 보안/프라이버시 기법과는 다른 방식으로 모델 능력을 보호함.

2. 안티증류 샘플링 (Antidistillation Sampling)

안티증류 샘플링을 소개하고 유도하기 위해, 먼저 이 방법의 개요를 제시한 뒤, 증류를 방해하기 위해 요구되는 이상적 특성(desiderata)을 설명한다. 이후 §2.2에서는 안티증류 샘플링 기법의 수학적 유도를 진행하며, 알고리즘 1에서는 이 방법의 핵심 구현 단계를 요약한다.

접근 방식 개요

안티증류 샘플링의 핵심 목적은 다음 토큰에 대한 모델의 확률 분포를 조정하여, 다음 두 가지 상충하는 목표를 균형 있게 달성하는 것이다:

원래(조정되지 않은) 분포에서 높은 확률을 갖는 토큰을 샘플링할 것
증류(distillation) 시도를 효과적으로 방해할 수 있는 토큰을 샘플링할 것

이후 설명 전반에서, 추론 과정을 생성하는 원래의 모델을 교사 모델(teacher), 이로부터 학습되는 모델을 학생 모델(student)이라 부른다. 먼저, 교사 모델의 조정되지 않은 확률 분포로부터의 샘플링을 기술하기 위한 수식 표기법을 소개한다. 이어서, 주어진 다운스트림 작업에서 모델 증류가 학생 모델의 성능에 어떤 영향을 미치는지를 정량적으로 분석한다. 이 분석을 통해 중요한 통찰을 도출할 수 있는데, 그것은 바로 이 성능 지표(performance metric)를 교사 모델의 샘플링 분포에 직접 포함시킬 수 있다는 점이다.

이 아이디어는 학생 모델의 가중치 공간(weight space) 상에서의 업데이트 방향을 따라, 교사 모델의 샘플링 분포가 어떻게 변화하는지를 나타내는 방향 도함수(directional derivative) 형태로 표현된다. 그러나 이 방향 도함수를 정확히 계산하는 데에는 높은 연산 비용이 들기 때문에, 논문 후반부에서는 이 항을 효율적으로 근사할 수 있는 유한 차분(finite-difference) 기반 근사 방법을 도출한다. 이 근사 방법은 계산 비용이 적고, §3에서 실험적으로 증명하듯, 효과적인 증류 방해 성능을 보인다.

2.1 기초 개념 (Preliminaries)

안티증류 샘플링의 설명을 수학적으로 정형화하기 위해, 먼저 필요한 기호와 정의를 소개한다. 우리는 대형 언어 모델(LLM)을 입력 토큰 시퀀스
x₁:ₜ = (x₁, …, xₜ)
로부터 다음 토큰에 대한 확률 분포를 출력하는 함수로 본다. 각 토큰 xⱼ는 어휘 집합 𝒱 = {1, …, V}의 원소다. 이 확률 분포는 가중치 θ로 파라미터화되며 다음과 같이 표현된다.

여기서 p(·|x₁:ₜ; θ)는 가능한 모든 다음 토큰에 대한 확률 분포를 의미하고, p(xₜ₊₁ | x₁:ₜ; θ)는 주어진 다음 토큰 xₜ₊₁의 확률 값을 나타낸다. 일반적으로 다음 토큰은 이 분포의 스케일 버전에서 샘플링되어 생성된다. 샘플링은 다음과 같이 이루어진다:
(샘플링 방식에는 top-k 샘플링—상위 k개의 확률을 가진 토큰들만 고려—, greedy 샘플링—τ→0일 때 가장 높은 확률의 토큰 선택—, beam search 등이 있으나, 여기서는 주로 temperature 기반 샘플링에 집중한다.)

여기서:

τ는 temperature로, 샘플링 분포의 무작위성(랜덤성)을 조절한다.
Z는 정규화 항으로, 가능한 모든 다음 토큰에 대해 지수 항을 합산하여 계산된다.

특히 τ = 0일 경우는 greedy 샘플링에 해당하며, 이 경우 다음 토큰 xₜ₊₁는 log 확률이 가장 큰 토큰으로 결정된다(즉, 결정적 선택).

안티증류 샘플링을 위한 요구 조건 (Desiderata for Antidistillation Sampling)

모델 증류(model distillation)는 학생 언어 모델(student language model)—파라미터 θₛ로 표현되며, 다음 토큰에 대한 분포는 p(· | x₁:ₜ; θₛ)—이 교사 모델(teacher model) θₜ로부터 생성된 데이터를 학습하는 과정을 의미한다. 이 두 모델은 동일한 파라미터 공간을 공유할 필요가 없으며, 따라서 θₛ와 θₜ는 직접 비교할 수 없다. 실제로 많은 경우에서 학생 모델은 교사보다 훨씬 적은 수의 파라미터를 가진다.

안티증류 샘플링의 목적은 다음과 같다:

교사 모델 θₜ로부터 좋은 성능을 내는 토큰을 생성하되,
그 토큰들로 학습한 학생 모델이 동일한 작업에서 성능이 향상되지 않도록 하는 것이다.

좀 더 구체적으로 말하면, 교사 모델의 샘플링 방식을 조정하여 다음의 두 목표를 동시에 달성하고자 한다:

I. 증류 불가능성 (Non-distillability)

안티증류 샘플링을 통해 생성된 토큰들로 학습한 학생 모델은, 교사의 일반적인(조정되지 않은) 분포 p(· | x₁:ₜ; θₜ)로부터 생성된 토큰들로 학습했을 때보다, 지정된 다운스트림 작업에서 더 낮은 성능을 보여야 한다.

II. 본래 성능 유지 (Nominal utility)

안티증류 샘플링으로 생성된 토큰들은 여전히 교사 모델의 원래 샘플링 분포 p(· | x₁:ₜ; θₜ) 하에서 높은 확률을 갖는 토큰이어야 한다.

이 두 조건을 동시에 만족함으로써, 교사 모델은 본래의 성능을 유지하면서도, 증류를 통해 해당 작업에서 성능을 복제당하는 것을 방지할 수 있다.

프록시 모델 (Proxy Models)

일반적으로, 우리가 증류될 학생 모델(student model)의 아키텍처를 사전에 알고 있을 것이라 기대하기는 어렵다. 따라서 실제 학생 모델에 직접 접근할 수 있다고 가정하기보다는, 프록시 학생 모델(proxy student model)의 개념에 기반하여 안티증류 샘플링을 개발한다. 편의상 이 프록시 학생 모델을 프록시 모델(proxy model)이라 부른다.

프록시 모델은 θₚ라는 파라미터로 정의되며, 이로부터 p(· | x₁:ₜ; θₚ) 형태의 샘플링 분포를 제공한다.

이후에서 우리가 중점적으로 다루는 핵심 요소는 다음과 같다:

이 방식이 일반화 가능한가? 즉, 안티증류 샘플링을 통해 프록시 모델이 교사 모델로부터 증류하지 못하도록 만든다면, 다른 구조의 실제 학생 모델들에 대해서도 동일하게 증류가 방지되는가?

2.2 안티증류 샘플링의 유도 (Deriving Antidistillation Sampling)

안티증류 샘플링을 구체적으로 구현하기 위해, 우리는 먼저 실수 값을 가지는 미분 가능한 다운스트림 손실 함수 ℓ에 접근할 수 있다고 가정한다. 이 손실 함수 ℓ는 프록시 모델이 특정 다운스트림 작업에서 얼마나 잘 수행하는지를 측정하는 지표이다. 이 논문 전체에서 ℓ는 고정된(그리고 가능하면 큰) 데이터셋에 대해 일련의 토큰 시퀀스를 생성할 때의 음의 로그 가능도(negative log-likelihood)로 설정된다. 예를 들어, ℓ은 대형 추론 벤치마크에서 각 토큰을 예측하는 교차 엔트로피 손실로 정의될 수 있다. 그러나 ℓ은 매우 일반적으로 설정 가능하며, 교사 모델 유지자가 의도적으로 방해하고자 하는 학생 모델의 능력을 포괄할 수 있다. 중요한 점은, 이 ℓ의 계산 비용이 매우 높을 수 있다는 것인데, 프록시 모델을 큰 분산이 있는 데이터셋에 대해 평가해야 할 수 있기 때문이다.

🎯 목표: 안티증류 샘플링의 목적

앞서 정의한 증류 불가능성(Non-distillability) 기준에 따라, 안티증류 샘플링의 목적은 다음과 같다:

교사 모델이 생성한 토큰 시퀀스로 파인튜닝될 때, 학생 모델(프록시 모델)의 손실 ℓ(θₚ)을 증가시키는 것.
(주의: ℓ이 클수록 성능이 나쁨)

⚙️ 업데이트에 따른 손실 변화 분석

교사 모델이 생성한 토큰 xₜ₊₁에 대해, 학생 모델 θₚ이 음의 로그 가능도를 최소화하도록 파인튜닝될 때, 그 업데이트는 다음과 같다:

여기서 η > 0은 학습률(step size)이다. 이 업데이트의 효과는 손실의 변화로 측정된다:

만약 Δ(xₜ₊₁ | x₁:ₜ) > 0이면 손실이 증가 → 우리가 원하는 방향
반대로 Δ < 0이면 손실이 감소 → 증류 성공

🧪 안티증류 샘플링 구현

이제 교사 모델의 원래 로그 확률 log p(xₜ₊₁ | x₁:ₜ; θₜ)에 Δ(xₜ₊₁ | x₁:ₜ)에 비례하는 패널티를 추가하여, 조정된 샘플링 분포를 다음과 같이 정의한다:

여기서:

Z는 정규화 항
λ > 0는 조절 계수로, 교사 성능 유지 vs 증류 방해 사이의 균형을 조절

🚫 실용성 문제: 계산 비용

이 방법의 직접적인 구현은 비현실적이다. 왜냐하면 모든 가능한 다음 토큰 xₜ₊₁ ∈ 𝒱에 대해 각각:

Δ(xₜ₊₁) 값을 계산해야 하고 (→ V개의 손실 계산)
V개의 그래디언트 연산이 필요하기 때문이다.

→ 이는 매우 비싼 연산이다. 따라서 이후에서는 이 계산을 효율적으로 근사하는 방법을 제시한다.

📊 그림 2 해설

그림 2는 λ를 조절함으로써 교사 모델 정확도와 증류 저항성(distillability) 사이의 균형을 제어할 수 있음을 보여준다.

Baseline: 단순히 temperature τ를 증가시켜서 증류 성능을 떨어뜨리는 방식
→ 이 경우 학생 성능을 원본 수준 이하로 떨어뜨리려면 교사 정확도가 20%까지 떨어져야 함
Antidistillation Sampling: 교사 모델의 정확도를 70% 수준으로 유지하면서도, 생성된 추론 과정을 통해 학생 성능을 원본 수준 이하로 낮출 수 있음

👉 안티증류 샘플링은 훨씬 효율적으로 증류 방해 효과를 달성할 수 있다.

효율적인 안티증류 샘플링 구현 (An efficient implementation of antidistillation sampling)

우리가 제안하는 안티증류 샘플링 접근법의 핵심은, 위에서 설명한 샘플링 과정을 효율적으로 근사하는 메커니즘이다.

먼저, 다음과 같은 점에 주목할 수 있다:

Δ(xₜ₊₁ | x₁:ₜ) 값은 학습률 η로 나눌 수 있으며, 이는 각 토큰에 대한 상대적 패널티를 바꾸지 않기 때문에 λ에 흡수시켜 정규화 항으로 사용할 수 있다.
이 값을 η → 0으로 보낼 때의 극한은 다음과 같다:

즉, 이 극한은 프록시 모델의 손실 함수의 그래디언트와 다음 토큰 로그 확률의 그래디언트 간의 내적(inner product)이다.

효율성의 핵심

식 (8)은 어휘 집합의 모든 토큰에 대해 손실 ℓ을 직접 계산할 필요 없이, 단 두 번의 그래디언트 계산만으로 샘플링 항을 근사할 수 있게 해준다.
단, 아직도 모든 후보 토큰마다 내적 계산을 해야 하므로, 이를 더 효율적으로 처리하기 위해 방향 도함수(directional derivative)의 대칭성을 활용해 다른 방향의 유한 차분(finite difference) 표현으로 변형한다:

이 방식의 핵심은, 프록시 모델의 두 버전—즉,

원래 모델 θₚ
업데이트된 모델 θₚ + ε ∇ℓ(θₚ)

만 사전에 저장해 두면, 모든 토큰에 대해 두 번의 forward pass만으로 안티증류 항을 계산할 수 있다는 점이다.

최종 근사식

이제 우리는 다음과 같이 근사된 패널티 항을 정의할 수 있다:

여기서 ε는 작게 설정되는 정규화 계수이며, ε → 0일 때 이 식은 식 (8)을 잘 근사하게 된다.

💡 참고: 이 내적을 정확하게 계산하려면 Jacobian-vector product를 사용할 수도 있지만, 실제 자동 미분 프레임워크에서 SDPA 같은 연산을 포함한 이 연산은 종종 제대로 지원되지 않으며, Flash Attention [24]은 FP16/BF16만 지원한다. 따라서 논문에서는 계산 편의성과 효율성을 위해 유한 차분 근사(finite difference approximation)를 사용하며, §C.1에서 autograd 기반 결과와 비교해 정확성을 검증한다.

최종 샘플링 방식

이제 교사 모델의 샘플링 분포는 다음과 같이 조정된다:

📋 알고리즘 요약 (Algorithm 1 개요)

프롬프트 x₁:ₜ가 주어졌을 때, 새로운 토큰 xₜ₊₁을 생성하는 안티증류 샘플링 절차는 다음과 같다:

(초기화 시 1회) 프록시 모델에 대해 다운스트림 손실 ℓ의 그래디언트를 계산한다.
(각 토큰 샘플링 시) 유한 차분 근사값 Δ̂(· | x₁:ₜ)을 계산하고, 이를 이용해 교사 모델의 소프트맥스 분포에서 토큰을 샘플링한다.

👉 즉, 비용이 많이 드는 연산은 1회, 그 이후는 가벼운 두 번의 forward pass로 효율적 실행 가능하다.

3. 실험 결과 (Empirical Results)

아키텍처 및 벤치마크

안티증류 샘플링의 실제 효과를 입증하기 위해, 실제 환경의 증류 과정을 시뮬레이션하며 교사 모델, 프록시 학생 모델, 학생 모델을 각각 독립적으로 설정해 실험을 진행했다.
구체적으로 다음과 같은 모델들을 사용하였다:

교사 모델: deepseek-ai/DeepSeek-R1-Distill-Qwen-7B [25]
프록시 모델: Qwen/Qwen2.5-3B [26]
학생 모델: meta-llama/Llama-3.2-3B [27]

교사 및 학생 모델의 성능은 GSM8K [8]와 MATH [7] 벤치마크에서 평가하였다. 이 벤치마크들은 고품질 추론 과정(trace)을 학습해야 높은 성능을 낼 수 있기 때문에 본 실험에 적합하다.

베이스라인 (Baselines)

실험 전반에 걸쳐 비교 대상으로는 temperature 샘플링을 사용하였다. 이 방식에서는 주어진 온도 τ를 기준으로 교사 모델의 분포에서 토큰을 샘플링하며, 이는 일반적인 API 호출 환경에서의 샘플링과 유사한 방식이다.
추가적인 베이스라인들과의 비교는 부록 §A에 제시되어 있다.

하이퍼파라미터 (Hyperparameters)

안티증류 샘플링에는 두 가지 주요 하이퍼파라미터가 있다:

ϵ: 유한 차분(finite difference) 근사 계산의 정밀도를 제어
λ: 샘플링 분포 내 안티증류 패널티 항의 영향력을 조절

ϵ의 선택과 관련하여, 부록 §C.1에서는 작은 모델을 대상으로 식 (11)의 유한 차분 근사가 식 (8)의 JVP(Jacobian-Vector Product)와 근사적으로 유사함을 실험적으로 검증하였다. 실제 실험에서는 BFloat16 기반 모델에서 ϵ=10^-4 값을 사용하였을 때 적절한 성능을 보였다.

λ에 대해서는, 샘플링 분포에 가해지는 섭동(perturbation)의 trade-off를 관찰하기 위해 여러 값을 실험적으로 탐색하였다.

3.1 주요 결과 (Main Results)

그림 1에서는 §2.1에서 제시된 안티증류 샘플링의 요구 조건(desiderata)을 효과적으로 충족함을 실험적으로 보여준다.
즉, 교사 모델의 정확도를 고정한 상태에서, 안티증류 샘플링으로 생성된 추론 과정을 기반으로 학습한 학생 모델은, temperature 샘플링으로 생성된 추론 과정을 사용한 모델에 비해 현저히 낮은 성능을 보인다.

증류에는 다음과 같은 설정으로 LoRA [28]를 사용하였다:

랭크(rank): 128
α: 128
드롭아웃 확률: 0
학습률: 0.0005
가중치 감쇠 계수(weight decay): 0.1
최대 그래디언트 노름: 1.0
러닝 스케줄: 코사인 스케줄 (cosine), 워밍업 비율 0.1
배치 크기: 32
학습 에폭 수: 4

그림 2에서는 λ 값을 변화시키며, 교사 성능과 증류 방지 효과 간의 trade-off를 조절할 수 있는 능력을 실험적으로 분석한다.
또한 프록시 모델과 학생 모델이 서로 다른 아키텍처를 갖는 조건에서도 안티증류 샘플링이 효과적으로 작동함을 확인하였다.
→ 이는 안티증류 샘플링이 아키텍처에 구애받지 않고 일반화될 수 있음을 시사한다.

4. 결론 (Conclusion)

프런티어 대형 언어 모델(LLM)의 높은 가치로 인해, 그 소유자는 모델을 보호하기 위한 적극적인 방안을 마련할 필요가 있다.
실제로 주요 프런티어 기업들이 자사 모델을 블랙박스 API 형태로만 공개하는 것은 모델 탈취(model stealing)의 위협을 이미 고려하고 있음을 보여준다.

하지만 최근 모델 증류의 효율성이 주목받고 있는 상황에서, 모델 내에 내재된 정보 자산을 보호하려는 입장이라면 증류 공격에 대한 방어 전략이 필수적이다.

본 논문은 그에 대한 개념 증명(proof-of-concept)으로서, 샘플링 분포를 조정하여 증류를 방해하는 ‘안티증류 샘플링’ 기법이 효과적임을 보였다.

앞으로 본 방법을 더욱 정교하게 개선하고 확장하여, 보다 안전한 차세대 프런티어 모델을 위한 기반 기술로 발전시키는 데 큰 기대를 가지고 있다.

'인공지능' 카테고리의 다른 글

BitNet b1.58 2B4T Technical Report (2)	2025.04.24
Gaussian Mixture Flow Matching Models (4)	2025.04.22
Hogwild! Inference: Parallel LLM Generation via Concurrent Attention (2)	2025.04.18
DEIM: DETR with Improved Matching for Fast Convergence (2)	2025.04.17
EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention (2)	2025.04.16

JunHan's AI Factory

Antidistillation Sampling

1. 서론

1.1 관련 연구

✅ 핵심 주장 1: 모델 증류는 매우 강력하고 실제로도 널리 사용되고 있다

✅ 핵심 주장 2: reasoning trace 기반 증류는 보안적·전략적 위협이 될 수 있다

✅ 핵심 주장 3: 안티증류 샘플링은 이 위협을 방어할 수 있는 새로운 방식이다

2. 안티증류 샘플링 (Antidistillation Sampling)

접근 방식 개요

2.1 기초 개념 (Preliminaries)

안티증류 샘플링을 위한 요구 조건 (Desiderata for Antidistillation Sampling)

I. 증류 불가능성 (Non-distillability)

II. 본래 성능 유지 (Nominal utility)

프록시 모델 (Proxy Models)

2.2 안티증류 샘플링의 유도 (Deriving Antidistillation Sampling)

🎯 목표: 안티증류 샘플링의 목적

⚙️ 업데이트에 따른 손실 변화 분석

🧪 안티증류 샘플링 구현

🚫 실용성 문제: 계산 비용

📊 그림 2 해설

효율적인 안티증류 샘플링 구현 (An efficient implementation of antidistillation sampling)

효율성의 핵심

최종 근사식

최종 샘플링 방식

📋 알고리즘 요약 (Algorithm 1 개요)

3. 실험 결과 (Empirical Results)

아키텍처 및 벤치마크

베이스라인 (Baselines)

하이퍼파라미터 (Hyperparameters)

3.1 주요 결과 (Main Results)

4. 결론 (Conclusion)

'인공지능' 카테고리의 다른 글

티스토리툴바

Antidistillation Sampling

1. 서론

1.1 관련 연구

✅ 핵심 주장 1: 모델 증류는 매우 강력하고 실제로도 널리 사용되고 있다

✅ 핵심 주장 2: reasoning trace 기반 증류는 보안적·전략적 위협이 될 수 있다

✅ 핵심 주장 3: 안티증류 샘플링은 이 위협을 방어할 수 있는 새로운 방식이다

2. 안티증류 샘플링 (Antidistillation Sampling)

접근 방식 개요

2.1 기초 개념 (Preliminaries)

안티증류 샘플링을 위한 요구 조건 (Desiderata for Antidistillation Sampling)

I. 증류 불가능성 (Non-distillability)

II. 본래 성능 유지 (Nominal utility)

프록시 모델 (Proxy Models)

2.2 안티증류 샘플링의 유도 (Deriving Antidistillation Sampling)

🎯 목표: 안티증류 샘플링의 목적

⚙️ 업데이트에 따른 손실 변화 분석

🧪 안티증류 샘플링 구현

🚫 실용성 문제: 계산 비용

📊 그림 2 해설

효율적인 안티증류 샘플링 구현 (An efficient implementation of antidistillation sampling)

효율성의 핵심

최종 근사식

최종 샘플링 방식

📋 알고리즘 요약 (Algorithm 1 개요)

3. 실험 결과 (Empirical Results)

아키텍처 및 벤치마크

베이스라인 (Baselines)

하이퍼파라미터 (Hyperparameters)

3.1 주요 결과 (Main Results)

4. 결론 (Conclusion)

'인공지능' 카테고리의 다른 글

'인공지능' Related Articles

티스토리툴바