본문 바로가기

소식

FACTS Leaderboard

https://www.kaggle.com/facts-leaderboard

 

FACTS Leaderboard | Kaggle

A novel benchmark from Google DeepMind designed to evaluate the factual accuracy and grounding of AI models

www.kaggle.com

 

FACTS 리더보드
FACTS는 Google DeepMind와 Google Research가 공동으로 개발한 새로운 벤치마크로, AI 모델의 사실적 정확성과 주어진 문서에 대한 근거 제시 능력을 평가하기 위해 고안되었습니다.

 

소개 (Introduction)

FACTS Grounding 벤치마크는 대형 언어 모델(LLM)이 여러 도메인에 걸쳐 제공된 장문의 문서를 기반으로, 사실적으로 정확한 응답을 생성할 수 있는지를 평가합니다. FACTS Grounding은 단순한 사실 질의응답을 넘어, LLM의 응답이 제공된 문맥에 완전히 근거를 두고 있는지, 그리고 긴 문서에서 얻은 정보를 올바르게 종합하는지를 확인합니다. 이를 위해 표준화된 평가 프레임워크를 제공함으로써, 지식이 풍부하면서도 신뢰할 만한 LLM을 개발하고 실제 환경에 책임감 있게 적용할 수 있도록 돕는 것을 목표로 합니다.

 

 

FACTS Grounding에 대하여

FACTS Grounding은 인간 평가자들이 수집한 새로운 사실적 근거 예시를 바탕으로 합니다. 각 예시는 시스템 지시사항, 사용자 요청, 그리고 최대 32k 토큰 분량의 컨텍스트 문서로 구성되며, 장문의 응답을 요구합니다. 이러한 예시들에 대한 AI의 응답은 여러 자동화된 판정 모델(LLM Judge)들의 앙상블로 평가됩니다.

 

자세한 내용은 Examples Section 또는 Technical Report를 참조해 주세요.

 

예시 분포 (Grounding Example Distribution)

전체 FACTS Grounding 벤치마크는 총 1,719개의 예시로 구성됩니다. 이 중 860개는 FACTS Grounding Public Examples Dataset에 공개되어 있으며, 나머지 859개는 벤치마크 오염을 방지하기 위해 비공개로 유지됩니다. 현재 페이지의 리더보드 결과는 공개 세트와 비공개 세트 모두를 합산한 결과입니다.

 

 

FACTS Grounding 실행 방법 (Running FACTS Grounding)

Starter Code

FACTS Grounding의 성능을 직접 테스트해보고 싶다면, Technical Report에 설명된 방법론을 참고하여 공개 예시 세트에 대한 모델 응답을 생성할 수 있습니다.

 

사실성 점수 계산 (Computing the Factuality Score)

FACTS Grounding 벤치마크의 사실성 점수(Factuality Score)는 먼저 서로 다른 세 개의 최첨단(Frontier) LLM 평가자들이 응답이 주어진 문맥에 근거하고 있는지를 판별함으로써 산출됩니다. 모든 주장(claim)이 문맥에 의해 직접적으로 뒷받침되거나, 문맥 지원이 필요 없는 경우에는 “정확(accurate)”으로 분류하고, 그렇지 않으면 “부정확(inaccurate)”으로 간주합니다. 각 평가자는 정확한 응답의 비율을 독립적으로 계산하여 자신만의 사실성 점수를 부여합니다. 편향을 줄이기 위해 최종 점수는 세 평가자의 평균으로 산출됩니다. 응답이 “부적격(ineligible)”으로 판정된 경우 사실성 점수 계산 과정에서 제외되며, 사실적으로 부정확한 것으로 처리됩니다. 최종 리더보드에 보고되는 사실성 점수는 공개 세트와 비공개 세트 모두를 합산한 평균입니다.

 

품질 필터링 (Quality Filtering)

짧거나 회피적인 응답만 제출하여 사실성 점수를 “속이는” 상황을 방지하기 위해, FACTS Grounding은 품질 필터링 과정을 적용합니다. 이 과정에서는 동일한 세 평가자들이 다른 프롬프트 템플릿을 사용하여, 사용자 요청에 충분히 대응하지 못한 응답을 걸러냅니다. 특정 응답이 “부적격” 판정을 받으려면 세 평가자 모두가 동시에 부적격이라고 판단해야 합니다. 이렇게 함으로써 부실한 응답은 리더보드의 최종 점수에서 제외됩니다.

 

새로운 모델 추가 (Adding New Models)

FACTS Grounding 리더보드는 계속 업데이트될 예정이며, 새로운 모델에 대한 평가 요청을 환영합니다! 우선은 최첨단 언어 모델에 대한 커버리지를 확장하는 데 집중할 계획입니다.

 

FACTS Grounding 벤치마크에는 비공개로 유지되는 프롬프트 세트가 포함되어 있어, 공식 결과는 Kaggle 팀이 수행합니다.

 

평가를 위한 모델을 제출하려면 양식을 작성해 주세요.

 

한계점 (Limitations)

이 벤치마크는 사실적 정확성을 평가하는 데 있어 진전된 접근법을 제시하지만, 아직 해결해야 할 과제가 남아 있습니다. 첫째, 평가에 사용되는 자동화 LLM 판정 모델은 완벽하지 않아 노이즈가 포함될 수 있습니다. 이를 완화하기 위해 여러 최첨단 LLM 평가자를 앙상블 형태로 구성하고, 그 결과를 평균하여 사용합니다. 둘째, FACTS 벤치마크는 장문의 텍스트 입력에 대한 근거 기반 응답 평가만 다루고 있으므로, 앞으로 확장 가능한 여지가 있습니다.

 

------------------------------------

 

FACTS Grounding과 같은 벤치마크는 이러한 문제를 어느 정도 줄이기 위해 다음과 같은 방식으로 설계됩니다.

  1. 여러 서로 다른 ‘프런티어’ 모델을 평가자로 사용
    하나의 모델이 아닌, 서로 다른 아키텍처나 학습 방식(예: Anthropic Claude, OpenAI GPT, Google Gemini 등)을 가진 모델들을 평가에 동시에 투입합니다. 모델별로 지식 범위, 추론 방식, 학습 데이터가 다르므로, 한 모델의 약점을 다른 모델이 어느 정도 보완할 수 있다는 가정이 있습니다.
  2. 앙상블(ensemble) 방식 평가
    하나의 모델 평가 결과가 곧바로 점수로 이어지지 않고, 여러 모델의 평가 결과를 평균·투표(majority vote)·합의(concordance) 등의 방식으로 취합합니다. 이를 통해 단일 모델의 편향이나 오류를 완화하고, 전체적으로 더 안정적인 지표를 얻으려는 의도입니다.
  3. ‘부적격(ineligible)’ 응답에 대한 제재
    단순히 질문에 답변을 피하거나, 근거와 상관없는 짧은 답변을 해서 ‘답변이 틀렸을 위험’을 회피하려는 시도를 막기 위해, 추가적인 품질(quality) 필터링 단계를 둡니다. 예를 들어, 세 모델 모두가 특정 응답을 “이 질문에는 실제로 답을 안 했다”고 판단하면 그 응답은 순위에서 제외됩니다. 이런 장치를 통해, 단순 회피성 응답으로 사실성 점수를 높이는 것을 억제합니다.
  4. 공개·비공개 데이터 혼합
    일부 공개 예시와 함께, 미리 공개되지 않은 평가 세트를 별도로 보유합니다. 모델 개발자가 스스로 튜닝(tuning)할 때 공개 세트만 보고 과적합(overfitting)하는 것을 방지하기 위함입니다. 실제 랭킹을 매길 때는 비공개 예시까지 포함한 최종 점수를 사용합니다.

물론, 이 모든 과정이 “LLM 평가자를 여러 개 쓴다고 해서 정말 인간 수준의 완벽한 평가가 되느냐?”라는 의문에서 완전히 자유롭지는 않습니다. 여전히 LLM이 가진 공통적 편향이나 “사실적 검증(factual checking)”에서의 한계가 남아 있습니다. 그러나 현재로서는 운영·확장·재현성(reproducibility) 면에서 인간 평가(사람을 많이 고용해 매번 평가)를 항상 수행하기가 쉽지 않기 때문에, 여러 LLM을 동시에 이용하는 자동 평가 기법이 실무에서 점차 표준화되는 추세입니다.

 

결국 FACTS Grounding과 같은 벤치마크는 이상적인 “최종 정답”이라기보다, 서로 다른 모델들의 상대적인 사실성(factuality) 경향을 비교하는 데 도움을 주는 도구에 가깝다고 볼 수 있습니다. 장기적으로는 인간이 만드는 골드 스탠더드(gold standard)를 기반으로, 자동 평가 기법과 결합해 점차 정확도를 높이는 방향으로 나아갈 전망입니다.

 

FACTS Grounding의 Factuality Score는 “3개(이상)의 서로 다른 평가 모델이 얼마나 일관되게 ‘이건 사실에 부합한다’고 판단하는가?”를 수치화한 것이라 볼 수 있습니다. 3개 모델의 합의가 필요한 구조는 완벽하지는 않지만, 현시점에서 서로 다른 LLM 간의 교차 검증으로 모델의 ‘상대적 사실성’을 비교하기 위한 타협안이라고 이해하면 됩니다.

 

간단한 흐름

flowchart TD A[입력] --> B[컨텍스트 문서
최대 32k 토큰] A --> C[시스템 지시사항] A --> D[사용자 요청] B & C & D --> E[AI 모델 응답] E --> F[품질 필터링] F -->|부적격| G[평가 제외] F -->|적격| H[사실성 평가] subgraph 평가프로세스[자동화된 평가 프로세스] H --> I[프런티어 LLM
평가자 1] H --> J[프런티어 LLM
평가자 2] H --> K[프런티어 LLM
평가자 3] I & J & K --> L[평균 점수 계산] end L --> M[최종 사실성 점수] subgraph 데이터셋[FACTS 데이터셋] N[공개 데이터셋
860개 예시] O[비공개 데이터셋
859개 예시] end