https://arxiv.org/abs/2401.10020
간단 명료
사람이 판단하던 RLHF에서 인공지능이 인공지능을 판단하는 단계로 넘어가자는 이야기
강화학습에서 이미 전년도에 gpt로 reward를 주었을때, 아타리 모델에서 더 빠른 학습을 보여준 논문 존재
강화학습에서 이미 논의 되었던 문제임
예전에 아예 윈도우를 바탕으로 teaching하려고 했던 코드
https://github.com/cs20131516/Torch_kr