https://arxiv.org/abs/2401.10020
Self-Rewarding Language Models
We posit that to achieve superhuman agents, future models require superhuman feedback in order to provide an adequate training signal. Current approaches commonly train reward models from human preferences, which may then be bottlenecked by human performan
arxiv.org
간단 명료
사람이 판단하던 RLHF에서 인공지능이 인공지능을 판단하는 단계로 넘어가자는 이야기
강화학습에서 이미 전년도에 gpt로 reward를 주었을때, 아타리 모델에서 더 빠른 학습을 보여준 논문 존재
강화학습에서 이미 논의 되었던 문제임
예전에 아예 윈도우를 바탕으로 teaching하려고 했던 코드
https://github.com/cs20131516/Torch_kr
GitHub - cs20131516/Torch_kr: Torch_study
Torch_study. Contribute to cs20131516/Torch_kr development by creating an account on GitHub.
github.com