Open Assistant 썸네일형 리스트형 일반적으로 사용되는 챗봇의 원리 최근에 떠오르고 있는 Chat GPT나 구글의 바드는 일반저긍로 다음의 원리와 같이 작동할 것이다. 이를 간단하게 해설하도록 하겠다. 먼저, 우리는 데이터들을 수집해야한다. 예를들어, 코딩, 문장, 질문, 그에 대한 정답들을 데이터세트 형태로 모으고 이를 supervised learning을 한다. 두번째는 이렇게 만들어진 모델에서도 중복된 데이터들이 있을 것이고 이에 대한 차등을 주며 reward model을 추가적으로 생성한다. 그러면 우리는 2개의 네트워크가 생성되었다. 하지만 지속가능한 챗봇모델을 만들려면 강화학습이 일반적으로 필요하다. 따라서 PPO와 같은 믿을 수 있을 정도로만 업데이트 되는 안전한 강화학습 모델에 supervised learning 네트워크를 기본 모델로 사용하고 (Actor.. 더보기 오픈 어시스턴스(Open Assistant) 현재 대한민국 언어에 대한 label, prompt 생성에 참여중. 닉네임: JunHan Zang 더보기 이전 1 다음