시작하기에 앞서 강화학습이라고 하면 다들 아래의 사진을 떠올릴 것이다.
바둑 인공지능인 알파고가 이세돌 9단을 이긴 대국이다.
하지만 이외에 강화학습으로 떠오르는 것은 잘 없을것이다. 이건 당연한 것이다. 강화학습은 많은 양의 학습시간 투자되는 자원에 비해 실생활에서 보여지는 것이 쉽지 않기 때문이다. 그러니 그런 강화학습을 공부하는 것은 멍청해보이고 왜 하는지 모를 수도 있다. 하지만 모두에게 혁신으로 다가온 ChatGPT는 현재도 강화학습으로 사용자들의 반응을 학습하고 있다. 보이지 않는 곳에서 강화학습은 강력하게 점점 다가오고 있다. 이를 바탕으로 강화학습 공부를 한번 시작해보자.
Intro에서는 이 그림만 알고가면된다.
강화학습의 기본 구성이 Agent, Environmet, action, observation, reward로 이루어져있다는 것.
'강화학습' 카테고리의 다른 글
Chapter6. Model-Free Control (0) | 2023.05.22 |
---|---|
Chapter 5. Model-free Prediction (1) | 2023.05.21 |
Chapter4. Model-based Planning (0) | 2023.05.21 |
Chapter3. Markov Decision Process (0) | 2023.05.21 |
Chapter 2 Reinforcement Learning Overview (0) | 2023.05.21 |