본문 바로가기

강화학습

Chapter 1 Introduction

시작하기에 앞서 강화학습이라고 하면 다들 아래의 사진을 떠올릴 것이다.

바둑 인공지능인 알파고가 이세돌 9단을 이긴 대국이다.

하지만 이외에 강화학습으로 떠오르는 것은 잘 없을것이다. 이건 당연한 것이다. 강화학습은 많은 양의 학습시간 투자되는 자원에 비해 실생활에서 보여지는 것이 쉽지 않기 때문이다. 그러니 그런 강화학습을 공부하는 것은 멍청해보이고 왜 하는지 모를 수도 있다. 하지만 모두에게 혁신으로 다가온 ChatGPT는 현재도 강화학습으로 사용자들의 반응을 학습하고 있다. 보이지 않는 곳에서 강화학습은 강력하게 점점 다가오고 있다. 이를 바탕으로 강화학습 공부를 한번 시작해보자.

 

Intro에서는 이 그림만 알고가면된다.

강화학습의 기본 구성이 Agent, Environmet, action, observation, reward로 이루어져있다는 것.

'강화학습' 카테고리의 다른 글

Chapter6. Model-Free Control  (0) 2023.05.22
Chapter 5. Model-free Prediction  (1) 2023.05.21
Chapter4. Model-based Planning  (0) 2023.05.21
Chapter3. Markov Decision Process  (0) 2023.05.21
Chapter 2 Reinforcement Learning Overview  (0) 2023.05.21