본문 바로가기

강화학습

Chapter6. Model-Free Control Model-free Reinforcement Learning 모델-프리 강화학습은 알려진 MDP(Model) 없이 가치 함수를 최적화하는 방법을 의미합니다. 이를 통해 어떻게 더 나은 정책을 학습할 수 있는지 알아보겠습니다. 모델-프리 강화학습에서의 모델-프리 제어 (개선)은 다음과 같은 과정을 거칩니다: 1. 현재의 정책에 따라 가치 함수를 추정합니다. 이를 통해 현재 정책의 성능을 알 수 있습니다. 2. 추정된 가치 함수를 기반으로, 정책을 개선합니다. 개선된 정책은 더 높은 보상을 얻을 수 있는 방향으로 조정됩니다. 3. 새로운 정책을 기반으로 가치 함수를 다시 추정하고, 정책 개선을 반복합니다. 이 과정을 반복하면서 점차적으로 더 나은 정책을 학습합니다. 모델-프리 강화학습은 MDP의 모델 정보가.. 더보기
Chapter 5. Model-free Prediction 우리는 전 chapter에서는 Model-based Planning에 대해서 알아보았다. Model-based Planning(모델 기반 계획)은 주어진 환경 모델을 사용하여 계획을 수립하는 방법이었다. 모델 기반 계획은 환경의 동작을 사전에 알고 있으며, 이를 활용하여 가능한 행동 시퀀스를 시뮬레이션하고 평가하여 최적의 행동 계획을 수립했다. 모델 기반 계획은 환경 모델을 사용하여 미리 상태 전이 확률과 보상 함수를 추정하고, 이를 기반으로 최적의 행동 선택을 수행했다. 이번 chapter에서는 주어진 상태에서의 기대 반환값 또는 가치를 추정하여 에이전트가 어떤 상태에서 얼마나 좋은지를 평가하는 Model-free Prediction에 대해서 알아보자. Model-free Reinforcement Le.. 더보기
Chapter4. Model-based Planning 지금까지 공식을 배웠다면 이를 적용하는 것에 대해서 알아보자. Planning(계획)과 Reinforcement Learning(강화학습)은 강화학습의 두 가지 중요한 접근 방법이 있다. 각각의 방법은 다음과 같이 설명된다: Planning(계획): 계획은 미리 환경 모델을 알고 있고, 그 모델을 기반으로 일련의 행동을 예측하고 최적의 행동 계획을 세우는 프로세스입니다. 계획에서는 환경의 동작을 모델링하고 이 모델을 사용하여 가능한 행동 순서를 시뮬레이션하고 평가합니다. 계획은 주어진 환경에서 최적의 행동 시퀀스를 찾는 데 유용합니다. 환경 모델 구축: 주어진 환경에 대한 모델을 구축합니다. 모델은 상태 전이 확률과 보상 함수를 포함합니다. 계획 수립: 모델을 기반으로 가능한 행동 시퀀스를 탐색하고 평가.. 더보기
Chapter3. Markov Decision Process Markov Decision Processes (MDP)는 강화 학습을 위한 환경을 공식적으로 설명하며, 환경을 완전히 관찰할 수 있는 경우 거의 모든 RL 문제는 MDP로 공식화할 수 있다. 그렇다고 부분적으로 관찰 가능한 문제를 MDP로 변환할 수 없는 것은 아니다. 여기서부터는 action, state, reward를 행동, 환경, 보상으로 섞어쓸 것이다. Markov Property • 미래는 현재 주어진 과거와 독립적이다 • state는 기록에서 모든 관련 정보를 캡처한다 • state가 알려지면 기록을 버릴 수 있다 즉 . state는 미래에 대한 충분한 통계이다 State Transition Matrix(상태 전이 행렬) • Markov 상태 𝑠 및 후속 상태 𝑠′의 경우 상태 전이 확률은 .. 더보기
Chapter 2 Reinforcement Learning Overview Reinforcement Learning (RL)은 불확실성 하에서의 의사 결정 및 경험을 통해 학습을 모델링하는 기계 학습 유형이라고 정의할 수 있다. 강화 학습이 다른 기계 학습 패러다임과 다른 점은 다음과 같다. • 그라운드 트루스가 없고 reward 신호만 있음 • 피드백이 즉각적이지 않고 지연됨 • 시간이 정말 중요함(순차적이고 독립적이지 않고 동일하게 분산된 데이터). • 에이전트의 작업은 수신하는 후속 데이터에 영향을 미침 그라운드 트루스가 없다는게, 나는 가장 큰 장점이라고 생각한다. 왜냐면 어떤 상황에서도 학습이 가능하기 때문이다. 예를 들어 일반적인 NN은 로봇보고 알아서 걸으라고 하면 걸을까? 절대 못한다. 왜냐면 정답을 모르니까. 하지만 강화학습은 이걸 반복시켜서 학습하기 때문에 시.. 더보기
Chapter 1 Introduction 시작하기에 앞서 강화학습이라고 하면 다들 아래의 사진을 떠올릴 것이다. 바둑 인공지능인 알파고가 이세돌 9단을 이긴 대국이다. 하지만 이외에 강화학습으로 떠오르는 것은 잘 없을것이다. 이건 당연한 것이다. 강화학습은 많은 양의 학습시간 투자되는 자원에 비해 실생활에서 보여지는 것이 쉽지 않기 때문이다. 그러니 그런 강화학습을 공부하는 것은 멍청해보이고 왜 하는지 모를 수도 있다. 하지만 모두에게 혁신으로 다가온 ChatGPT는 현재도 강화학습으로 사용자들의 반응을 학습하고 있다. 보이지 않는 곳에서 강화학습은 강력하게 점점 다가오고 있다. 이를 바탕으로 강화학습 공부를 한번 시작해보자. Intro에서는 이 그림만 알고가면된다. 강화학습의 기본 구성이 Agent, Environmet, action, obs.. 더보기