Markov Decision Process 썸네일형 리스트형 Chapter3. Markov Decision Process Markov Decision Processes (MDP)는 강화 학습을 위한 환경을 공식적으로 설명하며, 환경을 완전히 관찰할 수 있는 경우 거의 모든 RL 문제는 MDP로 공식화할 수 있다. 그렇다고 부분적으로 관찰 가능한 문제를 MDP로 변환할 수 없는 것은 아니다. 여기서부터는 action, state, reward를 행동, 환경, 보상으로 섞어쓸 것이다. Markov Property • 미래는 현재 주어진 과거와 독립적이다 • state는 기록에서 모든 관련 정보를 캡처한다 • state가 알려지면 기록을 버릴 수 있다 즉 . state는 미래에 대한 충분한 통계이다 State Transition Matrix(상태 전이 행렬) • Markov 상태 𝑠 및 후속 상태 𝑠′의 경우 상태 전이 확률은 .. 더보기 이전 1 다음