Model-Free Control 썸네일형 리스트형 Chapter6. Model-Free Control Model-free Reinforcement Learning 모델-프리 강화학습은 알려진 MDP(Model) 없이 가치 함수를 최적화하는 방법을 의미합니다. 이를 통해 어떻게 더 나은 정책을 학습할 수 있는지 알아보겠습니다. 모델-프리 강화학습에서의 모델-프리 제어 (개선)은 다음과 같은 과정을 거칩니다: 1. 현재의 정책에 따라 가치 함수를 추정합니다. 이를 통해 현재 정책의 성능을 알 수 있습니다. 2. 추정된 가치 함수를 기반으로, 정책을 개선합니다. 개선된 정책은 더 높은 보상을 얻을 수 있는 방향으로 조정됩니다. 3. 새로운 정책을 기반으로 가치 함수를 다시 추정하고, 정책 개선을 반복합니다. 이 과정을 반복하면서 점차적으로 더 나은 정책을 학습합니다. 모델-프리 강화학습은 MDP의 모델 정보가.. 더보기 이전 1 다음