본문 바로가기

DQN

Chapter 7. Value Function Approximation 지난 Chapter 내용을 간단히 복습해보겠습니다. 우리가 실제 모델을 알지 못할 때는 어떻게 해야 하는지, 일반화된 정책 개선 방법에 대해 배웠습니다. 탐험의 중요성을 이해하고, MC와 TD를 사용한 모델 없는 제어에 대해서도 알아보았습니다. SARSA와 Q-러닝에 대해서도 다루었습니다. 실제 모델을 알지 못할 때에도 모델 없는 강화 학습을 사용하여 최적의 정책을 학습하는 방법을 알아보았습니다. MC와 TD를 사용하여 정책을 개선하는 방법에 대해서도 살펴보았습니다. 또한, SARSA와 Q-러닝 알고리즘을 이용하여 최적의 행동 가치 함수를 학습하는 방법에 대해서도 다루었습니다. Example : Q-Table for FrozenLake Limitation of Q-Learning using a Q-Tab.. 더보기
Pytorch based DQN DQN 및 강화학습을 Tensorflow로만 작성하다 Pytorch이가 점차 올라오는 추세가 되어 Pytorch 공부를 겸하여 코드 작성을 하였다. Cartpole environment에서 return해주는 float 값들을 활용하는 DQN 코드를 먼저 작성하였다. 해당 코드를 작성후 Tensorflow와 시간차이를 확인해보니 동일한 알고리즘으로 작성한 것 같은데, 연산 속도에서 훨씬 빠른 속도를 체감하였다. Cartpole environment에서 return해주는 float 값이 아닌 Cartpole environment를 사람처럼 보면서 입력받으며 CNN을 활용하기 위해 CNN-DQN을 작성하였다. 이전 버전들에서는 env.render만으로도 작동되던 방식이 env.render('human')으로 .. 더보기