전체 글 썸네일형 리스트형 Chapter 11. Imitation Learning References • ICML 2018 Imitation Learning Tutorial https://sites.google.com/view/icml2018-imitation-learning/ ICML2018: Imitation Learning Abstract In this tutorial, we aim to present to researchers and industry practitioners a broad overview of imitation learning techniques and recent applications. Imitation learning is a powerful and practical alternative to reinforcement learning for learn si.. 더보기 Chapter 10. Exploration Exploration vs. Exploitation을 다시 되돌아보자. 아래의 이미지를 통해 항상 가던 길을 가는게 Exploitation, 새로운 곳으로 가는게 Exploration이라는 것을 이전 chapter에서 배웠다. Exploration vs. Exploitation Dilemma 그지만 우리는 새로운 상태나 행동을 탐색하면서 최적의 정책을 찾아야 하지만, 이미 알고 있는 지식을 이용하여 최대한의 보상을 얻어야 합니다. 이런 걸 Exploration vs. Exploitation Dilemma라고 합니다. 탐색과 이용의 딜레마(Exploration vs. Exploitation Dilemma)은 온라인 의사 결정에서 기본적인 선택을 의미합니다. 이는 다음과 같은 선택 사항을 포함합니다: 이용(.. 더보기 멘탈리티 보호되어 있는 글입니다. 더보기 Chapter 9. Policy Gradients 강화학습 알고리즘은 보통 세 가지 유형으로 분류됩니다. 값 기반 (Value-based) 알고리즘: 학습된 가치 함수 (Value Function)을 기반으로 합니다. 암묵적인 정책 (Implicit Policy)을 사용하여 행동을 선택합니다 (예: 𝜀-탐욕 정책). 가치 함수를 학습하여 최적의 행동 가치를 추정하고 이를 기반으로 행동을 선택합니다. 정책 기반 (Policy-based) 알고리즘: 가치 함수를 사용하지 않고, 직접 정책 (Policy)을 학습합니다. 학습된 정책을 기반으로 행동을 선택합니다. 보상을 최대화하기 위해 정책을 개선하고, 보상에 대한 기대값을 최대화하는 방향으로 학습합니다. 액터-크리틱 (Actor-Critic) 알고리즘: 값 함수와 정책을 동시에 학습합니다. 학습된 가치 함수.. 더보기 Chapter 8. Advanced Value Function Approximation DQN을 기반으로 한 다른 연구들을 알아보자. • 아타리에서의 성공은 심층 신경망을 사용하여 강화학습에서 가치 함수 근사를 수행하는 데 큰 흥미를 불러일으켰습니다. • 즉시 개선된 몇 가지 방법들 (그 외에도 다른 많은 방법들이 있습니다!) • Double DQN (Double Q 학습을 이용한 심층 강화학습, Van Hasselt 등, AAAI 2016) • Prioritized Replay (우선순위 기반 경험 재생, Schaul 등, ICLR 2016) • Dueling DQN (ICML 2016 최우수 논문) (심층 강화학습을 위한 Dueling 네트워크 아키텍처, Wang 등, ICML 2016) DQN을 기반으로 한 연구는 계속해서 진화하고 있으며, 다양한 개선 및 변형이 제안되고 있습니다. .. 더보기 Chapter 7. Value Function Approximation 지난 Chapter 내용을 간단히 복습해보겠습니다. 우리가 실제 모델을 알지 못할 때는 어떻게 해야 하는지, 일반화된 정책 개선 방법에 대해 배웠습니다. 탐험의 중요성을 이해하고, MC와 TD를 사용한 모델 없는 제어에 대해서도 알아보았습니다. SARSA와 Q-러닝에 대해서도 다루었습니다. 실제 모델을 알지 못할 때에도 모델 없는 강화 학습을 사용하여 최적의 정책을 학습하는 방법을 알아보았습니다. MC와 TD를 사용하여 정책을 개선하는 방법에 대해서도 살펴보았습니다. 또한, SARSA와 Q-러닝 알고리즘을 이용하여 최적의 행동 가치 함수를 학습하는 방법에 대해서도 다루었습니다. Example : Q-Table for FrozenLake Limitation of Q-Learning using a Q-Tab.. 더보기 Chapter6. Model-Free Control Model-free Reinforcement Learning 모델-프리 강화학습은 알려진 MDP(Model) 없이 가치 함수를 최적화하는 방법을 의미합니다. 이를 통해 어떻게 더 나은 정책을 학습할 수 있는지 알아보겠습니다. 모델-프리 강화학습에서의 모델-프리 제어 (개선)은 다음과 같은 과정을 거칩니다: 1. 현재의 정책에 따라 가치 함수를 추정합니다. 이를 통해 현재 정책의 성능을 알 수 있습니다. 2. 추정된 가치 함수를 기반으로, 정책을 개선합니다. 개선된 정책은 더 높은 보상을 얻을 수 있는 방향으로 조정됩니다. 3. 새로운 정책을 기반으로 가치 함수를 다시 추정하고, 정책 개선을 반복합니다. 이 과정을 반복하면서 점차적으로 더 나은 정책을 학습합니다. 모델-프리 강화학습은 MDP의 모델 정보가.. 더보기 Chapter 5. Model-free Prediction 우리는 전 chapter에서는 Model-based Planning에 대해서 알아보았다. Model-based Planning(모델 기반 계획)은 주어진 환경 모델을 사용하여 계획을 수립하는 방법이었다. 모델 기반 계획은 환경의 동작을 사전에 알고 있으며, 이를 활용하여 가능한 행동 시퀀스를 시뮬레이션하고 평가하여 최적의 행동 계획을 수립했다. 모델 기반 계획은 환경 모델을 사용하여 미리 상태 전이 확률과 보상 함수를 추정하고, 이를 기반으로 최적의 행동 선택을 수행했다. 이번 chapter에서는 주어진 상태에서의 기대 반환값 또는 가치를 추정하여 에이전트가 어떤 상태에서 얼마나 좋은지를 평가하는 Model-free Prediction에 대해서 알아보자. Model-free Reinforcement Le.. 더보기 이전 1 ··· 49 50 51 52 53 54 55 ··· 62 다음