본문 바로가기

강화학습

Voyager: An Open-Ended Embodied Agent with Large Language Models https://arxiv.org/abs/2305.16291?utm_source=substack&utm_medium=email Voyager: An Open-Ended Embodied Agent with Large Language Models We introduce Voyager, the first LLM-powered embodied lifelong learning agent in Minecraft that continuously explores the world, acquires diverse skills, and makes novel discoveries without human intervention. Voyager consists of three key components: 1) an arxiv... 더보기
cal q learning https://arxiv.org/abs/2303.05479 Cal-QL: Calibrated Offline RL Pre-Training for Efficient Online Fine-Tuning A compelling use case of offline reinforcement learning (RL) is to obtain a policy initialization from existing datasets followed by fast online fine-tuning with limited interaction. However, existing offline RL methods tend to behave poorly during fine-tu arxiv.org soft actor critic은 자신을.. 더보기
Chapter 12. Model-based Reinforcement Learning 이번 챕터에서는 Model Based Reinforcement Learning에 대해 알아보겠습니다. Model Based Reinforcement Learning은 경험을 통해 직접 모델을 학습하고, 이를 활용하여 계획(planning)을 수행하여 가치 함수나 정책을 구축하는 방법입니다. Model Based Reinforcement Learning은 경험 데이터를 통해 환경의 모델을 직접 학습하는 방법입니다. 이 모델은 주어진 상태에서 행동을 취하면 어떤 상태로 전이되는지 예측할 수 있는 도구입니다. 이 모델은 환경의 동작을 학습하는 데 사용되며, 이를 통해 계획 알고리즘과 함께 가치 함수나 정책을 구축할 수 있습니다. Model Based Reinforcement Learning은 계획 알고리즘을 .. 더보기
Chapter 11. Imitation Learning References • ICML 2018 Imitation Learning Tutorial https://sites.google.com/view/icml2018-imitation-learning/ ICML2018: Imitation Learning Abstract In this tutorial, we aim to present to researchers and industry practitioners a broad overview of imitation learning techniques and recent applications. Imitation learning is a powerful and practical alternative to reinforcement learning for learn si.. 더보기
Chapter 10. Exploration Exploration vs. Exploitation을 다시 되돌아보자. 아래의 이미지를 통해 항상 가던 길을 가는게 Exploitation, 새로운 곳으로 가는게 Exploration이라는 것을 이전 chapter에서 배웠다. Exploration vs. Exploitation Dilemma 그지만 우리는 새로운 상태나 행동을 탐색하면서 최적의 정책을 찾아야 하지만, 이미 알고 있는 지식을 이용하여 최대한의 보상을 얻어야 합니다. 이런 걸 Exploration vs. Exploitation Dilemma라고 합니다. 탐색과 이용의 딜레마(Exploration vs. Exploitation Dilemma)은 온라인 의사 결정에서 기본적인 선택을 의미합니다. 이는 다음과 같은 선택 사항을 포함합니다: 이용(.. 더보기
Chapter 9. Policy Gradients 강화학습 알고리즘은 보통 세 가지 유형으로 분류됩니다. 값 기반 (Value-based) 알고리즘: 학습된 가치 함수 (Value Function)을 기반으로 합니다. 암묵적인 정책 (Implicit Policy)을 사용하여 행동을 선택합니다 (예: 𝜀-탐욕 정책). 가치 함수를 학습하여 최적의 행동 가치를 추정하고 이를 기반으로 행동을 선택합니다. 정책 기반 (Policy-based) 알고리즘: 가치 함수를 사용하지 않고, 직접 정책 (Policy)을 학습합니다. 학습된 정책을 기반으로 행동을 선택합니다. 보상을 최대화하기 위해 정책을 개선하고, 보상에 대한 기대값을 최대화하는 방향으로 학습합니다. 액터-크리틱 (Actor-Critic) 알고리즘: 값 함수와 정책을 동시에 학습합니다. 학습된 가치 함수.. 더보기
Chapter 8. Advanced Value Function Approximation DQN을 기반으로 한 다른 연구들을 알아보자. • 아타리에서의 성공은 심층 신경망을 사용하여 강화학습에서 가치 함수 근사를 수행하는 데 큰 흥미를 불러일으켰습니다. • 즉시 개선된 몇 가지 방법들 (그 외에도 다른 많은 방법들이 있습니다!) • Double DQN (Double Q 학습을 이용한 심층 강화학습, Van Hasselt 등, AAAI 2016) • Prioritized Replay (우선순위 기반 경험 재생, Schaul 등, ICLR 2016) • Dueling DQN (ICML 2016 최우수 논문) (심층 강화학습을 위한 Dueling 네트워크 아키텍처, Wang 등, ICML 2016) DQN을 기반으로 한 연구는 계속해서 진화하고 있으며, 다양한 개선 및 변형이 제안되고 있습니다. .. 더보기
Chapter 7. Value Function Approximation 지난 Chapter 내용을 간단히 복습해보겠습니다. 우리가 실제 모델을 알지 못할 때는 어떻게 해야 하는지, 일반화된 정책 개선 방법에 대해 배웠습니다. 탐험의 중요성을 이해하고, MC와 TD를 사용한 모델 없는 제어에 대해서도 알아보았습니다. SARSA와 Q-러닝에 대해서도 다루었습니다. 실제 모델을 알지 못할 때에도 모델 없는 강화 학습을 사용하여 최적의 정책을 학습하는 방법을 알아보았습니다. MC와 TD를 사용하여 정책을 개선하는 방법에 대해서도 살펴보았습니다. 또한, SARSA와 Q-러닝 알고리즘을 이용하여 최적의 행동 가치 함수를 학습하는 방법에 대해서도 다루었습니다. Example : Q-Table for FrozenLake Limitation of Q-Learning using a Q-Tab.. 더보기