PPO 썸네일형 리스트형 Chapter 9. Policy Gradients 강화학습 알고리즘은 보통 세 가지 유형으로 분류됩니다. 값 기반 (Value-based) 알고리즘: 학습된 가치 함수 (Value Function)을 기반으로 합니다. 암묵적인 정책 (Implicit Policy)을 사용하여 행동을 선택합니다 (예: 𝜀-탐욕 정책). 가치 함수를 학습하여 최적의 행동 가치를 추정하고 이를 기반으로 행동을 선택합니다. 정책 기반 (Policy-based) 알고리즘: 가치 함수를 사용하지 않고, 직접 정책 (Policy)을 학습합니다. 학습된 정책을 기반으로 행동을 선택합니다. 보상을 최대화하기 위해 정책을 개선하고, 보상에 대한 기대값을 최대화하는 방향으로 학습합니다. 액터-크리틱 (Actor-Critic) 알고리즘: 값 함수와 정책을 동시에 학습합니다. 학습된 가치 함수.. 더보기 유니티 ML-Agents를 이용한 Self Driving Car Source: https://github.com/sh02092/unity-ml-agents-self-driving-car GitHub - sh02092/unity-ml-agents-self-driving-car: final project in university final project in university. Contribute to sh02092/unity-ml-agents-self-driving-car development by creating an account on GitHub. github.com Result: https://github.com/cs20131516/Unity-ml-agents-self-driving-car 1. 프로젝트 개요 프로젝트 목적 및 목표: 본 프로젝트의 목적은 Un.. 더보기 이전 1 다음