전체 글 썸네일형 리스트형 Chapter4. Model-based Planning 지금까지 공식을 배웠다면 이를 적용하는 것에 대해서 알아보자. Planning(계획)과 Reinforcement Learning(강화학습)은 강화학습의 두 가지 중요한 접근 방법이 있다. 각각의 방법은 다음과 같이 설명된다: Planning(계획): 계획은 미리 환경 모델을 알고 있고, 그 모델을 기반으로 일련의 행동을 예측하고 최적의 행동 계획을 세우는 프로세스입니다. 계획에서는 환경의 동작을 모델링하고 이 모델을 사용하여 가능한 행동 순서를 시뮬레이션하고 평가합니다. 계획은 주어진 환경에서 최적의 행동 시퀀스를 찾는 데 유용합니다. 환경 모델 구축: 주어진 환경에 대한 모델을 구축합니다. 모델은 상태 전이 확률과 보상 함수를 포함합니다. 계획 수립: 모델을 기반으로 가능한 행동 시퀀스를 탐색하고 평가.. 더보기 Chapter3. Markov Decision Process Markov Decision Processes (MDP)는 강화 학습을 위한 환경을 공식적으로 설명하며, 환경을 완전히 관찰할 수 있는 경우 거의 모든 RL 문제는 MDP로 공식화할 수 있다. 그렇다고 부분적으로 관찰 가능한 문제를 MDP로 변환할 수 없는 것은 아니다. 여기서부터는 action, state, reward를 행동, 환경, 보상으로 섞어쓸 것이다. Markov Property • 미래는 현재 주어진 과거와 독립적이다 • state는 기록에서 모든 관련 정보를 캡처한다 • state가 알려지면 기록을 버릴 수 있다 즉 . state는 미래에 대한 충분한 통계이다 State Transition Matrix(상태 전이 행렬) • Markov 상태 𝑠 및 후속 상태 𝑠′의 경우 상태 전이 확률은 .. 더보기 Chapter 2 Reinforcement Learning Overview Reinforcement Learning (RL)은 불확실성 하에서의 의사 결정 및 경험을 통해 학습을 모델링하는 기계 학습 유형이라고 정의할 수 있다. 강화 학습이 다른 기계 학습 패러다임과 다른 점은 다음과 같다. • 그라운드 트루스가 없고 reward 신호만 있음 • 피드백이 즉각적이지 않고 지연됨 • 시간이 정말 중요함(순차적이고 독립적이지 않고 동일하게 분산된 데이터). • 에이전트의 작업은 수신하는 후속 데이터에 영향을 미침 그라운드 트루스가 없다는게, 나는 가장 큰 장점이라고 생각한다. 왜냐면 어떤 상황에서도 학습이 가능하기 때문이다. 예를 들어 일반적인 NN은 로봇보고 알아서 걸으라고 하면 걸을까? 절대 못한다. 왜냐면 정답을 모르니까. 하지만 강화학습은 이걸 반복시켜서 학습하기 때문에 시.. 더보기 Chapter 1 Introduction 시작하기에 앞서 강화학습이라고 하면 다들 아래의 사진을 떠올릴 것이다. 바둑 인공지능인 알파고가 이세돌 9단을 이긴 대국이다. 하지만 이외에 강화학습으로 떠오르는 것은 잘 없을것이다. 이건 당연한 것이다. 강화학습은 많은 양의 학습시간 투자되는 자원에 비해 실생활에서 보여지는 것이 쉽지 않기 때문이다. 그러니 그런 강화학습을 공부하는 것은 멍청해보이고 왜 하는지 모를 수도 있다. 하지만 모두에게 혁신으로 다가온 ChatGPT는 현재도 강화학습으로 사용자들의 반응을 학습하고 있다. 보이지 않는 곳에서 강화학습은 강력하게 점점 다가오고 있다. 이를 바탕으로 강화학습 공부를 한번 시작해보자. Intro에서는 이 그림만 알고가면된다. 강화학습의 기본 구성이 Agent, Environmet, action, obs.. 더보기 Chapter 10 Various artificial intelligence 인공지능이 활용되고 있는 다양한 영역을 소개하고 기본적인 인공지능 리뷰를 끝내려한다. 먼저 소개할 것은 Adversarial Attacks이다. 위의 이미지가 햇갈리는가? 개와 머핀, 개와 대걸래의 사진이다. 우리는 명확하게 인식하지만 컴퓨터는 명확하게 인식하지 못한다. Adversarial Attack이란 이미지 분류와 같은 인공지능 모델을 속이기 위해, 입력에 감지할 수 없는 노이즈를 추가하여 모델의 결과를 변경하는 것이다. 다음 그림과 같이 많은 형태의 Adversarial Attack이 있다. Adversarial examples는 기계 학습 모델에 대한 보안 우려를 일으킨다. - 하나의 네트워크를 속이기 위해 만들어진 공격은 다른 네트워크도 속인다. - 공격은 물리적 세계에서도 작동한다. - 심.. 더보기 Chapter 9 Hyperparameter Optimization 우리는 지금까지 모델 구조에 대해서 이야기했다. 안에 들어가는 변수들에 대한 조정을 크게 다루지 않았다. 예를들어, Learning rate, Momentum rate, Dropout, Normalization, Number of layers, number of nodes에 대해서 말이다. 하지만 이 변수들을 효과적으로 setting하는 방법이 있을까? 현재는 없다고 알고 있다. 예시를 한번 들어보자. 우리가 3-layer perceptron을 만들었다고 하자. 그렇다면 다음의 hyperparameter들을 최적화해야 될 것이다. • Learning rate: 𝜂 • Momentum rate: 𝑟 • Dropout probability: 𝑝 • Number of nodes in the first hidd.. 더보기 Chapter 8 Small Nets and EfficientNet 우리는 지금까지 모델에 layer들이 추가되는 방식에 대해서 설명했다. 얼마나 더 큰 모델을 만들고 이것들이 잘작동하는지 말이다. 하지만 큰 모델들은 컴퓨터나 클라우드에서 사용가능하다. 이는 어디에서나 해당 모델을 사용할 수 없다는 말이다. 가령 인터넷이 끊기는 지역이라던가 컴퓨터가 없는 밖에서는 말이다. 그렇다면 핸드폰에서 인공지능을 사용하면 어떨까? 왠만한 곳에서 학습도 가능하고 실제 사용도 가능하지 않을까? 이렇게 해서 나온 것이 MobileNet이다. MobileNet-V1 MobileNet-V1을 이해하려면 이전에 설명했던 것들을 기억해야한다. 먼저, Depthwise Separable Convolution이다. 우리는 이를 통해 총 연산을 줄이는 것을 알고 있다. 이를 활용하면 아래 그림의 왼.. 더보기 Chapter 7 Generative Adverislal Network Generative Adverislal Network, 흔히 GAN이라고 불리며 현재는 잘 사용되지 않는 모델이다. Diffusion 모델이 현재 생성 이미지를 꽉 잡고 있기 때문이다. GAN에 대한 정리 영상과 Diffusion 모델 영상은 다음을 추천드린다. GAN: https://www.youtube.com/watch?v=vZdEGcLU_8U Diffusion: https://youtu.be/jaPPALsUZo8 우리는 지금까지 discriminative models 보았다. (CNN 기준으로) 이는 이미지 X가 주어지면 레이블 Y를 예측한다(P(Y|X)). 하지만 discriminative model에는 몇 가지 주요 제한 사항이 있다. P(X), 즉 특정 이미지를 볼 확률을 모델링할 수 없다. .. 더보기 이전 1 ··· 50 51 52 53 54 55 56 ··· 62 다음