본문 바로가기

인공지능

Segforemer 참고 https://blog.kubwa.co.kr/%EB%85%BC%EB%AC%B8%EB%A6%AC%EB%B7%B0-segformer-simple-and-efficient-design-for-semantic-segmentation-with-transformers-d7169e030323 더보기
LORA https://arxiv.org/abs/2106.09685 LoRA: Low-Rank Adaptation of Large Language Models An important paradigm of natural language processing consists of large-scale pre-training on general domain data and adaptation to particular tasks or domains. As we pre-train larger models, full fine-tuning, which retrains all model parameters, becomes le arxiv.org 참고 https://kyujinpy.tistory.com/83 더보기
Chapter 10 Various artificial intelligence 인공지능이 활용되고 있는 다양한 영역을 소개하고 기본적인 인공지능 리뷰를 끝내려한다. 먼저 소개할 것은 Adversarial Attacks이다. 위의 이미지가 햇갈리는가? 개와 머핀, 개와 대걸래의 사진이다. 우리는 명확하게 인식하지만 컴퓨터는 명확하게 인식하지 못한다. Adversarial Attack이란 이미지 분류와 같은 인공지능 모델을 속이기 위해, 입력에 감지할 수 없는 노이즈를 추가하여 모델의 결과를 변경하는 것이다. 다음 그림과 같이 많은 형태의 Adversarial Attack이 있다. Adversarial examples는 기계 학습 모델에 대한 보안 우려를 일으킨다. - 하나의 네트워크를 속이기 위해 만들어진 공격은 다른 네트워크도 속인다. - 공격은 물리적 세계에서도 작동한다. - 심.. 더보기
Chapter 9 Hyperparameter Optimization 우리는 지금까지 모델 구조에 대해서 이야기했다. 안에 들어가는 변수들에 대한 조정을 크게 다루지 않았다. 예를들어, Learning rate, Momentum rate, Dropout, Normalization, Number of layers, number of nodes에 대해서 말이다. 하지만 이 변수들을 효과적으로 setting하는 방법이 있을까? 현재는 없다고 알고 있다. 예시를 한번 들어보자. 우리가 3-layer perceptron을 만들었다고 하자. 그렇다면 다음의 hyperparameter들을 최적화해야 될 것이다. • Learning rate: 𝜂 • Momentum rate: 𝑟 • Dropout probability: 𝑝 • Number of nodes in the first hidd.. 더보기
Chapter 8 Small Nets and EfficientNet 우리는 지금까지 모델에 layer들이 추가되는 방식에 대해서 설명했다. 얼마나 더 큰 모델을 만들고 이것들이 잘작동하는지 말이다. 하지만 큰 모델들은 컴퓨터나 클라우드에서 사용가능하다. 이는 어디에서나 해당 모델을 사용할 수 없다는 말이다. 가령 인터넷이 끊기는 지역이라던가 컴퓨터가 없는 밖에서는 말이다. 그렇다면 핸드폰에서 인공지능을 사용하면 어떨까? 왠만한 곳에서 학습도 가능하고 실제 사용도 가능하지 않을까? 이렇게 해서 나온 것이 MobileNet이다. MobileNet-V1 MobileNet-V1을 이해하려면 이전에 설명했던 것들을 기억해야한다. 먼저, Depthwise Separable Convolution이다. 우리는 이를 통해 총 연산을 줄이는 것을 알고 있다. 이를 활용하면 아래 그림의 왼.. 더보기
Chapter 7 Generative Adverislal Network Generative Adverislal Network, 흔히 GAN이라고 불리며 현재는 잘 사용되지 않는 모델이다. Diffusion 모델이 현재 생성 이미지를 꽉 잡고 있기 때문이다. GAN에 대한 정리 영상과 Diffusion 모델 영상은 다음을 추천드린다. GAN: https://www.youtube.com/watch?v=vZdEGcLU_8U Diffusion: https://youtu.be/jaPPALsUZo8 우리는 지금까지 discriminative models 보았다. (CNN 기준으로) 이는 이미지 X가 주어지면 레이블 Y를 예측한다(P(Y|X)). 하지만 discriminative model에는 몇 가지 주요 제한 사항이 있다. P(X), 즉 특정 이미지를 볼 확률을 모델링할 수 없다. .. 더보기
Chapter 6 Transformer Model Ashish Vaswani, Noam Shazeer , Niki Parmar, Jakob Uszkoreit , Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin , "Attention Is All You Need," NIPS 2018를 바탕으로 작성되었다. 우리는 Chapter 5에서 Attention model을 통해 Sequential computation 사용하여 병렬화를 방지했다. 하지만 GRU 및 LSTM에도 불구하고 RNN은 여전히 장거리 종속성을 처리하기 위한 attention mechanism이 필요하다. 이전을 살펴보면 다음과 같다. 이를 실제로 사용하면 생각보다 잘 되지 않는다는 것을 알 수 있다. 일단 이를 해결해보기 위해 a.. 더보기
Chapter 5 RNN, LSTM, GRU 지금까지는 이미지 처리에 중점을 두고 있는 NN에 대해서 알아보았다. 세상에는 많은 데이터가 존재하고 이미지만 데이터가 아닐 것이다. 우리는 가계부나 증권의 오르내림과 같은 순차적인 데이터 처리도 해야한다. 이를 위해서 나온 것이 RNN (Recurrent Neural Network)이다. 기존 CNN은 고정된 입력 크기를 가지고 있어 동적인 데이터 처리에는 제한이 있으며, 이를 해결하기 위해 RNN이 나왔다. 다음은 RNN의 일반적인 형태이다. 이를 어떻게 사용하는지가 더 중요하고 하지만 RNN에 대해서 간단하게 설명하겠다. RNN은 순차적인 데이터나 시계열 데이터와 같이 시간적인 의존성을 가지는 데이터를 처리하는 데 사용되는 인공 신경망의 한 종류이다. RNN은 입력 데이터의 현재 상태뿐만 아니라 이.. 더보기