encoder-decoder attention layer 썸네일형 리스트형 Chapter 6 Transformer Model Ashish Vaswani, Noam Shazeer , Niki Parmar, Jakob Uszkoreit , Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin , "Attention Is All You Need," NIPS 2018를 바탕으로 작성되었다. 우리는 Chapter 5에서 Attention model을 통해 Sequential computation 사용하여 병렬화를 방지했다. 하지만 GRU 및 LSTM에도 불구하고 RNN은 여전히 장거리 종속성을 처리하기 위한 attention mechanism이 필요하다. 이전을 살펴보면 다음과 같다. 이를 실제로 사용하면 생각보다 잘 되지 않는다는 것을 알 수 있다. 일단 이를 해결해보기 위해 a.. 더보기 이전 1 다음