Attention - Transformer Architecture

Machine Learning/초단순정리

Attention - Transformer Architecture

WakaraNai 2021. 12. 22. 09:49

728x90

convolutional 방식은 구조적으로 바로 옆 픽셀이 아니라면 볼 수 없음

즉 전체적인 이미지를 고려하는 것이 어려움

그래서 attention을 이용

각 픽셀의 중요도를 또다른 행렬로 표현하여

곱셈을 통해 중요한 지점을 부각시키기

Key, Query, Value

key와 query의 유사도를 찾기 위해

를 구한 뒤

softmax를 적용하여 0~1로 치환

이렇게 나온 attention map을 value에 곱해서

어떤 녀석이 더 중요한지 알아냄

Attention은

GPT-3, BERT, Transformer 등 다양히 이용

Transformer Model Architecture

Encoder Block

Decoder Block

728x90

저작자표시 비영리 변경금지

'Machine Learning > 초단순정리' 카테고리의 다른 글

Semantic Segmentation과 Instance Segmentation (0)	2022.01.20
GAN (0)	2021.11.26
Latent Space Interpolation (0)	2021.11.26
Sequence Bias (0)	2021.11.18
[Python] Sigmoid (0)	2021.08.13

현재글Attention - Transformer Architecture

250x250

course, cos pro 1급, COSPro, cos, 데이터분석, 파이썬, 머신러닝, Intermediate Machine Learning, 너비우선탐색, Intro to DeepLearning, kaggle, data visualization, 알고리즘, Intro to Machine Learning, 2급, Python, datascience, 백준, YBMIT, cos pro,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

WakaraNai