Attention - Transformer Architecture

Machine Learning/초단순정리

WakaraNai 2021. 12. 22. 09:49

728x90

convolutional 방식은 구조적으로 바로 옆 픽셀이 아니라면 볼 수 없음

즉 전체적인 이미지를 고려하는 것이 어려움

그래서 attention을 이용

각 픽셀의 중요도를 또다른 행렬로 표현하여

곱셈을 통해 중요한 지점을 부각시키기

Key, Query, Value

key와 query의 유사도를 찾기 위해

를 구한 뒤

softmax를 적용하여 0~1로 치환

이렇게 나온 attention map을 value에 곱해서

어떤 녀석이 더 중요한지 알아냄

Attention은

GPT-3, BERT, Transformer 등 다양히 이용

728x90