[Transformer] Attention과 Self-Attention 차이
·
AI/DL
다음 그림이 트랜스포머 모델 구조인데, 어텐션은 총 세 군데서 사용된다.인코더의 Self-Attention : Query = Key = Value디코더의 Maked Self-Attention : Query = Key = Value디코더의 Encoder-Decoder Attention : Query : 디코더 벡터 / Key = Value : 인코더 벡터1, 2는 Q, K, V가 동일하기 때문에 Self-Attention이고 3은 Q는 디코더에서 K, V는 인코더에서 가져오니 그냥 Attention이다.-> query와 key, 그리고 value가 동일한 부분에 있을 때 셀프 어텐션이 되고, 디코더와 인코더에 나누어져 있으면 그냥 어텐션이 된다. 정확히는 다음과 같다. 출처 : https://wikidoc..
doocong22