-
Transformer-XL 자료정리 및 설명요약개발/딥러닝 2019. 7. 16. 00:10
-XLNet
1. 참고 링크
2. 설명
- -Transformer의 한계
- 1) Attention
- N Encoder Decoder이다, Context Vector하나만을 생성하여 순차적으로 Decoding한다.
- 어텐션은 다른 단어의 인코딩 Hidden State를 활용한다.
- 디코딩할 때 인코딩에서 받은 Hidden State를 활용하여 어텐션을 계산하고 이를 Weighted Sum하여 활용
- 기존 RNN보다 훨씬 좋지만, 이전 결과를 다음 결과를 위해 사용하므로 느리다(sequential)는 RNN의 단점이 남아있다.
- 2) Transformer
- 어텐션의 장점을 사용하되 RNN을 사용하지 않는다.
- Self-Attention을 병렬적, 계층적으로 여러겹 쌓아 속도와 성능을 높인 모델이다.
- -장점
- 어텐션 스코어를 시각화하여 키워드 간의 연결, 어텐션 관계를 알 수 있다.
- 주어진 시퀀스에 대해서는 토큰들 사이에 있는 정보를 한번에 연결하여 계산한다.
- -단점
- 그 결과 시퀀스를 한 번에 다 보기 때문에 시퀀스 길이가 고정적이어야 한다.
- 즉 긴 문장이 들어올 경우 짤라서 판단하거나, 나머지는 버리게 된다.
- 세그먼트끼리 정보전달이 되지 않는다.
- -Transformer-XL
- Recurrence를 활용하여 길이 제한 단점을 해결
- 세그먼트 정보를 효과적으로 주고받기 위해 Relative Positional Embeddings을 활용
- 세그먼트를 학습할 때 그 전 세그먼트를 계산할 때 사용한 Hidden State를 활용
- 직전 세그먼트의 모든 정보를 캐시로 가지고 있어 속도가 빠르다.
- 한 번 계산할 때 하나의 토큰만 예측하지 않고 하나의 세그먼트를 통으로 예측한다.
- 이 때 직전 세그먼트를 캐시로 가지고 있어 빠르다.
'개발 > 딥러닝' 카테고리의 다른 글
파이썬 GPU 선택하여 사용하기 (0) 2020.12.23 Transformers, sentencepiece 설치 에러 (0) 2020.12.18 XLNet 자료정리 및 설명요약 (0) 2019.07.02 Pytorch RNN(LSTM, GRU) Multi gpu 사용하기 (0) 2019.04.05 Pytorch 튜토리얼 따라하기 (0) 2019.03.29 - -Transformer의 한계