ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Transformer-XL 자료정리 및 설명요약
    개발/딥러닝 2019. 7. 16. 00:10

    -XLNet

    1. 참고 링크

    1. 1) PR-175: XLNet: Generalized Autoregressive Pretraining for Language Understanding
    2. 동영상 정리글입니다.

    2. 설명

    1. -Transformer의 한계
      1. 1) Attention
      2. N Encoder Decoder이다, Context Vector하나만을 생성하여 순차적으로 Decoding한다.
      3. 어텐션은 다른 단어의 인코딩 Hidden State를 활용한다.
      4. 디코딩할 때 인코딩에서 받은 Hidden State를 활용하여 어텐션을 계산하고 이를 Weighted Sum하여 활용
      5. https://www.youtube.com/watch?v=lSTljZy8ag4&t=17s
      6. 기존 RNN보다 훨씬 좋지만, 이전 결과를 다음 결과를 위해 사용하므로 느리다(sequential)는 RNN의 단점이 남아있다.
      7. 2) Transformer
      8. 어텐션의 장점을 사용하되 RNN을 사용하지 않는다.
      9. Self-Attention을 병렬적, 계층적으로 여러겹 쌓아 속도와 성능을 높인 모델이다.
      10. -장점
      11. 어텐션 스코어를 시각화하여 키워드 간의 연결, 어텐션 관계를 알 수 있다.
      12. 주어진 시퀀스에 대해서는 토큰들 사이에 있는 정보를 한번에 연결하여 계산한다.
      13. -단점
      14. 그 결과 시퀀스를 한 번에 다 보기 때문에 시퀀스 길이가 고정적이어야 한다.
      15. 즉 긴 문장이 들어올 경우 짤라서 판단하거나, 나머지는 버리게 된다.
      16. https://www.youtube.com/watch?v=lSTljZy8ag4&t=17s
      17. 세그먼트끼리 정보전달이 되지 않는다.
      18. https://www.youtube.com/watch?v=lSTljZy8ag4&t=17s
    2. -Transformer-XL
      1. Recurrence를 활용하여 길이 제한 단점을 해결
      2. 세그먼트 정보를 효과적으로 주고받기 위해 Relative Positional Embeddings을 활용
      3. 세그먼트를 학습할 때 그 전 세그먼트를 계산할 때 사용한 Hidden State를 활용
      4. 직전 세그먼트의 모든 정보를 캐시로 가지고 있어 속도가 빠르다.
      5. https://www.youtube.com/watch?v=lSTljZy8ag4&t=17s
      6. 한 번 계산할 때 하나의 토큰만 예측하지 않고 하나의 세그먼트를 통으로 예측한다.
      7. 이 때 직전 세그먼트를 캐시로 가지고 있어 빠르다.
      8. https://www.youtube.com/watch?v=lSTljZy8ag4&t=17s
      9. https://www.youtube.com/watch?v=lSTljZy8ag4&t=17s

    댓글

Designed by Tistory.