개발/딥러닝
-
Transformer-XL 자료정리 및 설명요약개발/딥러닝 2019. 7. 16. 00:10
-XLNet 1. 참고 링크 1) PR-175: XLNet: Generalized Autoregressive Pretraining for Language Understanding 동영상 정리글입니다. 2. 설명 -Transformer의 한계 1) Attention N Encoder Decoder이다, Context Vector하나만을 생성하여 순차적으로 Decoding한다. 어텐션은 다른 단어의 인코딩 Hidden State를 활용한다. 디코딩할 때 인코딩에서 받은 Hidden State를 활용하여 어텐션을 계산하고 이를 Weighted Sum하여 활용 기존 RNN보다 훨씬 좋지만, 이전 결과를 다음 결과를 위해 사용하므로 느리다(sequential)는 RNN의 단점이 남아있다. 2) Transforme..
-
XLNet 자료정리 및 설명요약개발/딥러닝 2019. 7. 2. 16:07
-XLNet 1. 참고 링크 1) PR-175: XLNet: Generalized Autoregressive Pretraining for Language Understanding 동영상 정리글입니다. 2. 설명 -Pretraining Methods 1) AutoRegressive 시퀀스가 주어졌을때 다음 토큰에 대한 분포를 찾아내는 방식 Forward와 Backward가 있는데 단방향만 가능함 Text Generation과 잘맞는다.(시퀀스를 보고 다음 토큰을 예측) 1) AutoEncoding 전체 중 일부를 masking한 뒤 해당 토큰을 맞춘다. 전체를 보고 맞추기 때문에 문맥 파악, 주제 파악 등에 좋다. masking 토큰들이 독립적이라고 가정한다는 단점이 있다. masking을 하므로 gene..
-
Pytorch 튜토리얼 따라하기개발/딥러닝 2019. 3. 29. 15:48
예제로 배우는 PyTorch를 따라하며 정리한 내용이다. 코드 + 주석 import numpy as np N = 64 # Batch Size D_in = 1000 # Input Dimension H = 100 # Hidden Dimension D_out = 10 # Output Dimension # rand = 0 ~ 1 균일 분포 # randn = 가우시안 정규 분포 # randint = 정수 균일 분포 # Generate Random Data x = np.random.randn(N, D_in) # N by D_in y = np.random.randn(N, D_out) # N by D_out # Reset Weight Random w1 = np.random.randn(D_in, H) # D_in by ..