-
XLNet 자료정리 및 설명요약개발/딥러닝 2019. 7. 2. 16:07
-XLNet 1. 참고 링크 1) PR-175: XLNet: Generalized Autoregressive Pretraining for Language Understanding 동영상 정리글입니다. 2. 설명 -Pretraining Methods 1) AutoRegressive 시퀀스가 주어졌을때 다음 토큰에 대한 분포를 찾아내는 방식 Forward와 Backward가 있는데 단방향만 가능함 Text Generation과 잘맞는다.(시퀀스를 보고 다음 토큰을 예측) 1) AutoEncoding 전체 중 일부를 masking한 뒤 해당 토큰을 맞춘다. 전체를 보고 맞추기 때문에 문맥 파악, 주제 파악 등에 좋다. masking 토큰들이 독립적이라고 가정한다는 단점이 있다. masking을 하므로 gene..
-
ubuntu18.04 nvidia driver-418, cuda10.1설치개발/리눅스 2019. 5. 5. 18:09
참고링크 Ubuntu 18.04 LTS에서 그래픽 드라이버 nvidia-415 버전 설치 설명 -nouveau 설치 확인 및 제거 lsmod | grep nouveau //출력되는 것이 있으면 nouveau가 설치된 것으로 제거해야한다. sudo vim /etc/modprobe.d/blacklist-nouveau.conf //파일 생성 후 아래 두 줄 입력후 저장 blacklist nouveau options nouveau modset=0 udo update-initramfs -u //입력 후 재부팅, 화면이 멈추면 Ctrl + Alt + F4 후 재부팅 sudo service gdm stop //nouveau가 제거된다. -최신버전 nvidia driver와 cuda설치 sudo add-apt-repo..
-
[Ubuntu18.04]도커 사용하기개발/리눅스 2019. 5. 3. 17:48
1. 참고링크 초보를 위한 도커 안내서 도커 기본 사용법 정리 2. 설명 설치하기 curl -fsSL https://get.docker.com/ | sudo sh sudo 없이 도커 사용하기 //도커는 root권한으로 실행됨, 아래 입력하고 다시 로그인하면 sudo없이 사용가능 sudo usermod -aG docker 유저이름 설치 확인하기 docker version 옵션 -ddetached mode 흔히 말하는 백그라운드 모드-p호스트와 컨테이너의 포트를 연결 (포워딩)-v호스트와 컨테이너의 디렉토리를 연결 (마운트)-e컨테이너 내에서 사용할 환경변수 설정–name컨테이너 이름 설정–rm프로세스 종료시 컨테이너 자동 제거–iinteractive–ttty-it-i와 -t를 동시에 사용한 것으로 터미널 ..
-
Bert 요약 설명, 조사프로젝트/NLP Core 2019. 4. 30. 18:20
Bert 1. 참고링크 1) Illustrated Bert 2) Bert 톺아보기 2. 설명 -핵심 아이디어 Transformer 모델에서 Encoder부분만 사용하여 Input을 Embedding한다. Base 모델은 12개, Large 모델은 24개의 Encoder로 구성되는데, Encoder가 많을수록 관계를 잘 파악한다. 각 Encoder는 이전의 출력값을 입력값으로 사용하였는데, non-linear activations를 거치지 않아 Explode 또는 Vanishing Gradients 문제를 최소화 하고자 하였다. 대신 병렬처리가 안된다. Bert는 다이나믹 임베딩값을 갖는다.(같은 단어라도 문장에 따라, 위치에 따라 각기 다른 벡터 값을 갖는다.) -Input Embeddings Bert는..
-
Seq2Seq 요약 설명, 조사프로젝트/NLP Core 2019. 4. 28. 00:15
-Seq2Seq 1. 참고 링크 Seq2Seq 2. 설명 -한 시퀀스(ex) 영어 문장)을 다른 시퀀스(ex) 한국어 문장)으로 변환해주는 모델 -보통 번역이나 질의응답(주로 챗봇)에 사용된다. -Encoder에서 input을 고정된 크기의 context vector로 만들고, Decoder는 context vector로 output을 만든다. -문장의 끝은 특정 태그(EOS)로 구분한다. -Encoder와 Decoder가 한 번(동시)에 학습된다. -LSTM의 한계인, 입력이 매우 길면 성능이 떨어진다는 점을 Seq2Seq도 갖고 잇다.
-
Attention Mechanism(어텐션 메커니즘) 요약 설명, 조사프로젝트/NLP Core 2019. 4. 28. 00:11
-Attention Mechanism 1. 참고 링크 Attention https://wikidocs.net/22893 어텐션 메커니즘과 transfomer Attention is all you need NLP with attention Attention? Attention The Illustrated Transformer Bert 2. 설명 -특정 벡터에 집중하여 성능을 높이는 기법으로 아래의 문제점을 해결 -기존 RNN으로 seq2seq을 풀 때 문제점 첫째, 하나의 고정된 크기의 벡터에 모든 정보를 압축하려고 하니까 정보 손실이 발생한다. 둘째, RNN의 고질적인 문제인 기울기 소실(Vanishing Gradient) 문제가 존재한다. -핵심 아이디어 I love you -> 나는 너를 사랑해 로 ..
-
Transformer 요약 설명, 조사프로젝트/NLP Core 2019. 4. 18. 17:15
-Transformer 1. 참고 링크 1) seq2seq 2) 어텐션 매커니즘 3) The Illustrated Transformer 2. 설명 -핵심 아이디어 Seq2Seq와 비슷, 인코더, 디코더 안에서 Self Attention을 하여 각 item(word 등)간의 연관성을 반영 Encoder(Multi-Head Self Attention + Feed Forward) -> Decoder(Multi-Head Self Attention + Encoder-Decoder Attention + Feed Forward) -vector => word, Linear + Softmax 최종적으로 나온 결과를 word로 바꾸기 위해, linear, softmax의 과정을 거친다.
-
1-2. DeepLearning(RNN) Result프로젝트/NLP Core 2019. 4. 7. 01:00
Sejong Corpus train : 60,000 test : 20,000 1. LSTM batch size : 1024, 128 word embeddin dim : 50, 25 slot dim : 50, 25 epoch : 30 learning rate : 0.01 precision : 42% recall : 36% F1 : 39% 2. LSTM + CRF batch size : 128 word embeddin dim : 50 slot dim : 50 epoch : 100 learning rate : 0.01 precision : 95% recall : 94% F1 : 95%