프로젝트
-
1-2. 한국어 띄어쓰기 구현 - N-Gram프로젝트/NLP Core 2019. 3. 29. 15:01
2-1. N-Gram(Bi-Gram) N-Gram : 카운트에 기반한 통계적 모델, 영어는 보통 단어 단위로 자르고 한국어는 음절 단위로 자른다. N은 자르는 개수인데, N = 1이면 UniGram 2이면 BiGram 3이면 TriGram이라고 부른다. 여기서는 BiGram으로 구현하였다. 확장된 음절 bigram을 이용한 자동 띄어쓰기시스템(강승식) 논문을 참고하여 아래처럼 8가지 상태를 측정하였다. "가나" "가나 " "가 나" "가 나 " " 가나" " 가나 " " 가 나" " 가 나 " 0 1 2 3 4 5 6 7 def save_bigram(first, second, value): if bigram_dict.get(first + second) is None: list = np.zeros(8) e..
-
1-1. 한국어 띄어쓰기 사전조사프로젝트/NLP Core 2019. 3. 9. 17:01
1-1. 이 분야의 전문가언어공학연구회 : http://www.hclt.kr/note/?lnb=school대한민국 AI 학자들 : http://www.aistudy.co.kr/pioneer/pioneers_kor.htm 1) 심광섭 교수CRF를 이용한 한국어 자동 띄어쓰기(2011)말뭉치와 형태소 분석기를 활용한 한국어 자동 띄어쓰기(2015)음절간 상호 정보를 이용한 한국어 자동 띄어쓰기 (1996) 2) 이창기 교수딥러닝을 이용한 한국어 자동 띄어쓰기 (1저자 황현선, 2016)Structural SVM을 이용한 한국어 띄어쓰기 및 품사 태깅 결합 모델(2013)사용자가 입력한 띄어쓰기 정보를 이용한 Structural SVM 기반 한국어 띄어쓰기(2014)Structural SVM을 이용한 한국어 ..