머신러닝
-
1-2. 한국어 띄어쓰기 구현 - N-Gram프로젝트/NLP Core 2019. 3. 29. 15:01
2-1. N-Gram(Bi-Gram) N-Gram : 카운트에 기반한 통계적 모델, 영어는 보통 단어 단위로 자르고 한국어는 음절 단위로 자른다. N은 자르는 개수인데, N = 1이면 UniGram 2이면 BiGram 3이면 TriGram이라고 부른다. 여기서는 BiGram으로 구현하였다. 확장된 음절 bigram을 이용한 자동 띄어쓰기시스템(강승식) 논문을 참고하여 아래처럼 8가지 상태를 측정하였다. "가나" "가나 " "가 나" "가 나 " " 가나" " 가나 " " 가 나" " 가 나 " 0 1 2 3 4 5 6 7 def save_bigram(first, second, value): if bigram_dict.get(first + second) is None: list = np.zeros(8) e..