레플리
글 수 72

C++로 만든 형태소 분석기 - KIWI

조회 수 1130 추천 수 0 2018.07.02 21:33:46


 

http://bab2min.tistory.com/560?category=686456

 

 

 

C++로 만든 형태소 분석기의 개발과정을 정리한 글입니다. 형태소 분석을 하는 방법은 먼저 사전과 미리 정의한 규칙을 사용해서 문장을 모든 가능한 형태소의 조합으로 목록을 만듭니다. 예를 들어, '디자인하여'는 다음과 같이 12개의 형태가 가능합니다.

 

디자인(NNG) *
하(VV / XSV / XSA / NNG) *
아(EC / EF / IC)

 

 

 

그리고 형태소가 레이블되어 있는 말뭉치인 코퍼스를 사용해서 각각의 목록에 대해서 확률을 계산합니다. 그리고 가장 확률이 높은 형태소 조합을 선택합니다. 마르코프 모델을 사용하기 때문에 바로 이전 형태소에만 영향을 받는다고 가정합니다.

 

(NNG 확률) * (NNG->VV 확률) * (VV->EC 확률)
(NNG 확률) * (NNG->VV 확률) * (VV->EF 확률)
...
(NNG 확률) * (NNG->XSV 확률) * (VV->EC 확률)
(NNG 확률) * (NNG->XSV 확률) * (VV->EF 확률)
...

 

 

 

< 소스코드 >
https://github.com/bab2min/Kiwi

 

< 웹 / GUI 데모 >
https://lab.bab2min.pe.kr/kiwi

엮인글 :
List of Articles
제목 글쓴이 날짜sort 조회 수
APEACH – 혐오 발화 평가데이터를 만드는 새로운 방법 깊은바다 2022-04-22 1087
윈도우에서 간편하게 Mecab 설치방법 - pyeunjeon 깊은바다 2021-06-15 487
자연어처리 벤치마크 GLUE의 한글 버전인 KLUE 공개 file 깊은바다 2021-05-22 678
모두의 말뭉치에 새로운 일상 대화 추가 file 깊은바다 2021-04-06 551
자연어처리 벤치마크인 SuperGLUE도 인간의 기록을 경신 [1] 깊은바다 2021-01-21 541
한국어 문장 분리기, KSS(Korean Sentence Splitter) 파이썬 포팅 file 깊은바다 2020-12-23 6105
파이썬 한국어 말뭉치 패키지 - Korpora file 깊은바다 2020-09-12 1489
세종 말뭉치보다 9배 더 큰 한글 코퍼스 공개 - 모두의 말뭉치 file 깊은바다 2020-08-27 3119
한국어 전처리 기법 모음 깊은바다 2020-07-31 4523
예일대의 자연어-SQL 데이터셋, Spider 깊은바다 2020-07-12 513
IBM 왓슨의 자연어처리 방식 깊은바다 2020-06-26 616
매주 한편씩 글을 작성하는 자연어처리 블로그 - 위클리 NLP 깊은바다 2020-06-12 1117
인간의 언어를 이해하는 기계, NLU에는 어떤 것이 있을까? 깊은바다 2020-06-05 408
한글 자모 분리 및 합치기 파이썬 패키지 [1] 깊은바다 2020-03-03 3203
Machine Learning for Kids로 감정분석 깊은바다 2020-02-09 921