레플리
글 수 72

C++로 만든 형태소 분석기 - KIWI

조회 수 1133 추천 수 0 2018.07.02 21:33:46


 

http://bab2min.tistory.com/560?category=686456

 

 

 

C++로 만든 형태소 분석기의 개발과정을 정리한 글입니다. 형태소 분석을 하는 방법은 먼저 사전과 미리 정의한 규칙을 사용해서 문장을 모든 가능한 형태소의 조합으로 목록을 만듭니다. 예를 들어, '디자인하여'는 다음과 같이 12개의 형태가 가능합니다.

 

디자인(NNG) *
하(VV / XSV / XSA / NNG) *
아(EC / EF / IC)

 

 

 

그리고 형태소가 레이블되어 있는 말뭉치인 코퍼스를 사용해서 각각의 목록에 대해서 확률을 계산합니다. 그리고 가장 확률이 높은 형태소 조합을 선택합니다. 마르코프 모델을 사용하기 때문에 바로 이전 형태소에만 영향을 받는다고 가정합니다.

 

(NNG 확률) * (NNG->VV 확률) * (VV->EC 확률)
(NNG 확률) * (NNG->VV 확률) * (VV->EF 확률)
...
(NNG 확률) * (NNG->XSV 확률) * (VV->EC 확률)
(NNG 확률) * (NNG->XSV 확률) * (VV->EF 확률)
...

 

 

 

< 소스코드 >
https://github.com/bab2min/Kiwi

 

< 웹 / GUI 데모 >
https://lab.bab2min.pe.kr/kiwi

엮인글 :
List of Articles
제목 글쓴이 날짜 조회 수sort
스마트 스피커에서의 음악 재생 발화 오류 교정 file 깊은바다 2019-03-28 407
인간의 언어를 이해하는 기계, NLU에는 어떤 것이 있을까? 깊은바다 2020-06-05 417
엑소브레인 강연 자료 깊은바다 2018-07-19 423
차원이 다른 구글 번역기의 도래 깊은바다 2017-02-28 427
기계번역기의 발전과 역사 깊은바다 2018-05-10 476
윈도우에서 간편하게 Mecab 설치방법 - pyeunjeon 깊은바다 2021-06-15 500
엑소브레인의 질의응답 기능 file 깊은바다 2018-08-18 526
예일대의 자연어-SQL 데이터셋, Spider 깊은바다 2020-07-12 531
자연어처리 벤치마크인 SuperGLUE도 인간의 기록을 경신 [1] 깊은바다 2021-01-21 550
모두의 말뭉치에 새로운 일상 대화 추가 file 깊은바다 2021-04-06 562
토론하는 인공지능 - IBM Project Debater file 깊은바다 2019-01-16 579
네이버 검색과 개인화 깊은바다 2018-11-20 619
IBM 왓슨의 자연어처리 방식 깊은바다 2020-06-26 626
엑소브레인 자연어 질의응답 기술 file 깊은바다 2018-03-25 627
클로바 Interaction Model의 이해 및 설계/제작 노하우 - 자연어처리 방법 깊은바다 2018-06-06 641