레플리
글 수 72

C++로 만든 형태소 분석기 - KIWI

조회 수 1133 추천 수 0 2018.07.02 21:33:46


 

http://bab2min.tistory.com/560?category=686456

 

 

 

C++로 만든 형태소 분석기의 개발과정을 정리한 글입니다. 형태소 분석을 하는 방법은 먼저 사전과 미리 정의한 규칙을 사용해서 문장을 모든 가능한 형태소의 조합으로 목록을 만듭니다. 예를 들어, '디자인하여'는 다음과 같이 12개의 형태가 가능합니다.

 

디자인(NNG) *
하(VV / XSV / XSA / NNG) *
아(EC / EF / IC)

 

 

 

그리고 형태소가 레이블되어 있는 말뭉치인 코퍼스를 사용해서 각각의 목록에 대해서 확률을 계산합니다. 그리고 가장 확률이 높은 형태소 조합을 선택합니다. 마르코프 모델을 사용하기 때문에 바로 이전 형태소에만 영향을 받는다고 가정합니다.

 

(NNG 확률) * (NNG->VV 확률) * (VV->EC 확률)
(NNG 확률) * (NNG->VV 확률) * (VV->EF 확률)
...
(NNG 확률) * (NNG->XSV 확률) * (VV->EC 확률)
(NNG 확률) * (NNG->XSV 확률) * (VV->EF 확률)
...

 

 

 

< 소스코드 >
https://github.com/bab2min/Kiwi

 

< 웹 / GUI 데모 >
https://lab.bab2min.pe.kr/kiwi

엮인글 :
List of Articles
제목 글쓴이 날짜 조회 수
파이썬과 커뮤니티와 한국어 오픈데이터 - KoNLPy의 탄생배경 깊은바다 2019-11-11 942
검색을 통해 지식그래프를 바로 생성하는 알고리즘 file 깊은바다 2019-08-02 3052
NLTK 개발자들이 직접 쓴 자연어처리 책의 공개 버전 깊은바다 2019-07-02 1259
WordPiece와 BPE(Byte Pair Encoding) 깊은바다 2019-06-17 4742
스마트 스피커에서의 음악 재생 발화 오류 교정 file 깊은바다 2019-03-28 407
한국어 MRC 연구를 위한 표준 데이터셋(KorQuAD) 소개 및 B2B를 위한 MRC 연구 사례 깊은바다 2019-03-10 967
메이템 가상비서 앱 자연어처리 모듈 개발 file [1] 깊은바다 2019-01-31 828
토론하는 인공지능 - IBM Project Debater file 깊은바다 2019-01-16 579
인공지능이 법률 문서를 검토한다면? 깊은바다 2019-01-09 795
TextRank 기법을 이용한 핵심 어구 추출 및 텍스트 요약 file 깊은바다 2018-12-28 3229
한국어 자연어처리 데이터셋 - KorQuAD 깊은바다 2018-12-21 4725
자연어 관련 데이터셋 사이트 - AI 오픈 이노베이션 허브 file 깊은바다 2018-12-03 1451
네이버 검색과 개인화 깊은바다 2018-11-20 619
NUGU Knowledge Base - 지식베이스 깊은바다 2018-11-10 1031
텍스트 분석을 자동으로 해주는 서비스 - KoALA 깊은바다 2018-10-31 2088