레플리
글 수 282

카카오의 딥러닝 기반 형태소 분석기

조회 수 497 추천 수 0 2018.11.30 20:05:10


 

https://brunch.co.kr/@kakao-it/308

 

 

 

카카오의 딥러닝 형태소분석기 khaiii가 공개되었습니다. 보통 규칙 기반은 먼저 가능한 품사 조합들을 미리 정해진 룰에 따라 목록을 만듭니다. 그리고 사람에 의해 품사가 태깅된 코퍼스에서 가장 확률이 높은 항목을 찾습니다.

 

입력 : 디자인하여
목록 : 디자인(NNG) * 하(VV / XSV / XSA / NNG) * 여(EC / EF / IC) = 12개
결정 : 디자인(NNG) - 하(XSV) - 여(EC) -> 가장 높은 확률!

 

 

 

딥러닝으로도 형태소분석을 할 수 있는데 RNN 같은 방식을 많이 사용합니다. 그러나 khaiii는 빠른 속도를 위해 CNN으로 되어있습니다. 특히 단어 단위가 아니라 음절(한글자) 기준으로 동작합니다. 중심 글자 양 옆으로 정해진 윈도우 만큼 입력을 받고 주변의 글자들을 참고하여 품사를 분류합니다.

 

세종 코퍼스의 오류를 수정하고 새로운 데이터를 추가하여 공개를 하려고 했는데 저작권 문제로 불가능하다고 합니다. 좋은 학습 자료를 활용하지 못해서 안타깝네요.

 

 

 

< 소스 코드 >
-> https://github.com/kakao/khaiii

엮인글 :
List of Articles
제목 글쓴이 날짜 조회 수
사진을 인식할 수 있는 ChatGPT 멀티모달 버전 공개 file 깊은바다 2023-09-26 279
Poe에 추가된 업스테이지의 LLM, Solar-70b file 깊은바다 2023-09-18 438
RAG 아키텍처를 위한 임베딩 모델의 선택에 대해 깊은바다 2023-09-14 519
LLM의 미래는 자율행동과 멀티 에이전트 깊은바다 2023-08-30 300
LLM이 서로 협력하여 프로그램을 개발 - ChatDev file 깊은바다 2023-08-16 751
GPT-4에 CoT 프롬프를 적용하여 2023 수능 국어 1등급 달성 file 깊은바다 2023-08-08 621
LLM의 창발적인 현상인 CoT(Chain of Thouht) 소개 file 깊은바다 2023-07-27 707
RAG 아키텍처의 이해 깊은바다 2023-07-23 1328
GPT-4 세부구조에 대한 정보 유출 깊은바다 2023-07-20 457
Llama 2의 RLHF 구현 방법 깊은바다 2023-07-19 723
한국어 LLM 민주화의 시작 KoAlpaca file 깊은바다 2023-07-17 1059
레포트를 써주는 LLM - GPT Researcher file 깊은바다 2023-07-13 409
LLM 챗봇의 특징 2가지 - RAG와 Function 깊은바다 2023-07-06 1196
RAG(Retrieval-Augmented Generation) - LLM의 환각을 줄이는 방법 file 깊은바다 2023-07-04 9671
Generative AI — 시장 구조, 기회, moat에 대한 몇 가지 생각 깊은바다 2023-06-27 302