레플리
글 수 283

카카오의 딥러닝 기반 형태소 분석기

조회 수 497 추천 수 0 2018.11.30 20:05:10


 

https://brunch.co.kr/@kakao-it/308

 

 

 

카카오의 딥러닝 형태소분석기 khaiii가 공개되었습니다. 보통 규칙 기반은 먼저 가능한 품사 조합들을 미리 정해진 룰에 따라 목록을 만듭니다. 그리고 사람에 의해 품사가 태깅된 코퍼스에서 가장 확률이 높은 항목을 찾습니다.

 

입력 : 디자인하여
목록 : 디자인(NNG) * 하(VV / XSV / XSA / NNG) * 여(EC / EF / IC) = 12개
결정 : 디자인(NNG) - 하(XSV) - 여(EC) -> 가장 높은 확률!

 

 

 

딥러닝으로도 형태소분석을 할 수 있는데 RNN 같은 방식을 많이 사용합니다. 그러나 khaiii는 빠른 속도를 위해 CNN으로 되어있습니다. 특히 단어 단위가 아니라 음절(한글자) 기준으로 동작합니다. 중심 글자 양 옆으로 정해진 윈도우 만큼 입력을 받고 주변의 글자들을 참고하여 품사를 분류합니다.

 

세종 코퍼스의 오류를 수정하고 새로운 데이터를 추가하여 공개를 하려고 했는데 저작권 문제로 불가능하다고 합니다. 좋은 학습 자료를 활용하지 못해서 안타깝네요.

 

 

 

< 소스 코드 >
-> https://github.com/kakao/khaiii

엮인글 :
List of Articles
제목 글쓴이 날짜 조회 수
OpenAI가 ChatGPT를 개발할 수 있었던 이유 깊은바다 2023-02-20 176
콜센터 챗봇에 ChatGPT를 적용하는 방법 깊은바다 2023-02-20 327
와튼스쿨 에단 몰릭 교수의 Bing 사용 후기 깊은바다 2023-02-19 135
MS 직원의 GPT 기반 콜센터 챗봇 사용기 깊은바다 2023-02-18 158
구글의 초거대AI LaMDA, 과연 의식을 가지고 있을까 깊은바다 2023-02-17 107
ChatGPT와 대화 인공지능의 미래 깊은바다 2023-02-17 124
하이퍼클로바 기반의 심리상담 챗봇 개발 경험 깊은바다 2023-02-17 238
ChatGPT 프롬프트 엔지니어링 - 다양한 말투로 대답하기 file 깊은바다 2023-02-17 801
ChatGPT, 타임지 표지 장식 깊은바다 2023-02-17 254
ChatGPT의 3가지 핵심 특징 깊은바다 2023-02-16 166
ChatGPT가 Stack Overflow를 대체할까 깊은바다 2023-02-16 105
테드 창, ChatGPT는 엄청나게 효율이 높은 손실 압축임 깊은바다 2023-02-13 237
MS의 목적은 ChatGPT로 구글이 장악한 검색시장 자체를 무너뜨리는 것 깊은바다 2023-02-11 122
ChatGPT와 통합된 Bing 사용후기 영상 깊은바다 2023-02-10 166
MS, Bing과 Edge에 ChatGPT 통합 file 깊은바다 2023-02-08 154