글 수 44

노가다 없는 텍스트 분석을 위한 한국어 NLP

조회 수 866 추천 수 0 2018.04.26 15:54:50


Cohesion (Character n-gram)
• 단어의 점수(cohesion)를 아래처럼 구현해 봅니다
def cohesion(w):
return pow(count[w]/count[w[0]],
1/(len(w)-1...

 

https://www.slideshare.net/kimhyunjoonglovit/pycon2017-koreannlp

 

 

 

이전에 소개한 '한국어 채팅 데이터로 머신러닝하기'에서 사용된 cohesion tokenizer(결합 토크나이저)에 대해 자세히 설명한 슬라이드입니다. 토크나이저는 문장을 최소 의미 단위로 분리하는 역할을 합니다. 보통은 형태소분석기를 사용하는데 문제는 사전에 없는 단어가 있을 경우입니다.

 

강다니엘은 워너원의 멤버
-> 강+다니엘+은+워너+원+의+멤버

 

'강다니엘'과 '워너원'은 하나의 토큰으로 분리가 되어야 이후 자연어처리가 용이합니다. 이를 위해서는 사람이 일일이 새로운 단어를 형태소분석기의 사전에 추가해야합니다.

 

 

 

이런 노가다 작업을 cohesion 기법을 사용해서 자동으로 수행할 수 있다고 합니다. 텍스트로 구성된 코퍼스 데이터에서 통계적인 방법을 통해 단어를 구분하는 방법입니다.

 

워너원은 멋져
워너원의 멤버
워너원 좋아해
...

 

위의 문장에서 워너원+(은/의/좋) 처럼 '워너원'과 다음 글자가 나누어지는 것을 확률로 판단하는 것입니다. 정제된 문서가 아닌 일상 대화 위주의 문장이라면 이런 기법이 유용하게 사용될 것 같습니다.

 

 

 

아래 링크에서 소스 코드를 참조하실 수 있습니다.
-> https://github.com/lovit/soynlp

엮인글 :
List of Articles
제목 글쓴이 날짜 조회 수
노가다 없는 텍스트 분석을 위한 한국어 NLP 깊은바다 2018-04-26 866
한국어 채팅 데이터로 머신러닝 하기 깊은바다 2018-04-25 691
나이브 베이즈로 스팸 분류 깊은바다 2018-04-15 333
음성인식 방법과 카카오i의 음성형엔진 깊은바다 2018-04-09 238
엑소브레인 자연어 질의응답 기술 file 깊은바다 2018-03-25 287
왓슨 컴퓨터의 인공지능 소개 깊은바다 2018-03-25 215
자연어처리의 개념 깊은바다 2018-03-24 577
단어 간 유사도 파악 방법 깊은바다 2018-02-01 674
네이버 사용자를 만족시켜라 - 의도파악과 의미검색 깊은바다 2018-01-28 822
머신러닝으로 쏟아지는 유저 CS 답변하기 깊은바다 2018-01-26 325
파이썬으로 3줄 요약기 만들기 깊은바다 2018-01-19 1893
한글 NLP with Python - KoNLPy 사용법 [2] 깊은바다 2017-12-08 2251
공공 인공지능 오픈 API·DATA 서비스 포털 깊은바다 2017-11-29 535
개인 성격 분석(Watson Personality Insights) 데모 file 깊은바다 2017-10-02 699
문서에서 핵심 단어를 찾는 TF-IDF 알고리즘 file 깊은바다 2017-09-07 865