자연어처리 - 노가다 없는 텍스트 분석을 위한 한국어 NLP

글 수 72

노가다 없는 텍스트 분석을 위한 한국어 NLP

조회 수 3903 추천 수 0 2018.04.26 15:54:50

깊은바다 *.68.247.188 http://aidev.co.kr/4728

Cohesion (Character n-gram)
â¢ ë¨ì´ì ì ì(cohesion)ë¥¼ ìëì²ë¼ êµ¬íí´ ë´ëë¤
def cohesion(w):
return pow(count[w]/count[w[0]],
1/(len(w)-1...

https://www.slideshare.net/kimhyunjoonglovit/pycon2017-koreannlp

이전에 소개한 '한국어 채팅 데이터로 머신러닝하기'에서 사용된 cohesion tokenizer(결합 토크나이저)에 대해 자세히 설명한 슬라이드입니다. 토크나이저는 문장을 최소 의미 단위로 분리하는 역할을 합니다. 보통은 형태소분석기를 사용하는데 문제는 사전에 없는 단어가 있을 경우입니다.

강다니엘은 워너원의 멤버
-> 강+다니엘+은+워너+원+의+멤버

'강다니엘'과 '워너원'은 하나의 토큰으로 분리가 되어야 이후 자연어처리가 용이합니다. 이를 위해서는 사람이 일일이 새로운 단어를 형태소분석기의 사전에 추가해야합니다.

이런 노가다 작업을 cohesion 기법을 사용해서 자동으로 수행할 수 있다고 합니다. 텍스트로 구성된 코퍼스 데이터에서 통계적인 방법을 통해 단어를 구분하는 방법입니다.

워너원은 멋져
워너원의 멤버
워너원 좋아해
...

위의 문장에서 워너원+(은/의/좋) 처럼 '워너원'과 다음 글자가 나누어지는 것을 확률로 판단하는 것입니다. 정제된 문서가 아닌 일상 대화 위주의 문장이라면 이런 기법이 유용하게 사용될 것 같습니다.

아래 링크에서 소스 코드를 참조하실 수 있습니다.
-> https://github.com/lovit/soynlp

이 게시물을

엮인글 :

List of Articles

제목	글쓴이	날짜	조회 수
간편한 토픽 모델링 툴 Tomoto Gui	깊은바다	2018-06-14	1454
자연어 관련 데이터셋 사이트 - AI 오픈 이노베이션 허브	깊은바다	2018-12-03	1452
네이버 번역앱 파파고 개발자 인터뷰	깊은바다	2017-02-28	1421
공공 인공지능 오픈 API·DATA 서비스 포털	깊은바다	2017-11-29	1381
국민대 강승식 교수의 형태소 분석기	깊은바다	2017-03-24	1285
NLTK 개발자들이 직접 쓴 자연어처리 책의 공개 버전	깊은바다	2019-07-02	1259
자연어처리와 형태소분석의 기초	깊은바다	2016-03-31	1215
소셜 미디어 감성분석을 통한 주가 예측	깊은바다	2018-04-28	1159
C++로 만든 형태소 분석기 - KIWI	깊은바다	2018-07-02	1133
매주 한편씩 글을 작성하는 자연어처리 블로그 - 위클리 NLP	깊은바다	2020-06-12	1132
APEACH – 혐오 발화 평가데이터를 만드는 새로운 방법	깊은바다	2022-04-22	1108
NUGU Knowledge Base - 지식베이스	깊은바다	2018-11-10	1031
한국어 MRC 연구를 위한 표준 데이터셋(KorQuAD) 소개 및 B2B를 위한 MRC 연구 사례	깊은바다	2019-03-10	967
파이썬과 커뮤니티와 한국어 오픈데이터 - KoNLPy의 탄생배경	깊은바다	2019-11-11	942
Machine Learning for Kids로 감정분석	깊은바다	2020-02-09	932

쓰기

첫 페이지 1 2 3 4 5 끝 페이지