레플리
글 수 72

노가다 없는 텍스트 분석을 위한 한국어 NLP

조회 수 3902 추천 수 0 2018.04.26 15:54:50


Cohesion (Character n-gram)
• 단어의 점수(cohesion)를 아래처럼 구현해 봅니다
def cohesion(w):
return pow(count[w]/count[w[0]],
1/(len(w)-1...

 

https://www.slideshare.net/kimhyunjoonglovit/pycon2017-koreannlp

 

 

 

이전에 소개한 '한국어 채팅 데이터로 머신러닝하기'에서 사용된 cohesion tokenizer(결합 토크나이저)에 대해 자세히 설명한 슬라이드입니다. 토크나이저는 문장을 최소 의미 단위로 분리하는 역할을 합니다. 보통은 형태소분석기를 사용하는데 문제는 사전에 없는 단어가 있을 경우입니다.

 

강다니엘은 워너원의 멤버
-> 강+다니엘+은+워너+원+의+멤버

 

'강다니엘'과 '워너원'은 하나의 토큰으로 분리가 되어야 이후 자연어처리가 용이합니다. 이를 위해서는 사람이 일일이 새로운 단어를 형태소분석기의 사전에 추가해야합니다.

 

 

 

이런 노가다 작업을 cohesion 기법을 사용해서 자동으로 수행할 수 있다고 합니다. 텍스트로 구성된 코퍼스 데이터에서 통계적인 방법을 통해 단어를 구분하는 방법입니다.

 

워너원은 멋져
워너원의 멤버
워너원 좋아해
...

 

위의 문장에서 워너원+(은/의/좋) 처럼 '워너원'과 다음 글자가 나누어지는 것을 확률로 판단하는 것입니다. 정제된 문서가 아닌 일상 대화 위주의 문장이라면 이런 기법이 유용하게 사용될 것 같습니다.

 

 

 

아래 링크에서 소스 코드를 참조하실 수 있습니다.
-> https://github.com/lovit/soynlp

엮인글 :
List of Articles
제목 글쓴이 날짜sort 조회 수
APEACH – 혐오 발화 평가데이터를 만드는 새로운 방법 깊은바다 2022-04-22 1103
윈도우에서 간편하게 Mecab 설치방법 - pyeunjeon 깊은바다 2021-06-15 498
자연어처리 벤치마크 GLUE의 한글 버전인 KLUE 공개 file 깊은바다 2021-05-22 689
모두의 말뭉치에 새로운 일상 대화 추가 file 깊은바다 2021-04-06 562
자연어처리 벤치마크인 SuperGLUE도 인간의 기록을 경신 [1] 깊은바다 2021-01-21 550
한국어 문장 분리기, KSS(Korean Sentence Splitter) 파이썬 포팅 file 깊은바다 2020-12-23 6160
파이썬 한국어 말뭉치 패키지 - Korpora file 깊은바다 2020-09-12 1510
세종 말뭉치보다 9배 더 큰 한글 코퍼스 공개 - 모두의 말뭉치 file 깊은바다 2020-08-27 3145
한국어 전처리 기법 모음 깊은바다 2020-07-31 4539
예일대의 자연어-SQL 데이터셋, Spider 깊은바다 2020-07-12 525
IBM 왓슨의 자연어처리 방식 깊은바다 2020-06-26 626
매주 한편씩 글을 작성하는 자연어처리 블로그 - 위클리 NLP 깊은바다 2020-06-12 1129
인간의 언어를 이해하는 기계, NLU에는 어떤 것이 있을까? 깊은바다 2020-06-05 417
한글 자모 분리 및 합치기 파이썬 패키지 [1] 깊은바다 2020-03-03 3244
Machine Learning for Kids로 감정분석 깊은바다 2020-02-09 932