레플리
글 수 72

문서에서 핵심 단어를 찾는 TF-IDF 알고리즘

조회 수 4235 추천 수 0 2017.09.07 03:05:13


http://www.bloter.net/archives/264262

https://thinkwarelab.wordpress.com/2016

 

 

 

TF-IDF(Term Frequency-Inverse Document Frequency)는 문서(Document)내에서 단어(Term)의 중요도를 빈도(Frequency)를 사용해서 계산하는 방법입니다.

 

뉴스 기사에서 가장 핵심이 되는 단어가 무엇인지 찾는 방법을 생각해 보겠습니다. 우선 가장 먼저 떠오르는 것은 전체 문서에서 가장 많이 반복되는 단어를 구하는 것입니다. 예를 들어 인공지능에 대한 기사라면 당연히 인공지능이란 용어가 여러번 사용될 것입니다. 이것이 바로 TF입니다. 

 

 

 

하지만 이것만 가지고는 정확한 결과를 얻기 힘듭니다. 컴퓨터나 회사, 개발 등 크게 중요하지 않지만 여러번 반복되는 단어가 있을 가능성이 크기 때문입니다. 그렇기 때문에 이런 단어들을 제외시킬 수 있는 새로운 방법이 필요합니다.

 

이 문서에 많이 반복되지만 다른 문서에도 동일하게 여러번 나오는 단어들은 크게 중요하지 않다고 판단할 수 있습니다. 그래서 각 단어가 문서 전체에 나오는 빈도를 구한 다음 이를 역으로 곱하면 그 단어의 중요도를 감소시킬 수 있습니다. 이것이 IDF입니다.

 

 

 

td-idf-graphic-765x255.png

 

수식은 위와 같습니다. w는 문서 y에서 단어 x의 중요도입니다. 오른쪽의 IDF 부분을 로그로 계산한 것은 숫자가 너무 커지는 것을 방지하기 위해서 입니다. 로그 함수의 특성상 입력에 비해 출력이 서서히 증가하기 때문입니다.

 

List of Articles
제목 글쓴이 날짜 조회 수
노가다 없이 한국어 뉴스/댓글 데이터 분석하기 깊은바다 2018-10-30 3094
자연어(NLP) 처리 기초 정리 깊은바다 2018-10-22 5766
무엇이든 물어보세요, 지식그래프 : 카카오미니와 검색 적용 소개 깊은바다 2018-09-27 663
우리말 자연어처리 기술 - 과거와 현재 깊은바다 2018-08-28 860
엑소브레인의 질의응답 기능 file 깊은바다 2018-08-18 526
엑소브레인 강연 자료 깊은바다 2018-07-19 423
C++로 만든 형태소 분석기 - KIWI 깊은바다 2018-07-02 1130
간편한 토픽 모델링 툴 Tomoto Gui 깊은바다 2018-06-14 1442
클로바 Interaction Model의 이해 및 설계/제작 노하우 - 자연어처리 방법 깊은바다 2018-06-06 640
SentiWordNet과 감성분석 깊은바다 2018-06-04 1456
한국어 오픈소스 자연어처리 라이브러리 - Koshort 깊은바다 2018-05-20 2937
기계번역기의 발전과 역사 깊은바다 2018-05-10 476
소셜 미디어 감성분석을 통한 주가 예측 깊은바다 2018-04-28 1158
노가다 없는 텍스트 분석을 위한 한국어 NLP 깊은바다 2018-04-26 3902
한국어 채팅 데이터로 머신러닝 하기 깊은바다 2018-04-25 6086