자연어처리 - TextRank 기법을 이용한 핵심 어구 추출 및 텍스트 요약

글 수 72

조회 수 3229 추천 수 0 2018.12.28 18:48:00

깊은바다 *.207.106.177 http://aidev.co.kr/6712

구글 검색의 핵심 알고리즘은 PageRank입니다. 링크를 많이 받은 페이지의 점수를 높게 부여하는게 기본 원리입니다. 이와 비슷한 방법을 텍스트에 적용한 TextRank를 설명하고 있습니다.

좌우로 일정 영역에 같이 위치하고 있으면 링크가 연결되어 있다고 판단합니다. 이렇게 단어 또는 문장 단위로 그래프를 연결하고 중요도를 계산합니다. 키워드나 문장요약에 활용할 수 있습니다.

저도 해봤는데 성능이 그렇게 좋지는 않습니다. 특히 '난, 같이, 것' 등의 기본 단어들이 걸려지지 않는게 가장 큰 문제입니다. TF-IDF를 함께 사용하여 다른 문서에서도 빈번하게 쓰이는 단어를 제거해주는 것이 좋을 듯 합니다.

List of Articles

제목	글쓴이	날짜	조회 수
세종 말뭉치보다 9배 더 큰 한글 코퍼스 공개 - 모두의 말뭉치	깊은바다	2020-08-27	3165
노가다 없이 한국어 뉴스/댓글 데이터 분석하기	깊은바다	2018-10-30	3096
검색을 통해 지식그래프를 바로 생성하는 알고리즘	깊은바다	2019-08-02	3052
한국어 오픈소스 자연어처리 라이브러리 - Koshort	깊은바다	2018-05-20	2939
단어 간 유사도 파악 방법	깊은바다	2018-02-01	2855
개인 성격 분석(Watson Personality Insights) 데모	깊은바다	2017-10-02	2812
네이버 사용자를 만족시켜라 - 의도파악과 의미검색	깊은바다	2018-01-28	2664
텍스트 분석을 자동으로 해주는 서비스 - KoALA	깊은바다	2018-10-31	2088
구글 신경망 번역의 원리	깊은바다	2017-02-28	1985
자연어처리의 개념	깊은바다	2018-03-24	1930
문서의 카테고리를 분류할 수 있는 나이브 베이즈 알고리즘	깊은바다	2017-08-31	1884
형태소 분석의 이해	깊은바다	2017-05-01	1798
KoNLPy - 파이썬 한국어 NLP	깊은바다	2017-06-14	1693
파이썬 한국어 말뭉치 패키지 - Korpora	깊은바다	2020-09-12	1513
SentiWordNet과 감성분석	깊은바다	2018-06-04	1456

쓰기

첫 페이지 1 2 3 4 5 끝 페이지