자연어처리 - TextRank 기법을 이용한 핵심 어구 추출 및 텍스트 요약

글 수 72

조회 수 3463 추천 수 0 2018.12.28 18:48:00

깊은바다 *.207.106.177 http://aidev.co.kr/6712

구글 검색의 핵심 알고리즘은 PageRank입니다. 링크를 많이 받은 페이지의 점수를 높게 부여하는게 기본 원리입니다. 이와 비슷한 방법을 텍스트에 적용한 TextRank를 설명하고 있습니다.

좌우로 일정 영역에 같이 위치하고 있으면 링크가 연결되어 있다고 판단합니다. 이렇게 단어 또는 문장 단위로 그래프를 연결하고 중요도를 계산합니다. 키워드나 문장요약에 활용할 수 있습니다.

저도 해봤는데 성능이 그렇게 좋지는 않습니다. 특히 '난, 같이, 것' 등의 기본 단어들이 걸려지지 않는게 가장 큰 문제입니다. TF-IDF를 함께 사용하여 다른 문서에서도 빈번하게 쓰이는 단어를 제거해주는 것이 좋을 듯 합니다.

List of Articles

제목	글쓴이	날짜	조회 수
파이썬과 커뮤니티와 한국어 오픈데이터 - KoNLPy의 탄생배경	깊은바다	2019-11-11	1173
검색을 통해 지식그래프를 바로 생성하는 알고리즘	깊은바다	2019-08-02	3357
NLTK 개발자들이 직접 쓴 자연어처리 책의 공개 버전	깊은바다	2019-07-02	1488
WordPiece와 BPE(Byte Pair Encoding)	깊은바다	2019-06-17	5234
스마트 스피커에서의 음악 재생 발화 오류 교정	깊은바다	2019-03-28	731
한국어 MRC 연구를 위한 표준 데이터셋(KorQuAD) 소개 및 B2B를 위한 MRC 연구 사례	깊은바다	2019-03-10	1210
메이템 가상비서 앱 자연어처리 모듈 개발 [1]	깊은바다	2019-01-31	1116
토론하는 인공지능 - IBM Project Debater	깊은바다	2019-01-16	896
인공지능이 법률 문서를 검토한다면?	깊은바다	2019-01-09	1012
TextRank 기법을 이용한 핵심 어구 추출 및 텍스트 요약	깊은바다	2018-12-28	3463
한국어 자연어처리 데이터셋 - KorQuAD	깊은바다	2018-12-21	5095
자연어 관련 데이터셋 사이트 - AI 오픈 이노베이션 허브	깊은바다	2018-12-03	1692
네이버 검색과 개인화	깊은바다	2018-11-20	947
NUGU Knowledge Base - 지식베이스	깊은바다	2018-11-10	1249
텍스트 분석을 자동으로 해주는 서비스 - KoALA	깊은바다	2018-10-31	2359

쓰기

첫 페이지 1 2 3 4 5 끝 페이지