글 수 53


2277104058AABEBB20

 

https://bab2min.tistory.com/552

 

 

 

구글 검색의 핵심 알고리즘은 PageRank입니다. 링크를 많이 받은 페이지의 점수를 높게 부여하는게 기본 원리입니다. 이와 비슷한 방법을 텍스트에 적용한 TextRank를 설명하고 있습니다.

 

좌우로 일정 영역에 같이 위치하고 있으면 링크가 연결되어 있다고 판단합니다. 이렇게 단어 또는 문장 단위로 그래프를 연결하고 중요도를 계산합니다. 키워드나 문장요약에 활용할 수 있습니다.

 

저도 해봤는데 성능이 그렇게 좋지는 않습니다. 특히 '난, 같이, 것' 등의 기본 단어들이 걸려지지 않는게 가장 큰 문제입니다. TF-IDF를 함께 사용하여 다른 문서에서도 빈번하게 쓰이는 단어를 제거해주는 것이 좋을 듯 합니다.






엮인글 :
List of Articles
제목 글쓴이 날짜 조회 수
스마트 스피커에서의 음악 재생 발화 오류 교정 file 깊은바다 2019-03-28 64
한국어 MRC 연구를 위한 표준 데이터셋(KorQuAD) 소개 및 B2B를 위한 MRC 연구 사례 깊은바다 2019-03-10 173
메이템 가상비서 앱 자연어처리 모듈 개발 file [1] 깊은바다 2019-01-31 200
토론하는 인공지능 - IBM Project Debater file 깊은바다 2019-01-16 155
인공지능이 법률 문서를 검토한다면? 깊은바다 2019-01-09 183
TextRank 기법을 이용한 핵심 어구 추출 및 텍스트 요약 깊은바다 2018-12-28 476
한국어 자연어처리 데이터셋 - KorQuAD 깊은바다 2018-12-21 1124
자연어 관련 데이터셋 사이트 - AI 오픈 이노베이션 허브 file 깊은바다 2018-12-03 330
네이버 검색과 개인화 깊은바다 2018-11-20 164
NUGU Knowledge Base - 지식베이스 깊은바다 2018-11-10 216
텍스트 분석을 자동으로 해주는 서비스 - KoALA 깊은바다 2018-10-31 466
노가다 없이 한국어 뉴스/댓글 데이터 분석하기 깊은바다 2018-10-30 595
자연어(NLP) 처리 기초 정리 깊은바다 2018-10-22 728
무엇이든 물어보세요, 지식그래프 : 카카오미니와 검색 적용 소개 깊은바다 2018-09-27 287
우리말 자연어처리 기술 - 과거와 현재 깊은바다 2018-08-28 445