레플리
글 수 72


99B503405D39FB6E05.png

 

https://bab2min.tistory.com/552

 

 

 

구글 검색의 핵심 알고리즘은 PageRank입니다. 링크를 많이 받은 페이지의 점수를 높게 부여하는게 기본 원리입니다. 이와 비슷한 방법을 텍스트에 적용한 TextRank를 설명하고 있습니다.

 

좌우로 일정 영역에 같이 위치하고 있으면 링크가 연결되어 있다고 판단합니다. 이렇게 단어 또는 문장 단위로 그래프를 연결하고 중요도를 계산합니다. 키워드나 문장요약에 활용할 수 있습니다.

 

저도 해봤는데 성능이 그렇게 좋지는 않습니다. 특히 '난, 같이, 것' 등의 기본 단어들이 걸려지지 않는게 가장 큰 문제입니다. TF-IDF를 함께 사용하여 다른 문서에서도 빈번하게 쓰이는 단어를 제거해주는 것이 좋을 듯 합니다.

List of Articles
제목 글쓴이 날짜 조회 수
파이썬과 커뮤니티와 한국어 오픈데이터 - KoNLPy의 탄생배경 깊은바다 2019-11-11 942
검색을 통해 지식그래프를 바로 생성하는 알고리즘 file 깊은바다 2019-08-02 3042
NLTK 개발자들이 직접 쓴 자연어처리 책의 공개 버전 깊은바다 2019-07-02 1259
WordPiece와 BPE(Byte Pair Encoding) 깊은바다 2019-06-17 4717
스마트 스피커에서의 음악 재생 발화 오류 교정 file 깊은바다 2019-03-28 407
한국어 MRC 연구를 위한 표준 데이터셋(KorQuAD) 소개 및 B2B를 위한 MRC 연구 사례 깊은바다 2019-03-10 967
메이템 가상비서 앱 자연어처리 모듈 개발 file [1] 깊은바다 2019-01-31 823
토론하는 인공지능 - IBM Project Debater file 깊은바다 2019-01-16 579
인공지능이 법률 문서를 검토한다면? 깊은바다 2019-01-09 794
TextRank 기법을 이용한 핵심 어구 추출 및 텍스트 요약 file 깊은바다 2018-12-28 3220
한국어 자연어처리 데이터셋 - KorQuAD 깊은바다 2018-12-21 4722
자연어 관련 데이터셋 사이트 - AI 오픈 이노베이션 허브 file 깊은바다 2018-12-03 1450
네이버 검색과 개인화 깊은바다 2018-11-20 619
NUGU Knowledge Base - 지식베이스 깊은바다 2018-11-10 1030
텍스트 분석을 자동으로 해주는 서비스 - KoALA 깊은바다 2018-10-31 2083