레플리
글 수 72


99B503405D39FB6E05.png

 

https://bab2min.tistory.com/552

 

 

 

구글 검색의 핵심 알고리즘은 PageRank입니다. 링크를 많이 받은 페이지의 점수를 높게 부여하는게 기본 원리입니다. 이와 비슷한 방법을 텍스트에 적용한 TextRank를 설명하고 있습니다.

 

좌우로 일정 영역에 같이 위치하고 있으면 링크가 연결되어 있다고 판단합니다. 이렇게 단어 또는 문장 단위로 그래프를 연결하고 중요도를 계산합니다. 키워드나 문장요약에 활용할 수 있습니다.

 

저도 해봤는데 성능이 그렇게 좋지는 않습니다. 특히 '난, 같이, 것' 등의 기본 단어들이 걸려지지 않는게 가장 큰 문제입니다. TF-IDF를 함께 사용하여 다른 문서에서도 빈번하게 쓰이는 단어를 제거해주는 것이 좋을 듯 합니다.

List of Articles
제목 글쓴이 날짜sort 조회 수
자연어로 빅데이터 분석 - 왓슨 애널리틱스 깊은바다 2016-03-21 732
사진을 문장으로 변환하는 구글의 새로운 기술 file 깊은바다 2016-03-25 835
자연어처리와 형태소분석의 기초 깊은바다 2016-03-31 1215
차원이 다른 구글 번역기의 도래 깊은바다 2017-02-28 427
구글 신경망 번역의 원리 깊은바다 2017-02-28 1985
네이버 번역앱 파파고 개발자 인터뷰 file 깊은바다 2017-02-28 1421
국민대 강승식 교수의 형태소 분석기 깊은바다 2017-03-24 1285
마르코프 체인을 사용한 자동 문장 생성 file 깊은바다 2017-04-05 8980
자바 형태소 분석기 open-korean-txt 깊은바다 2017-04-11 5436
형태소 분석의 이해 깊은바다 2017-05-01 1798
마르코프 체인으로 만든 p봇 깊은바다 2017-05-01 895
빠르고 성능 좋은 형태소분석기 MeCab-Ko 깊은바다 2017-05-02 4422
KoNLPy - 파이썬 한국어 NLP 깊은바다 2017-06-14 1693
문서의 카테고리를 분류할 수 있는 나이브 베이즈 알고리즘 깊은바다 2017-08-31 1881
문서에서 핵심 단어를 찾는 TF-IDF 알고리즘 file 깊은바다 2017-09-07 4258