- AI Dev - 인공지능 개발자 모임
- 정보공유
- 자연어처리
글 수 72
설명 : http://blog.theeluwin.kr/post/146188165713/summariz3
테스트 : https://summariz3.herokuapp.com/
현재 다음이나 네이버 뉴스를 보면 자동요약 기능이 있습니다.
긴 문장을 2~3 문장으로 짧게 줄여주어 쉽게 내용을 파악할 수 있게 해줍니다.
이런 기능을 간단하게 파이썬으로 구현한 글입니다.
요약을 하기 위한 가장 단순한 방법은 전체 문서에서 가장 중요한 문장을 찾는 것입니다.
대표적으로는 TF-IDF(Term Frequency-Inverse Document Frequency)를 들 수 있는데
단어의 중요도를 먼저 계산한 뒤 각 단어들을 포함한 문장의 중요도를 찾을 수 있습니다.
그리고 가장 수치가 높은 문장을 고릅니다.
위의 글에서는 TextRank라는 알고리즘을 사용하였습니다.
구글에서 검색시 사용하는 PageRank와 비슷한데
각 문장을 Node로 설정하고 Node와 Node 사이의 연결에 가중치를 주어 문장을 뽑아냅니다.
이 연결 가중치는 두 문장에서 같은 단어를 포함하는 유사도를 측정하여 계산하였습니다.
이런 방법은 단순히 문장을 그대로 추출하는 것인데
더 발전하면 여러 문장의 의미를 조합하여 새로운 문장을 생성할 수도 있습니다.
영어의 경우 많이 연구되고 있지만 아직 한글은 자연어처리에 어려움이 있는 듯 합니다.
< 챗봇 개발자 모임 >
- 페이스북 그룹에 가입하시면 챗봇에 대한 최신 정보를 쉽게 받으실 수 있습니다.