자연어처리 - 검색을 통해 지식그래프를 바로 생성하는 알고리즘

글 수 72

검색을 통해 지식그래프를 바로 생성하는 알고리즘

조회 수 3357 추천 수 0 2019.08.02 17:03:27

깊은바다 *.68.247.186 http://aidev.co.kr/8053

아마존에서 발표한 새로운 질의응답 모델입니다. 챗봇이나 인공지능 스피커의 대표적인 기능이 바로 질문에 대한 대답입니다. 보통 "현재 미국의 대통령 이름은?" 같은 단순한 문장으로 물어봅니다. 하지만 "올해 개봉한 한국 영화 중 칸에서 상을 받은 것은?" 처럼 여러가지 사실들을 복합적으로 고려하는 경우도 많습니다. 이를 해결하는 전통적인 방법은 크게 두 가지 입니다.

첫째, 검색엔진과 비슷하게 문장의 유사도를 통해 해답을 찾습니다. 웹에서 수집한 문서에서 '올해/개봉/한국영화/칸/상' 같은 키워드를 중심으로 그 주변에 있는 엔티티들을 추출합니다. 그리고 가장 점수가 높은 단어(기생충)을 정답으로 선택합니다. 둘째, 지식그래프를 사용합니다. 미리 정보들의 관계를 추상화한 방대한 지식그래프를 생성합니다. 그리고 추론을 통해 질문에 대한 답을 도출합니다.

지식그래프는 시간이 갈수록 정확도가 떨어질 수 있다는 문제가 있습니다. 계속 새로운 정보로 갱신하기가 어렵기 때문입니다. 또한 최근에 일어난 일들에 대해서는 처리하기가 어렵습니다. 이를 해결하기 위해 검색과 지식그래프를 통합한 새로운 알고리즘을 제시하였습니다. 질문이 들어오면 웹검색을 하고, 그 결과를 바로 지식그래프로 변환합니다. 사진을 보면 "오스카상을 받고 골든글로브를 놓친 놀란의 영화는?"에 대한 추론 과정이 나와있습니다.

먼저 웹페이지를 검색하여 (주어, 술어, 목적어)로 된 정보를 추출하고 지식그래프로 연결합니다.

그다음 이미 구축한 데이터를 사용하여 지식그래프를 보강합니다.

토대(cornerstones)가 되는 엔티티들을 선택하고 점수가 높은 항목만 남김니다.

마지막으로 최종 정답을 선택합니다.

논문 결과를 보면 딥러닝 기법을 사용한 페이스북의 DrQA보다 훨씬 성능이 높습니다. 하지만 아마 몇 년후에는 질의응답도 딥러닝 방식으로 패러다임이 변하지 않을까 생각됩니다. 물론 웹의 방대한 지식을 딥러닝 모델에 저장하기는 불가능합니다. 먼저 검색엔진으로 몇 개 페이지만 고릅니다. 그리고 이를 컨텍스트로 하고 질문 문장과 같이 모델에 입력합니다. 딥러닝은 컨텍스트에서 질문의 대답을 찾는 거라고 보시면 됩니다. 가상비서의 가장 큰 역할이 질의응답인 만큼, 이 분야가 앞으로 급속도로 발전할 것 같습니다.

< 블로그 >

-> https://developer.amazon.com/blogs/alexa/post/dfcb764c-3191-433c-ab9c-400ec37c0f5e/teaching-computers-to-answer-complex-questions

< 논문 >

-> Answering Complex Questions by Joining Multi-Document Evidence with Quasi Knowledge Graphs

-> https://alexapapers.s3.us-east-2.amazonaws.com/Joint+QA+system.pdf

이 게시물을

엮인글 :

List of Articles

제목	글쓴이	날짜	조회 수
파이썬과 커뮤니티와 한국어 오픈데이터 - KoNLPy의 탄생배경	깊은바다	2019-11-11	1173
검색을 통해 지식그래프를 바로 생성하는 알고리즘	깊은바다	2019-08-02	3357
NLTK 개발자들이 직접 쓴 자연어처리 책의 공개 버전	깊은바다	2019-07-02	1488
WordPiece와 BPE(Byte Pair Encoding)	깊은바다	2019-06-17	5234
스마트 스피커에서의 음악 재생 발화 오류 교정	깊은바다	2019-03-28	731
한국어 MRC 연구를 위한 표준 데이터셋(KorQuAD) 소개 및 B2B를 위한 MRC 연구 사례	깊은바다	2019-03-10	1210
메이템 가상비서 앱 자연어처리 모듈 개발 [1]	깊은바다	2019-01-31	1116
토론하는 인공지능 - IBM Project Debater	깊은바다	2019-01-16	896
인공지능이 법률 문서를 검토한다면?	깊은바다	2019-01-09	1012
TextRank 기법을 이용한 핵심 어구 추출 및 텍스트 요약	깊은바다	2018-12-28	3463
한국어 자연어처리 데이터셋 - KorQuAD	깊은바다	2018-12-21	5095
자연어 관련 데이터셋 사이트 - AI 오픈 이노베이션 허브	깊은바다	2018-12-03	1692
네이버 검색과 개인화	깊은바다	2018-11-20	947
NUGU Knowledge Base - 지식베이스	깊은바다	2018-11-10	1249
텍스트 분석을 자동으로 해주는 서비스 - KoALA	깊은바다	2018-10-31	2359

쓰기

첫 페이지 1 2 3 4 5 끝 페이지