레플리
글 수 72


아마존에서 발표한 새로운 질의응답 모델입니다. 챗봇이나 인공지능 스피커의 대표적인 기능이 바로 질문에 대한 대답입니다. 보통 "현재 미국의 대통령 이름은?" 같은 단순한 문장으로 물어봅니다. 하지만 "올해 개봉한 한국 영화 중 칸에서 상을 받은 것은?" 처럼 여러가지 사실들을 복합적으로 고려하는 경우도 많습니다. 이를 해결하는 전통적인 방법은 크게 두 가지 입니다.

 

첫째, 검색엔진과 비슷하게 문장의 유사도를 통해 해답을 찾습니다. 웹에서 수집한 문서에서 '올해/개봉/한국영화/칸/상' 같은 키워드를 중심으로 그 주변에 있는 엔티티들을 추출합니다. 그리고 가장 점수가 높은 단어(기생충)을 정답으로 선택합니다. 둘째, 지식그래프를 사용합니다. 미리 정보들의 관계를 추상화한 방대한 지식그래프를 생성합니다. 그리고 추론을 통해 질문에 대한 답을 도출합니다.

 

지식그래프는 시간이 갈수록 정확도가 떨어질 수 있다는 문제가 있습니다. 계속 새로운 정보로 갱신하기가 어렵기 때문입니다. 또한 최근에 일어난 일들에 대해서는 처리하기가 어렵습니다. 이를 해결하기 위해 검색과 지식그래프를 통합한 새로운 알고리즘을 제시하였습니다. 질문이 들어오면 웹검색을 하고, 그 결과를 바로 지식그래프로 변환합니다. 사진을 보면 "오스카상을 받고 골든글로브를 놓친 놀란의 영화는?"에 대한 추론 과정이 나와있습니다.

 

 

 

1.jpg

 

먼저 웹페이지를 검색하여 (주어, 술어, 목적어)로 된 정보를 추출하고 지식그래프로 연결합니다.

 

 

 

2.jpg

 

그다음 이미 구축한 데이터를 사용하여 지식그래프를 보강합니다.

 

 

 

3.jpg

 

토대(cornerstones)가 되는 엔티티들을 선택하고 점수가 높은 항목만 남김니다.

 

 

 

4.jpg

마지막으로 최종 정답을 선택합니다.

 

 

 

논문 결과를 보면 딥러닝 기법을 사용한 페이스북의 DrQA보다 훨씬 성능이 높습니다. 하지만 아마 몇 년후에는 질의응답도 딥러닝 방식으로 패러다임이 변하지 않을까 생각됩니다. 물론 웹의 방대한 지식을 딥러닝 모델에 저장하기는 불가능합니다. 먼저 검색엔진으로 몇 개 페이지만 고릅니다. 그리고 이를 컨텍스트로 하고 질문 문장과 같이 모델에 입력합니다. 딥러닝은 컨텍스트에서 질문의 대답을 찾는 거라고 보시면 됩니다. 가상비서의 가장 큰 역할이 질의응답인 만큼, 이 분야가 앞으로 급속도로 발전할 것 같습니다.

 

 

 

< 블로그 >

-> https://developer.amazon.com/blogs/alexa/post/dfcb764c-3191-433c-ab9c-400ec37c0f5e/teaching-computers-to-answer-complex-questions

 

< 논문 >

-> Answering Complex Questions by Joining Multi-Document Evidence with Quasi Knowledge Graphs

-> https://alexapapers.s3.us-east-2.amazonaws.com/Joint+QA+system.pdf

 

List of Articles
제목 글쓴이 날짜 조회 수
파이썬과 커뮤니티와 한국어 오픈데이터 - KoNLPy의 탄생배경 깊은바다 2019-11-11 942
검색을 통해 지식그래프를 바로 생성하는 알고리즘 file 깊은바다 2019-08-02 3052
NLTK 개발자들이 직접 쓴 자연어처리 책의 공개 버전 깊은바다 2019-07-02 1259
WordPiece와 BPE(Byte Pair Encoding) 깊은바다 2019-06-17 4740
스마트 스피커에서의 음악 재생 발화 오류 교정 file 깊은바다 2019-03-28 407
한국어 MRC 연구를 위한 표준 데이터셋(KorQuAD) 소개 및 B2B를 위한 MRC 연구 사례 깊은바다 2019-03-10 967
메이템 가상비서 앱 자연어처리 모듈 개발 file [1] 깊은바다 2019-01-31 828
토론하는 인공지능 - IBM Project Debater file 깊은바다 2019-01-16 579
인공지능이 법률 문서를 검토한다면? 깊은바다 2019-01-09 795
TextRank 기법을 이용한 핵심 어구 추출 및 텍스트 요약 file 깊은바다 2018-12-28 3229
한국어 자연어처리 데이터셋 - KorQuAD 깊은바다 2018-12-21 4724
자연어 관련 데이터셋 사이트 - AI 오픈 이노베이션 허브 file 깊은바다 2018-12-03 1451
네이버 검색과 개인화 깊은바다 2018-11-20 619
NUGU Knowledge Base - 지식베이스 깊은바다 2018-11-10 1031
텍스트 분석을 자동으로 해주는 서비스 - KoALA 깊은바다 2018-10-31 2088