레플리
글 수 214


K-001.png

 

K-002.png

 

K-003.png

 

https://arxiv.org/pdf/1812.08989.pdf

 

 

 

지난번에 MS의 소셜챗봇인 샤오이스에 대한 논문을 소개하였습니다(http://aidev.co.kr/chatbots/7931). 하지만 챗봇의 종류 및 기능에 대한 일반적인 내용이 대부분이었습니다. 작년 12월에 새로운 논문이 발표되었는데, 좀 더 세부적인 사항에 대해서 다루고 있습니다. 특히 Dialogue Manager와 Core Chat이 자세히 나와 있습니다.

 

 

 

Dialogue Manager는 전체 시스템의 컨트롤 타워입니다. 샤오이스는 모든 대화가 주제에 따라 분류되어 있습니다. 또한 스킬이라는 형식으로 날씨, 유머 등 특정 기능을 수행합니다. 이런 토픽과 스킬을 적절하게 관리하여 대화를 이끄는 역할을 담당합니다.

 

Core Chat은 일상 대화를 처리하는데 크게 3가지 방법으로 구성되어 있습니다. 첫째, 질문-대답 목록을 검색합니다. 처음에는 인터넷에서 사람들이 주고받은 문장들을 크롤링하였습니다. 하지만 지금은 샤오이스가 유저들과 나눈 대화 데이터가 70% 이상이라고 합니다. 둘째, Seq2Seq 모델로 문장을 직접 생성합니다. 셋째, 크롤링한 정보에서 질문-대답이 아닌 단문을 활용합니다. 예를 들어, '베이징에 대해 알려줘'라고 물어보면, 베이징과 관련된 문장을 찾습니다. 그리고 '베이징에서는 만리장성이 가장 유명해' 같이 대답합니다. 마지막으로 이렇게 만들어진 문장 후보들에 점수를 부여합니다. 이때 바로 앞 질문만이 아니라 전체 맥락을 고려하는 등 여러가지 기법이 사용됩니다.

 

사실 논문의 내용만으로는 구체적인 구현 방법을 알기가 어렵습니다. 크롤링한 대화 데이터를 주제별로 분류, 부적절하거나 올바르지 않은 문장을 제거하는 품질 유지, 대답 문장 후보들의 랭킹 계산 등 진짜 핵심적인 노하우는 빠져있습니다. 그래도 소셜챗봇의 구조를 파악하고 싶은 분들은 꼭 읽어보시길 추천드립니다.

 

 

 

최근 딥러닝이 발전하면서 자연어처리도 End-To-End 방식이 많이 연구되고 있습니다. 하지만 하나의 모델로 완벽하게 대화를 할 수 있는 인공지능은 당분간 어려울 듯 합니다. 화제유지, 목적지향 기능, 정보검색, 유저 프로파일링 등 이 모든 것을 학습만으로 구현하기엔 한계가 있습니다. 아마 구글 듀플렉스도 어느정도 하이브리드 방식이 아닐까 생각됩니다. 만약 이게 가능해진다면 인간과 비슷한 AGI에 상당히 가까워진 것이 아닐까요.

List of Articles
제목 글쓴이 날짜 조회 수sort
이상형 월드컵 챗봇 - Swelly file [1] 깊은바다 2017-04-24 399
야마하의 노래하는 소셜로봇 - 찰리 깊은바다 2021-02-28 394
LG전자 서비스 챗봇 file 깊은바다 2018-06-12 386
Rabbit의 R1은 뉴로-심볼릭으로 LAM(Large Action Model) 구현 file 깊은바다 2024-01-21 381
소셜 챗봇 샤오이스의 구현 방법 - The Design and Implementation of XiaoIce file 깊은바다 2019-07-19 377
아이들의 위한 소셜 로봇 - Moxie 깊은바다 2020-05-07 376
ChatGPT API 공개 일주일, ChatGPT를 도입한 서비스 목록 file 깊은바다 2023-03-10 372
타로챗봇 라마마를 만든 띵스플로우 이수지 대표 깊은바다 2018-12-24 366
기가지니 테이블TV 사용기 깊은바다 2020-06-13 366
에이브릴의 챗봇 서비스인 A-Chat 깊은바다 2018-03-28 359
‘안드로이드 오토’ 써봤더니 깊은바다 2018-09-04 359
RAG 기반의 국내 최초 AI 변호사 - 로앤봇 file [1] 깊은바다 2023-09-07 359
2020년 Alexa Prize 소셜봇 우승팀 - Emora file 깊은바다 2020-08-07 358
원격 의료상담 챗봇 - 바빌론 헬스 깊은바다 2018-06-30 355
모바일 지능형 개인화 서비스 - 1mm file 깊은바다 2016-03-21 353