레플리
글 수 281


K-001.png

 

K-002.png

 

https://arxiv.org/pdf/1704.00051.pdf

 

 

 

요즘 질의응답 시스템에 관심이 생겨서 계속 찾아보고 있습니다. 이번 논문은 2017년 페이스북에서 발표한 DrQA입니다. 위키피디아를 검색하여 질문에 대한 정답을 출력합니다.

 

예를 들어, "한국의 수도는?"이라고 질문을 하였습니다. 먼저 BoW(Bag of Words)로 문장을 벡터로 변환합니다. 전체 위키 문서에서 (미국, 한국, 크기, 역사, 수도)의 5개의 단어만 있다면 가정하겠습니다. 각 단어의 위치에 출현한 개수를 넣으면 (0, 1, 0, 0, 1)가 됩니다. 좀 더 정확도를 높이기 위해 TF-IDF를 적용하면 (0, 0.9, 0, 0, 0.7) 같이 바뀝니다. 다른 문서에서 자주 나오는 단어는 중요도를 낮추는 방법입니다.

 

또한 단어의 순서를 고려하기 위해 BoW가 바이그램(bigram)으로 되어있습니다. 단어 하나가 아니라 연속된 두 단어를 묶어서 최소 단위로 지정합니다. 위키의 전체 데이터는 이미 바이그램 TF-IDF로 만들어져 있습니다. 그다음 질문의 벡터와 각 문서 벡터의 코사인 유사도를 구합니다. 여기서 가장 점수가 높은 5개의 문서를 뽑습니다.

 

여기까지가 Document Retriever이고 이제 Document Reader를 수행합니다. 5개의 후보 문서를 각각 질문과 함께 입력하여 문서안에 있는 정답을 찾습니다. 5개의 결과 중 가장 정확도가 높은 것을 선택합니다. 트랜스포머와 버트가 나오기 전이라 딥러닝 모델은 LSTM으로 구현되었습니다.

List of Articles
제목 글쓴이 날짜 조회 수sort
Word2Vec 테스트 사이트 file 깊은바다 2019-01-13 1182
쉽게 씌어진 Word2Vec [2] 깊은바다 2017-12-25 1177
딥러닝 기반 자연어 언어모델 BERT - Colab 실습 코드 포함 file 깊은바다 2019-09-02 1177
최신 자연어처리 모델 소개 file 깊은바다 2022-07-11 1172
커뮤니케이션과 AI - Multi-channel CNN을 이용한 한국어 감성분석 깊은바다 2018-11-22 1156
퓨샷(few-shot) 러닝에 최적화된 GPT3 모델 file 깊은바다 2020-05-30 1154
LLM 챗봇의 특징 2가지 - RAG와 Function 깊은바다 2023-07-06 1150
딥러닝 질의응답 시스템인 cdQA-suite 깊은바다 2020-03-08 1141
유저 피드백을 받아 지속적으로 학습을 하는 챗봇 - BlenderBot 3 file 깊은바다 2022-08-06 1135
다이나믹 메모리 네트워크 정리 file 깊은바다 2018-09-29 1134
딥러닝을 이용한 자연어 처리 입문 - 위키독스 깊은바다 2018-09-21 1100
Dialog-BERT: 100억건의 메신저대화로 일상대화 인공지능 서비스하기 file [1] 깊은바다 2020-04-19 1091
딥러닝으로 욕설 탐지하기 file [2] 깊은바다 2018-05-04 1073
Jay Alammar의 트랜스포머 한글 번역글 깊은바다 2019-05-09 1058
WizardLM의 Evol-instruct로 직접 한글 데이터셋을 만든 모델 file 깊은바다 2023-06-19 1058