레플리
글 수 282

MS의 딥러닝 대화 모델 - DialoGPT

조회 수 456 추천 수 0 2020.04.24 17:23:24


K-001.png

 

 

 

MS에서 발표한 딥러닝 대화 모델인 DialoGPT입니다. 이름 그대로 GPT2를 기본으로 하고, 이를 대화 도메인에 맞게 약간 변형하였습니다. 각 턴의 텍스트를 End Token으로 구분하고 이어붙여서 입력으로 사용합니다. 래딧의 댓글들을 크롤링하여 질문과 대답의 학습 데이터로 생성하였다고 합니다.

 

모델의 파라미터가 762M인데요. GPT2가 1500M, 구글 Meena가 2600M인 것에 비하면 조금 작습니다. 그래서인지 성능이 그리 뛰어나지는 않은 듯 합니다. 2턴 이상의 문맥은 어느정도 이어지지만, 대답이 짧은 편입니다. 또한 같은 말을 계속 반복하는 경향이 너무 심합니다. Meena가 빨리 공개되어서 한 번 테스트를 해봤으면 좋겠네요.

 

 

 

< 논문 >

-> https://arxiv.org/abs/1911.00536

 

< Colab 실행 코드 >

-> https://colab.research.google.com/drive/1D67YQ7_Rfu8DN2ciYdxfb3KNbRCgiyJh

 

List of Articles
제목 글쓴이 날짜sort 조회 수
클로바X의 사용량 제한 - QPM과 TPM 깊은바다 2024-04-01 94
Pi를 만든 Inflection AI, MS로 대거 이직한 이유 깊은바다 2024-03-25 109
LLaMA나 Mistral이 계속 무료로 유지될 수 있을까 깊은바다 2024-03-05 236
GPT-3.5와 클로바X 가격 비교 file 깊은바다 2024-02-25 269
OpenAI, 성능은 높아지고 가격은 싸진 새로운 모델 공개 file 깊은바다 2024-01-26 321
AI 휴대용 기기 R1을 만든 Rabbit의 대표 Jesse Lyu 깊은바다 2024-01-12 249
화면을 보고 스마트폰 앱 사용방법을 배우는 모델 - AppAgent file 깊은바다 2024-01-08 300
LLM의 새로운 기법 - Merge와 DPO file 깊은바다 2024-01-02 1141
업스테이지 SOLAR 10.7B에서 사용한 DUS 모델 확장 방법 file 깊은바다 2023-12-27 452
죽은 아들의 AI 아바타를 만든 중국의 부모 file 깊은바다 2023-12-21 180
Private sLLM - 어떻게 만들고 어떻게 배포할까? file 깊은바다 2023-12-18 357
GPT-4가 내 여자친구보다 나를 더 잘 알까? file 깊은바다 2023-12-12 166
FSM과 생성 에이전트의 차이점 깊은바다 2023-11-22 183
RAG를 사용한 페르소나 챗봇 - ChatHaruhi file 깊은바다 2023-10-17 707
LLM Multi Agent: Customer Service를 기깔나게 자동화하는 방법 file [1] 깊은바다 2023-10-09 642