레플리
글 수 281

핑퐁의 리액션 모델 - Dialog-BERT 만들기

조회 수 1381 추천 수 0 2020.01.28 01:50:48


 

 

 

일상대화 챗봇인 핑퐁에 사용된 Dialog-BERT에 대한 글입니다. 작년 7월에 처음 연재되었는데, 최근에 4편으로 완결되었습니다. 핑퐁은 '연애의 과학'이란 앱에서 수집한 카톡 데이터로 학습을 하였습니다. 이를 전처리하고, 토큰으로 분리하고, BERT로 사전훈련하고, 최종적으로 파인튜닝하는 과정들을 자세히 보여주고 있습니다.

 

리액션 모델은 핑퐁의 핵심적인 알고리즘입니다. 먼저 어떤 입력이라도 대략 1000개 정도의 클래스로 분류합니다. 그다음 거기에 맞는 답변 템플릿 중 하나를 랜덤하게 선택합니다. 과거에는 한 턴만 가능했지만, 지금은 Dialog-BERT를 통해 2~3턴까지 고려하고 있습니다.

 

무엇보다 핑퐁은 카카오톡에서 수집한 방대한 데이터가 강점입니다. 뿐만 아니라 머신러닝과 딥러닝으로 학습하는 기술력 역시 독보적입니다. 오랫동안 쌓아온 노하우를 공개해주신 분들에게 감사드립니다. 일상대화 챗봇에 관심있는 분들은 꼭 읽어보시길 추천드립니다.

 

 

 

1. 카톡 데이터는 어떻게 정제할 수 있을까?
-> https://blog.pingpong.us/dialog-bert-1/

 

2. 누가누가 잘하나! 대화체와 합이 잘 맞는 Tokenizer를 찾아보자!
-> https://blog.pingpong.us/tokenizer/

 

3. 카톡 대화 데이터를 BERT로 잘 학습시킬 수 있을까?
-> https://blog.pingpong.us/dialog-bert-pretrain/

 

4. 대화의 Context를 반영한 답변을 생성할 수 있을까?
-> https://blog.pingpong.us/ml-dialog-bert-multiturn

엮인글 :
List of Articles
제목 글쓴이 날짜 조회 수
생성 에이전트를 ChatGPT 프롬프트만으로 구현 file 깊은바다 2023-04-20 262
GPT가 스스로 계획을 세워서 실행한다면 - AutoGPT와 LangChain file 깊은바다 2023-04-18 1417
ChatGPT 플러그인으로 만든 TODO 예제 file 깊은바다 2023-04-18 196
한국어 초거대AI가 필요한 이유 - 토크나이저와 한국어 콘텐츠 깊은바다 2023-04-17 263
심즈와 비슷한 가상세계를 ChatGPT로 구현 - 생성 에이전트(Generative Agents) file 깊은바다 2023-04-14 1636
ChatGPT 플러그인 전략 및 생태계 변화 전망 file 깊은바다 2023-04-09 1814
ChatGPT 원티드 플러그인 사용 화면 file 깊은바다 2023-04-07 277
GPT-3, InstructGPT, GPT-3.5, ChatGPT의 차이점 깊은바다 2023-04-05 1291
ChatGPT의 오픈소스 버전 - ColossalChat file 깊은바다 2023-03-30 498
ChatGPT 플러그인 구현 방법 - manifest와 OpenAPI Spec file 깊은바다 2023-03-28 623
ChatGPT를 앱스토어 같은 플랫폼으로 확장 - ChatGPT 플러그인 file 깊은바다 2023-03-24 347
딥마인드의 데미스 하사비스, AGI는 신중한 접근 필요 깊은바다 2023-03-22 146
GPT-4 수능 국어영역에서 3등급(상위 17%) 달성 깊은바다 2023-03-21 330
한글전용 초거대AI가 필요한 이유 [2] 깊은바다 2023-03-18 613
MS의 CTO인 Kevin Scott과 OpenAI와의 협업 깊은바다 2023-03-17 81