레플리
글 수 283

그림으로 아주 쉽게 설명한, The Illustrated GPT-2

조회 수 2777 추천 수 0 2020.08.15 16:51:07


시각화의 장인 Jay Alammar가 설명하는 GPT2입니다. 정말 쉽게, 그리고 매우 자세히 모델의 동작방식을 보여주고 있습니다. GPT2는 BERT와 마찬가지로 트랜스포머가 기반입니다. 다만 BERT는 트랜스포머의 인코더만 사용하는데 반해, GPT2는 디코만으로 구성됩니다. 예측한 토큰이 다시 입력으로 들어가며 반복해서 토큰을 생성하기 때문입니다. 이를 자동회귀(auto regression)라 부릅니다.

 

 

 

 

뒷부분에는 트랜스포머의 핵심인 셀프 어텐션(self-attention)을 다루고 있습니다. 이전 글(https://nlpinkorean.github.io/illustrated-transformer/)에서 빠져 있던 Masked self-attention이 추가되었습니다. BERT는 모든 입력 시퀀스 전체에 대해 셀프 어텐션을 수행합니다. 하지만 GPT2에서 같은 방법을 적용하면 문제가 발생합니다. 미리 앞에 나올 토큰을 볼 수 있어 답을 알고 맞추게 됩니다. 그래서 현재까지 예측한 토큰까지만 마스킹을 하여 셀프 어텐션을 합니다.

 

 

 

 

 

요즘 GPT3에 관심있는 분들이 많으실 텐데요. 거의 같은 구조이니 이 글을 참조하시기 바랍니다.

 

 

 

< The Illustrated GPT-2 >
- http://jalammar.github.io/illustrated-gpt2/

 

엮인글 :
List of Articles
제목 글쓴이 날짜sort 조회 수
LG 사이언스파크에서 만든 한글 MRC(기계독해) 데모 file [2] 깊은바다 2020-03-07 933
딥러닝 질의응답 시스템인 cdQA-suite 깊은바다 2020-03-08 1144
아마존, End-to-End 딥러닝 기술을 고객서비스에 챗봇에 적용 깊은바다 2020-03-17 472
장문의 대답을 평가하는 자연어처리 벤치마크 - TuringAdvice 깊은바다 2020-04-17 215
Dialog-BERT: 100억건의 메신저대화로 일상대화 인공지능 서비스하기 file [1] 깊은바다 2020-04-19 1093
MS의 딥러닝 대화 모델 - DialoGPT file 깊은바다 2020-04-24 456
페이스북의 일상대화 딥러닝 모델 - BlenderBot file 깊은바다 2020-05-01 949
딥러닝 상식추론 모델- COMET file 깊은바다 2020-05-04 465
Meme 자동 생성기 깊은바다 2020-05-11 1023
꼼꼼하고 이해하기 쉬운 ELECTRA 논문 리뷰 깊은바다 2020-05-15 512
인라이플의 한글 BERT 대형모델 깊은바다 2020-05-18 4246
KoGPT2로 한국어 노래 가사 생성하기 깊은바다 2020-05-21 1855
퓨샷(few-shot) 러닝에 최적화된 GPT3 모델 file 깊은바다 2020-05-30 1156
GPT2를 테스트해볼 수 있는 사이트 - Talk to Transformer file 깊은바다 2020-06-05 619
GPT3 유료화 기능 소개 영상 깊은바다 2020-06-15 914