레플리
글 수 290

그림으로 아주 쉽게 설명한, The Illustrated GPT-2

조회 수 2869 추천 수 0 2020.08.15 16:51:07


시각화의 장인 Jay Alammar가 설명하는 GPT2입니다. 정말 쉽게, 그리고 매우 자세히 모델의 동작방식을 보여주고 있습니다. GPT2는 BERT와 마찬가지로 트랜스포머가 기반입니다. 다만 BERT는 트랜스포머의 인코더만 사용하는데 반해, GPT2는 디코만으로 구성됩니다. 예측한 토큰이 다시 입력으로 들어가며 반복해서 토큰을 생성하기 때문입니다. 이를 자동회귀(auto regression)라 부릅니다.

 

 

 

 

뒷부분에는 트랜스포머의 핵심인 셀프 어텐션(self-attention)을 다루고 있습니다. 이전 글(https://nlpinkorean.github.io/illustrated-transformer/)에서 빠져 있던 Masked self-attention이 추가되었습니다. BERT는 모든 입력 시퀀스 전체에 대해 셀프 어텐션을 수행합니다. 하지만 GPT2에서 같은 방법을 적용하면 문제가 발생합니다. 미리 앞에 나올 토큰을 볼 수 있어 답을 알고 맞추게 됩니다. 그래서 현재까지 예측한 토큰까지만 마스킹을 하여 셀프 어텐션을 합니다.

 

 

 

 

 

요즘 GPT3에 관심있는 분들이 많으실 텐데요. 거의 같은 구조이니 이 글을 참조하시기 바랍니다.

 

 

 

< The Illustrated GPT-2 >
- http://jalammar.github.io/illustrated-gpt2/

 

엮인글 :
List of Articles
제목 글쓴이 날짜 조회 수sort
OpenAI Transformer GPT2로 만든 언어 모델 깊은바다 2019-02-17 3019
그림으로 아주 쉽게 설명한, The Illustrated GPT-2 깊은바다 2020-08-15 2869
카카오 형태소 분석기(khaiii) 설치와 은전한닢(mecab) 형태소 분석기 비교 깊은바다 2018-12-02 2839
구글 딥러닝 자연어 처리 오픈소스 SyntaxNet file 깊은바다 2017-12-28 2822
추론이 가능한 딥러닝인 Relational Networks [2] 깊은바다 2017-06-11 2767
GPT-3를 강화학습으로 업그레이드한 InstructGPT file 깊은바다 2022-01-30 2625
Python과 Tensorflow를 활용한 AI Chatbot 개발 및 실무 적용 깊은바다 2017-08-25 2624
오픈소스 한국어 딥러닝 챗봇 - Kochat 깊은바다 2020-07-03 2542
딥러닝을 사용하여 의도 및 엔티티를 파악하는 챗봇 소스코드 file 깊은바다 2019-06-25 2380
BERT로 토익 문제를 푸는 프로젝트 file 깊은바다 2019-04-30 2349
개체명인식 with Naver 깊은바다 2018-11-20 2331
GPT2에서 문장 생성 시 단어를 확률에 따라 선택하는 방법 깊은바다 2020-07-16 2277
소설을 생성하는 NarrativeKoGPT2 file 깊은바다 2020-06-19 2259
GPT2로 만든 텍스트 어드벤처 게임 깊은바다 2019-12-09 2049
네이버의 초거대모델인 하이퍼클로바 가격 공개 깊은바다 2022-08-24 1965