레플리
글 수 282

그림으로 아주 쉽게 설명한, The Illustrated GPT-2

조회 수 2766 추천 수 0 2020.08.15 16:51:07


시각화의 장인 Jay Alammar가 설명하는 GPT2입니다. 정말 쉽게, 그리고 매우 자세히 모델의 동작방식을 보여주고 있습니다. GPT2는 BERT와 마찬가지로 트랜스포머가 기반입니다. 다만 BERT는 트랜스포머의 인코더만 사용하는데 반해, GPT2는 디코만으로 구성됩니다. 예측한 토큰이 다시 입력으로 들어가며 반복해서 토큰을 생성하기 때문입니다. 이를 자동회귀(auto regression)라 부릅니다.

 

 

 

 

뒷부분에는 트랜스포머의 핵심인 셀프 어텐션(self-attention)을 다루고 있습니다. 이전 글(https://nlpinkorean.github.io/illustrated-transformer/)에서 빠져 있던 Masked self-attention이 추가되었습니다. BERT는 모든 입력 시퀀스 전체에 대해 셀프 어텐션을 수행합니다. 하지만 GPT2에서 같은 방법을 적용하면 문제가 발생합니다. 미리 앞에 나올 토큰을 볼 수 있어 답을 알고 맞추게 됩니다. 그래서 현재까지 예측한 토큰까지만 마스킹을 하여 셀프 어텐션을 합니다.

 

 

 

 

 

요즘 GPT3에 관심있는 분들이 많으실 텐데요. 거의 같은 구조이니 이 글을 참조하시기 바랍니다.

 

 

 

< The Illustrated GPT-2 >
- http://jalammar.github.io/illustrated-gpt2/

 

엮인글 :
List of Articles
제목 글쓴이 날짜sort 조회 수
AutoGPT 사용기 - 다른 에이전트 생성 능력 file 깊은바다 2023-04-23 330
생성 에이전트를 ChatGPT 프롬프트만으로 구현 file 깊은바다 2023-04-20 263
GPT가 스스로 계획을 세워서 실행한다면 - AutoGPT와 LangChain file 깊은바다 2023-04-18 1436
ChatGPT 플러그인으로 만든 TODO 예제 file 깊은바다 2023-04-18 198
한국어 초거대AI가 필요한 이유 - 토크나이저와 한국어 콘텐츠 깊은바다 2023-04-17 268
심즈와 비슷한 가상세계를 ChatGPT로 구현 - 생성 에이전트(Generative Agents) file 깊은바다 2023-04-14 1661
ChatGPT 플러그인 전략 및 생태계 변화 전망 file 깊은바다 2023-04-09 1823
ChatGPT 원티드 플러그인 사용 화면 file 깊은바다 2023-04-07 278
GPT-3, InstructGPT, GPT-3.5, ChatGPT의 차이점 깊은바다 2023-04-05 1331
ChatGPT의 오픈소스 버전 - ColossalChat file 깊은바다 2023-03-30 502
ChatGPT 플러그인 구현 방법 - manifest와 OpenAPI Spec file 깊은바다 2023-03-28 639
ChatGPT를 앱스토어 같은 플랫폼으로 확장 - ChatGPT 플러그인 file 깊은바다 2023-03-24 354
딥마인드의 데미스 하사비스, AGI는 신중한 접근 필요 깊은바다 2023-03-22 147
GPT-4 수능 국어영역에서 3등급(상위 17%) 달성 깊은바다 2023-03-21 332
한글전용 초거대AI가 필요한 이유 [2] 깊은바다 2023-03-18 619