글 수 267

그림으로 아주 쉽게 설명한, The Illustrated GPT-2

조회 수 2633 추천 수 0 2020.08.15 16:51:07


시각화의 장인 Jay Alammar가 설명하는 GPT2입니다. 정말 쉽게, 그리고 매우 자세히 모델의 동작방식을 보여주고 있습니다. GPT2는 BERT와 마찬가지로 트랜스포머가 기반입니다. 다만 BERT는 트랜스포머의 인코더만 사용하는데 반해, GPT2는 디코만으로 구성됩니다. 예측한 토큰이 다시 입력으로 들어가며 반복해서 토큰을 생성하기 때문입니다. 이를 자동회귀(auto regression)라 부릅니다.

 

 

 

 

뒷부분에는 트랜스포머의 핵심인 셀프 어텐션(self-attention)을 다루고 있습니다. 이전 글(https://nlpinkorean.github.io/illustrated-transformer/)에서 빠져 있던 Masked self-attention이 추가되었습니다. BERT는 모든 입력 시퀀스 전체에 대해 셀프 어텐션을 수행합니다. 하지만 GPT2에서 같은 방법을 적용하면 문제가 발생합니다. 미리 앞에 나올 토큰을 볼 수 있어 답을 알고 맞추게 됩니다. 그래서 현재까지 예측한 토큰까지만 마스킹을 하여 셀프 어텐션을 합니다.

 

 

 

 

 

요즘 GPT3에 관심있는 분들이 많으실 텐데요. 거의 같은 구조이니 이 글을 참조하시기 바랍니다.

 

 

 

< The Illustrated GPT-2 >
- http://jalammar.github.io/illustrated-gpt2/

 

엮인글 :
List of Articles
제목 글쓴이 날짜sort 조회 수
MS의 CTO인 Kevin Scott과 OpenAI와의 협업 깊은바다 2023-03-17 75
GPT-4의 특징 정리 file 깊은바다 2023-03-15 1135
7B의 Alpaca가 175B의 GPT-3.5와 동급의 성능을 보임 file 깊은바다 2023-03-14 846
Together가 공개한 오픈소스 LLM - OpenChatKit 깊은바다 2023-03-12 378
ChatGPT 영어회화 깊은바다 2023-03-09 204
노암 촘스키의 ChatGPT 기고문 깊은바다 2023-03-09 271
GenAI 컨퍼런스 대담 요약 - 어떻게 AI가 비즈니스를 재편할 것인가 깊은바다 2023-03-08 252
ChatGPT로 폴 그레이엄 에세이 검색해서 대답 file 깊은바다 2023-03-03 223
ChatGPT API 정식 공개 file 깊은바다 2023-03-02 413
글쓰기 보조 서비스 JasperAI, ChatGPT 때문에 어려움 직면 깊은바다 2023-03-01 9684
네이버 케어콜의 장기기억 기능 - 맞춤 케어를 위한 기억하기 챗봇 file 깊은바다 2023-03-01 170
OpenAI의 샘 알트만, AGI를 향한 계획 깊은바다 2023-02-25 165
인공지능과 친구가 될 수 있을까요 - 이루다의 페르소나 구축 방법 file 깊은바다 2023-02-21 291
ChatGPT의 가장 큰 특징인 in-context learning file 깊은바다 2023-02-21 1019
OpenAI가 ChatGPT를 개발할 수 있었던 이유 깊은바다 2023-02-20 165