레플리
글 수 291

그림으로 아주 쉽게 설명한, The Illustrated GPT-2

조회 수 2875 추천 수 0 2020.08.15 16:51:07


시각화의 장인 Jay Alammar가 설명하는 GPT2입니다. 정말 쉽게, 그리고 매우 자세히 모델의 동작방식을 보여주고 있습니다. GPT2는 BERT와 마찬가지로 트랜스포머가 기반입니다. 다만 BERT는 트랜스포머의 인코더만 사용하는데 반해, GPT2는 디코만으로 구성됩니다. 예측한 토큰이 다시 입력으로 들어가며 반복해서 토큰을 생성하기 때문입니다. 이를 자동회귀(auto regression)라 부릅니다.

 

 

 

 

뒷부분에는 트랜스포머의 핵심인 셀프 어텐션(self-attention)을 다루고 있습니다. 이전 글(https://nlpinkorean.github.io/illustrated-transformer/)에서 빠져 있던 Masked self-attention이 추가되었습니다. BERT는 모든 입력 시퀀스 전체에 대해 셀프 어텐션을 수행합니다. 하지만 GPT2에서 같은 방법을 적용하면 문제가 발생합니다. 미리 앞에 나올 토큰을 볼 수 있어 답을 알고 맞추게 됩니다. 그래서 현재까지 예측한 토큰까지만 마스킹을 하여 셀프 어텐션을 합니다.

 

 

 

 

 

요즘 GPT3에 관심있는 분들이 많으실 텐데요. 거의 같은 구조이니 이 글을 참조하시기 바랍니다.

 

 

 

< The Illustrated GPT-2 >
- http://jalammar.github.io/illustrated-gpt2/

 

엮인글 :
List of Articles
제목 글쓴이 날짜 조회 수sort
Scale entanglement - LLM 연대기 깊은바다 2023-05-21 245
ChatGPT 영어회화 깊은바다 2023-03-09 252
클로바X의 사용량 제한 - QPM과 TPM 깊은바다 2024-04-01 252
장문의 대답을 평가하는 자연어처리 벤치마크 - TuringAdvice 깊은바다 2020-04-17 254
죽은 아들의 AI 아바타를 만든 중국의 부모 file 깊은바다 2023-12-21 257
카카오브레인 김일두 대표님의 글 - 생성AI가 비즈니스를 어떻게 혁신할까 깊은바다 2023-06-15 260
심심이와 이루다1.0같은 검색 기반 챗봇의 장점 file 깊은바다 2024-06-02 261
하이퍼클로바 기반의 심리상담 챗봇 개발 경험 깊은바다 2023-02-17 262
페이지링크와 ChatGPT 대화를 동시에 지원하는 검색엔진 - You.com 깊은바다 2022-12-27 265
FSM과 생성 에이전트의 차이점 깊은바다 2023-11-22 267
5배 싸진 클로바X의 경량화 모델 - HCX-DASH file 깊은바다 2024-04-26 267
GPT-4가 내 여자친구보다 나를 더 잘 알까? file 깊은바다 2023-12-12 272
카카오미니의 명령어 분류 방법 깊은바다 2020-10-23 277
GPT-3를 사용하여 코딩을 하는 MS의 파워FX 깊은바다 2021-06-01 279
테드 창, ChatGPT는 엄청나게 효율이 높은 손실 압축임 깊은바다 2023-02-13 293