레플리
글 수 291

그림으로 아주 쉽게 설명한, The Illustrated GPT-2

조회 수 2875 추천 수 0 2020.08.15 16:51:07


시각화의 장인 Jay Alammar가 설명하는 GPT2입니다. 정말 쉽게, 그리고 매우 자세히 모델의 동작방식을 보여주고 있습니다. GPT2는 BERT와 마찬가지로 트랜스포머가 기반입니다. 다만 BERT는 트랜스포머의 인코더만 사용하는데 반해, GPT2는 디코만으로 구성됩니다. 예측한 토큰이 다시 입력으로 들어가며 반복해서 토큰을 생성하기 때문입니다. 이를 자동회귀(auto regression)라 부릅니다.

 

 

 

 

뒷부분에는 트랜스포머의 핵심인 셀프 어텐션(self-attention)을 다루고 있습니다. 이전 글(https://nlpinkorean.github.io/illustrated-transformer/)에서 빠져 있던 Masked self-attention이 추가되었습니다. BERT는 모든 입력 시퀀스 전체에 대해 셀프 어텐션을 수행합니다. 하지만 GPT2에서 같은 방법을 적용하면 문제가 발생합니다. 미리 앞에 나올 토큰을 볼 수 있어 답을 알고 맞추게 됩니다. 그래서 현재까지 예측한 토큰까지만 마스킹을 하여 셀프 어텐션을 합니다.

 

 

 

 

 

요즘 GPT3에 관심있는 분들이 많으실 텐데요. 거의 같은 구조이니 이 글을 참조하시기 바랍니다.

 

 

 

< The Illustrated GPT-2 >
- http://jalammar.github.io/illustrated-gpt2/

 

엮인글 :
List of Articles
제목 글쓴이 날짜sort 조회 수
구글 듀플렉스에 대한 소개 깊은바다 2018-07-30 212
딥러닝을 이용한 자연어 처리 깊은바다 2018-08-01 550
사람의 말로 표현하는 페이지(PAIGE) - 자연어생성 깊은바다 2018-08-04 691
딥러닝으로 욕설 탐지하기 깊은바다 2018-08-06 1914
딥러닝을 이용한 지역 컨텍스트 검색 깊은바다 2018-08-10 245
추천시스템이 word2vec을 만났을때 깊은바다 2018-08-22 1062
문장의 유사도를 파악하는 구글의 universal-sentence-encoder file 깊은바다 2018-08-29 1637
스탠포드 자연어처리 강의 - The Limits and Future of NLP 깊은바다 2018-08-30 420
소설 쓰는 딥러닝 file 깊은바다 2018-08-31 1418
포자랩스의 작사/작곡 인공지능 file 깊은바다 2018-08-31 667
네이버 영화 리뷰 감정 분석 깊은바다 2018-09-07 3327
딥러닝과 자연어처리의 집중 메커니즘 깊은바다 2018-09-08 1050
딥러닝으로 상식 구축 - Event2Mind 깊은바다 2018-09-14 400
문장을 사진으로 변환하는 StackGAN [1] 깊은바다 2018-09-17 1470
페르소나를 가진 대화 학습 - Personalizing Dialogue Agents file 깊은바다 2018-09-19 643