챗봇 딥러닝 - 그림으로 아주 쉽게 설명한, The Illustrated GPT-2

글 수 283

그림으로 아주 쉽게 설명한, The Illustrated GPT-2

조회 수 2775 추천 수 0 2020.08.15 16:51:07

깊은바다 *.68.248.98 http://aidev.co.kr/9538

시각화의 장인 Jay Alammar가 설명하는 GPT2입니다. 정말 쉽게, 그리고 매우 자세히 모델의 동작방식을 보여주고 있습니다. GPT2는 BERT와 마찬가지로 트랜스포머가 기반입니다. 다만 BERT는 트랜스포머의 인코더만 사용하는데 반해, GPT2는 디코만으로 구성됩니다. 예측한 토큰이 다시 입력으로 들어가며 반복해서 토큰을 생성하기 때문입니다. 이를 자동회귀(auto regression)라 부릅니다.

뒷부분에는 트랜스포머의 핵심인 셀프 어텐션(self-attention)을 다루고 있습니다. 이전 글(https://nlpinkorean.github.io/illustrated-transformer/)에서 빠져 있던 Masked self-attention이 추가되었습니다. BERT는 모든 입력 시퀀스 전체에 대해 셀프 어텐션을 수행합니다. 하지만 GPT2에서 같은 방법을 적용하면 문제가 발생합니다. 미리 앞에 나올 토큰을 볼 수 있어 답을 알고 맞추게 됩니다. 그래서 현재까지 예측한 토큰까지만 마스킹을 하여 셀프 어텐션을 합니다.

요즘 GPT3에 관심있는 분들이 많으실 텐데요. 거의 같은 구조이니 이 글을 참조하시기 바랍니다.

< The Illustrated GPT-2 >
- http://jalammar.github.io/illustrated-gpt2/

이 게시물을

엮인글 :

List of Articles

제목	글쓴이	날짜	조회 수
러시아의 구글 얀덱스, 100B 초거대모델 무료 공개	깊은바다	2022-06-26	806
구글의 초거대모델 PaLM의 추론과 상식 능력	깊은바다	2022-05-20	838
글자, 사진, 영상을 동시에 처리하는 딥마인드의 딥러닝 모델 - Flamingo	깊은바다	2022-05-10	1428
메타, GPT-3와 동급인 175B의 초거대모델 무료 공개	깊은바다	2022-05-04	1189
GPT-3보다 3배 더 큰 구글의 초거대모델, PaLM	깊은바다	2022-04-07	1407
초거대모델의 파인튜닝 방법 - P-tuning과 LoRA	깊은바다	2022-04-05	12060
교육용 챗봇의 미래!? 구글 람다 (LaMDA)	깊은바다	2022-03-11	1361
하이퍼클로바 활용예 및 사용가이드	깊은바다	2022-03-05	3569
네이버의 초거대모델인 하이퍼클로바 사용 후기	깊은바다	2022-02-14	3170
구글의 대화기반 초거대모델 LaMDA, 논문 공개	깊은바다	2022-02-08	1359
프로그램을 작성하는 딥마인드의 알파코드	깊은바다	2022-02-04	1005
GPT-3를 강화학습으로 업그레이드한 InstructGPT	깊은바다	2022-01-30	2563
DALL-E를 능가하는 OpenAI의 GLIDE	깊은바다	2021-12-27	836
검색기반 거대모델인 딥마인드의 RETRO	깊은바다	2021-12-20	511
HyperCLOVA로 만드는 캐릭터 챗봇	깊은바다	2021-11-26	761

쓰기

첫 페이지 3 4 5 6 7 8 9 10 11 12 끝 페이지