글 수 267

6B 파라미터의 GPT-J_6B 오픈소스 모델

조회 수 1678 추천 수 0 2021.07.01 12:18:15


 

https://arankomatsuzaki.wordpress.com/2021/06/04/gpt-j/

 

 

 

EleutherAI는 오픈소스 GPT-3인 GPT-Neo를 공개했습니다. GPT-2의 파라미터가 1.5B, GPT-3는 175B입니다. GPT-Neo는 현재까지 2.7B까지 나왔습니다.

 

이번에는 6B 사이즈인 GPT-J-6B를 내놓았습니다. 800GB 텍스트에서 400B개의 토큰으로 학습했습니다. TPU v3-256으로 5주가 걸렸다고 합니다. 시간당 192$이니 192x5x7x24=161,280$입니다. 대충 2억정도 들었네요.

 

GPT-Neo와의 가장 큰 차이점은 제로샷이 된다는 것입니다. 별도의 파인튜닝 없이도 질문만 넣으면 다양한 태스크가 가능합니다. 샘플 아웃풋을 보면 수학계산, 기계독해(MRC), 코딩 등의 예를 보여주고 있습니다.

 

 

 

< 테스트 페이지 >

https://6b.eleuther.ai/

 

< GitHub >

https://github.com/kingoflolz/mesh-transformer-jax

 

엮인글 :
List of Articles
제목 글쓴이 날짜 조회 수
구글의 초거대모델 PaLM의 추론과 상식 능력 file 깊은바다 2022-05-20 829
글자, 사진, 영상을 동시에 처리하는 딥마인드의 딥러닝 모델 - Flamingo file 깊은바다 2022-05-10 1130
메타, GPT-3와 동급인 175B의 초거대모델 무료 공개 깊은바다 2022-05-04 1157
GPT-3보다 3배 더 큰 구글의 초거대모델, PaLM file 깊은바다 2022-04-07 1385
초거대모델의 파인튜닝 방법 - P-tuning과 LoRA file 깊은바다 2022-04-05 10297
교육용 챗봇의 미래!? 구글 람다 (LaMDA) 깊은바다 2022-03-11 1349
하이퍼클로바 활용예 및 사용가이드 file 깊은바다 2022-03-05 3484
네이버의 초거대모델인 하이퍼클로바 사용 후기 깊은바다 2022-02-14 3130
구글의 대화기반 초거대모델 LaMDA, 논문 공개 file 깊은바다 2022-02-08 1313
프로그램을 작성하는 딥마인드의 알파코드 file 깊은바다 2022-02-04 981
GPT-3를 강화학습으로 업그레이드한 InstructGPT file 깊은바다 2022-01-30 2516
DALL-E를 능가하는 OpenAI의 GLIDE 깊은바다 2021-12-27 820
검색기반 거대모델인 딥마인드의 RETRO 깊은바다 2021-12-20 493
HyperCLOVA로 만드는 캐릭터 챗봇 file 깊은바다 2021-11-26 724
여러 한국어 GPT 모델들 file [1] 봄눈 2021-11-21 3087