레플리
글 수 282

6B 파라미터의 GPT-J_6B 오픈소스 모델

조회 수 3094 추천 수 0 2021.07.01 12:18:15


 

https://arankomatsuzaki.wordpress.com/2021/06/04/gpt-j/

 

 

 

EleutherAI는 오픈소스 GPT-3인 GPT-Neo를 공개했습니다. GPT-2의 파라미터가 1.5B, GPT-3는 175B입니다. GPT-Neo는 현재까지 2.7B까지 나왔습니다.

 

이번에는 6B 사이즈인 GPT-J-6B를 내놓았습니다. 800GB 텍스트에서 400B개의 토큰으로 학습했습니다. TPU v3-256으로 5주가 걸렸다고 합니다. 시간당 192$이니 192x5x7x24=161,280$입니다. 대충 2억정도 들었네요.

 

GPT-Neo와의 가장 큰 차이점은 제로샷이 된다는 것입니다. 별도의 파인튜닝 없이도 질문만 넣으면 다양한 태스크가 가능합니다. 샘플 아웃풋을 보면 수학계산, 기계독해(MRC), 코딩 등의 예를 보여주고 있습니다.

 

 

 

< 테스트 페이지 >

https://6b.eleuther.ai/

 

< GitHub >

https://github.com/kingoflolz/mesh-transformer-jax

 

엮인글 :
List of Articles
제목 글쓴이 날짜sort 조회 수
ChatGPT plugin와 Autonomous Agent, 그리고 새로운 패러다임의 시작 깊은바다 2023-06-27 204
생성 에이전트의 자율성이 AGI의 핵심 요소 file 깊은바다 2023-06-25 171
WizardLM의 Evol-instruct로 직접 한글 데이터셋을 만든 모델 file 깊은바다 2023-06-19 1112
세콰이어캐피탈에서 전망하는 LLM의 미래 깊은바다 2023-06-19 249
지금 생성AI는 과도기일 뿐 file 깊은바다 2023-06-19 358
카카오브레인 김일두 대표님의 글 - 생성AI가 비즈니스를 어떻게 혁신할까 깊은바다 2023-06-15 218
ChatGPT API에서도 플러그인과 동일한 기능을 - ChatGPT Function file 깊은바다 2023-06-14 337
내가 AI를 직접 가르치고 키우는 반려지능의 시대 file 깊은바다 2023-05-31 937
LLM의 시대에도 자연어처리를 배워야할까 깊은바다 2023-05-29 316
아카라이브 AI 언어모델 로컬 채널 file 깊은바다 2023-05-23 525
Scale entanglement - LLM 연대기 깊은바다 2023-05-21 208
ChatGPT iOS 버전 출시 file 깊은바다 2023-05-19 98
GPT-3.5와 하이퍼클로바의 한국어 대결 file 깊은바다 2023-05-12 318
인플루언서의 목소리 클론과 GPT-4로 만든 아바타 서비스 - Caryn.ai 깊은바다 2023-05-11 553
오픈소스 LLM이 ChatGPT를 대체할 수 있을 깊은바다 2023-05-05 294