레플리
글 수 282

6B 파라미터의 GPT-J_6B 오픈소스 모델

조회 수 3104 추천 수 0 2021.07.01 12:18:15


 

https://arankomatsuzaki.wordpress.com/2021/06/04/gpt-j/

 

 

 

EleutherAI는 오픈소스 GPT-3인 GPT-Neo를 공개했습니다. GPT-2의 파라미터가 1.5B, GPT-3는 175B입니다. GPT-Neo는 현재까지 2.7B까지 나왔습니다.

 

이번에는 6B 사이즈인 GPT-J-6B를 내놓았습니다. 800GB 텍스트에서 400B개의 토큰으로 학습했습니다. TPU v3-256으로 5주가 걸렸다고 합니다. 시간당 192$이니 192x5x7x24=161,280$입니다. 대충 2억정도 들었네요.

 

GPT-Neo와의 가장 큰 차이점은 제로샷이 된다는 것입니다. 별도의 파인튜닝 없이도 질문만 넣으면 다양한 태스크가 가능합니다. 샘플 아웃풋을 보면 수학계산, 기계독해(MRC), 코딩 등의 예를 보여주고 있습니다.

 

 

 

< 테스트 페이지 >

https://6b.eleuther.ai/

 

< GitHub >

https://github.com/kingoflolz/mesh-transformer-jax

 

엮인글 :
List of Articles
제목 글쓴이 날짜sort 조회 수
클로바X의 사용량 제한 - QPM과 TPM 깊은바다 2024-04-01 97
Pi를 만든 Inflection AI, MS로 대거 이직한 이유 깊은바다 2024-03-25 110
LLaMA나 Mistral이 계속 무료로 유지될 수 있을까 깊은바다 2024-03-05 237
GPT-3.5와 클로바X 가격 비교 file 깊은바다 2024-02-25 270
OpenAI, 성능은 높아지고 가격은 싸진 새로운 모델 공개 file 깊은바다 2024-01-26 324
AI 휴대용 기기 R1을 만든 Rabbit의 대표 Jesse Lyu 깊은바다 2024-01-12 249
화면을 보고 스마트폰 앱 사용방법을 배우는 모델 - AppAgent file 깊은바다 2024-01-08 300
LLM의 새로운 기법 - Merge와 DPO file 깊은바다 2024-01-02 1144
업스테이지 SOLAR 10.7B에서 사용한 DUS 모델 확장 방법 file 깊은바다 2023-12-27 455
죽은 아들의 AI 아바타를 만든 중국의 부모 file 깊은바다 2023-12-21 180
Private sLLM - 어떻게 만들고 어떻게 배포할까? file 깊은바다 2023-12-18 359
GPT-4가 내 여자친구보다 나를 더 잘 알까? file 깊은바다 2023-12-12 166
FSM과 생성 에이전트의 차이점 깊은바다 2023-11-22 185
RAG를 사용한 페르소나 챗봇 - ChatHaruhi file 깊은바다 2023-10-17 708
LLM Multi Agent: Customer Service를 기깔나게 자동화하는 방법 file [1] 깊은바다 2023-10-09 643