레플리
글 수 282

6B 파라미터의 GPT-J_6B 오픈소스 모델

조회 수 3094 추천 수 0 2021.07.01 12:18:15


 

https://arankomatsuzaki.wordpress.com/2021/06/04/gpt-j/

 

 

 

EleutherAI는 오픈소스 GPT-3인 GPT-Neo를 공개했습니다. GPT-2의 파라미터가 1.5B, GPT-3는 175B입니다. GPT-Neo는 현재까지 2.7B까지 나왔습니다.

 

이번에는 6B 사이즈인 GPT-J-6B를 내놓았습니다. 800GB 텍스트에서 400B개의 토큰으로 학습했습니다. TPU v3-256으로 5주가 걸렸다고 합니다. 시간당 192$이니 192x5x7x24=161,280$입니다. 대충 2억정도 들었네요.

 

GPT-Neo와의 가장 큰 차이점은 제로샷이 된다는 것입니다. 별도의 파인튜닝 없이도 질문만 넣으면 다양한 태스크가 가능합니다. 샘플 아웃풋을 보면 수학계산, 기계독해(MRC), 코딩 등의 예를 보여주고 있습니다.

 

 

 

< 테스트 페이지 >

https://6b.eleuther.ai/

 

< GitHub >

https://github.com/kingoflolz/mesh-transformer-jax

 

엮인글 :
List of Articles
제목 글쓴이 날짜 조회 수sort
새로운 자연어처리 벤치마크 - SuperGLUE 깊은바다 2019-08-15 703
RAG를 사용한 페르소나 챗봇 - ChatHaruhi file 깊은바다 2023-10-17 689
딥러닝 자연어처리 강의 - Natural Language Processing with PyTorch 깊은바다 2019-07-06 687
카카오미니의 명령어 분류 방법 - GloVe와 CNN 사용 깊은바다 2018-05-07 674
GPT3 튜링 테스트 깊은바다 2020-07-23 668
사람의 말로 표현하는 페이지(PAIGE) - 자연어생성 깊은바다 2018-08-04 660
인터넷 검색을 하고 장기기억을 저장하는 페이스북의 챗봇 - Blenderbot 2 file 깊은바다 2021-07-19 653
구글 듀플렉스(Duplex) 상용화 시작 [2] 깊은바다 2018-11-26 644
포자랩스의 작사/작곡 인공지능 file 깊은바다 2018-08-31 641
ChatGPT 플러그인 구현 방법 - manifest와 OpenAPI Spec file 깊은바다 2023-03-28 640
LLM Multi Agent: Customer Service를 기깔나게 자동화하는 방법 file [1] 깊은바다 2023-10-09 632
딥러닝을 이용한 자연어처리의 연구동향 깊은바다 2018-10-04 631
대화 인공지능 대회 - ConvAI file 깊은바다 2019-03-25 630
책 한권을 입력으로 받는 구글의 딥러닝 모델 - Reformer 깊은바다 2020-01-17 622
한글전용 초거대AI가 필요한 이유 [2] 깊은바다 2023-03-18 622