레플리
글 수 284

GPT-4 세부구조에 대한 정보 유출

조회 수 460 추천 수 0 2023.07.20 11:33:43


https://latte4me.com/676-2/

 

 

 

GPT-4의 세부구조에 대한 루머가 또 유출되었습니다. 확실하지는 않지만 어느정도 신빙성이 있어 보입니다.

  • 파라미터수 1.7조~2조개로 GPT-3(1,750억개)의 10배

  • 16개의 MOE(Mixture of Experts) 사용. 각 MOE 당 1,000억개의 파라미터 보유. MOE는 전문분야에 최적화된 모델을 여러개 만들고 질문이 들어오면 해당하는 모델을 사용하는 방식.

  • 25,000개의 A100을 사용해서 100일 동안 학습. 총 8천억원 소요로 GPT-3 학습비용의 3배.

 

엮인글 :
List of Articles
제목 글쓴이 날짜 조회 수sort
BERT를 이용한 챗봇 구현 file 깊은바다 2019-01-07 4113
GPT-3 데모 사이트 - gpt3demo.com 깊은바다 2021-07-13 3707
한국어 자연어처리를 위한 딥러닝 깊은바다 2018-02-14 3652
하이퍼클로바 활용예 및 사용가이드 file 깊은바다 2022-03-05 3570
한국어로 대화하는 생성 모델의 학습을 위한 여정 - Transformer와 GPT2 깊은바다 2020-08-13 3566
KoGPT2를 파인튜닝하여 만든 챗봇 깊은바다 2020-06-23 3532
구글의 딥러닝 대화 알고리즘 깊은바다 2016-03-25 3356
여러 한국어 GPT 모델들 file [1] 봄눈 2021-11-21 3338
네이버 영화 리뷰 감정 분석 깊은바다 2018-09-07 3293
욕설을 찾는 BERT 모델 - Purifier 깊은바다 2019-08-28 3273
딥러닝으로 챗봇 만들기 깊은바다 2017-05-03 3173
네이버의 초거대모델인 하이퍼클로바 사용 후기 깊은바다 2022-02-14 3171
6B 파라미터의 GPT-J_6B 오픈소스 모델 깊은바다 2021-07-01 3153
케라스로 만든 한글 Seq2Seq 챗봇 소스코드 깊은바다 2019-07-13 3091
구글의 Transformer 신경망 모델 [2] 깊은바다 2018-10-13 3023