레플리
글 수 284

GPT-4 세부구조에 대한 정보 유출

조회 수 461 추천 수 0 2023.07.20 11:33:43


https://latte4me.com/676-2/

 

 

 

GPT-4의 세부구조에 대한 루머가 또 유출되었습니다. 확실하지는 않지만 어느정도 신빙성이 있어 보입니다.

  • 파라미터수 1.7조~2조개로 GPT-3(1,750억개)의 10배

  • 16개의 MOE(Mixture of Experts) 사용. 각 MOE 당 1,000억개의 파라미터 보유. MOE는 전문분야에 최적화된 모델을 여러개 만들고 질문이 들어오면 해당하는 모델을 사용하는 방식.

  • 25,000개의 A100을 사용해서 100일 동안 학습. 총 8천억원 소요로 GPT-3 학습비용의 3배.

 

엮인글 :
List of Articles
제목 글쓴이 날짜sort 조회 수
RNN과 Torch로 발라드곡 작사하기 깊은바다 2018-03-23 538
챗봇에 딥러닝 학습을 적용하기 어려운 이유 file 깊은바다 2018-03-23 6641
잡담봇 삽질기 - 문봇에서 딥러닝 Seq2Seq로 문장 생성 깊은바다 2018-03-25 857
문장 입력 이진분류 모델 레시피 - 영화평점 학습 [3] 깊은바다 2018-04-04 614
Gluon으로구현해보는 한영기계번역 모형 깊은바다 2018-04-13 275
챗봇에서 유사한 문장 자동인식 방법 file 깊은바다 2018-04-27 5154
딥러닝으로 욕설 탐지하기 file [2] 깊은바다 2018-05-04 1073
Java에서 Word2vec 사용하기 깊은바다 2018-05-05 1572
카카오미니의 명령어 분류 방법 - GloVe와 CNN 사용 깊은바다 2018-05-07 674
딥러닝 학습으로 배우는 대화 인공지능 - 구글 듀플렉스 깊은바다 2018-05-09 515
머신러닝의 자연어처리 기술 깊은바다 2018-05-11 937
딥러닝을 이용한 자연어처리 깊은바다 2018-05-17 561
페이지(PAIGE)를 만드는 사람들 - 자연어처리 기법 깊은바다 2018-05-26 397
딥러닝으로 미소녀 챗봇 만들기 깊은바다 2018-06-01 1499
게임 속 음성 기술 깊은바다 2018-06-13 206