레플리
글 수 283

GPT-4 세부구조에 대한 정보 유출

조회 수 459 추천 수 0 2023.07.20 11:33:43


https://latte4me.com/676-2/

 

 

 

GPT-4의 세부구조에 대한 루머가 또 유출되었습니다. 확실하지는 않지만 어느정도 신빙성이 있어 보입니다.

  • 파라미터수 1.7조~2조개로 GPT-3(1,750억개)의 10배

  • 16개의 MOE(Mixture of Experts) 사용. 각 MOE 당 1,000억개의 파라미터 보유. MOE는 전문분야에 최적화된 모델을 여러개 만들고 질문이 들어오면 해당하는 모델을 사용하는 방식.

  • 25,000개의 A100을 사용해서 100일 동안 학습. 총 8천억원 소요로 GPT-3 학습비용의 3배.

 

엮인글 :
List of Articles
제목 글쓴이 날짜 조회 수sort
부적절한 문장을 판단해주는 딥러닝 모델 - Ask Delphi file 깊은바다 2021-11-08 399
GPT2 텍스트 어드벤처 게임, AI Dungeon 앱 출시 깊은바다 2019-12-23 404
ChatGPT에게 챗봇을 만들어보라고 해봤습니다 file 깊은바다 2022-12-26 413
Together가 공개한 오픈소스 LLM - OpenChatKit 깊은바다 2023-03-12 428
레포트를 써주는 LLM - GPT Researcher file 깊은바다 2023-07-13 428
텍스트 스타일을 바꾸는 딥러닝 기술 깊은바다 2021-06-01 436
Poe에 추가된 업스테이지의 LLM, Solar-70b file 깊은바다 2023-09-18 440
ChatGPT API 정식 공개 file 깊은바다 2023-03-02 455
MS의 딥러닝 대화 모델 - DialoGPT file 깊은바다 2020-04-24 456
GPT-4 세부구조에 대한 정보 유출 깊은바다 2023-07-20 459
딥러닝 상식추론 모델- COMET file 깊은바다 2020-05-04 465
업스테이지 SOLAR 10.7B에서 사용한 DUS 모델 확장 방법 file 깊은바다 2023-12-27 468
GPT2로 만든 가상의 SNS - Botnet 깊은바다 2020-02-14 469
아마존, End-to-End 딥러닝 기술을 고객서비스에 챗봇에 적용 깊은바다 2020-03-17 472
GPT-2를 사용한 텍스트 압축 기법 file 깊은바다 2021-02-19 473