레플리
글 수 283


업스테이지 SOLAR 10.7B 모델의 논문이 나왔습니다. DUS(Depth Up-Scaling)이라는 새로운 기법을 사용했습니다. 먼저 Llama2 아키텍처인 Mistral 7B 모델을 베이스 모델로 가져옵니다. 이 모델을 2개로 복사하고 각각 위쪽 8개 레이어와 아래쪽 8개 레이어를 제거합니다. 그다음 두 모델을 붙여서 총 48 레이어의 하나의 모델로 만듭니다.

 

K-001.png

 

 

 

이 상태에서는 기존 Mistral 7B보다 모델 크기는 10.7B으로 커졌지만 성능이 떨어집니다. 그래서 다시 pretraining을 한번 하고 Instruction tuning과 Alignment tuning 과정을 거칩니다. Instruction tuning은 QA 데이터로 파인튜닝을 합니다. Alignment tuning은 DPO(Direct Preference Optimization)를 사용합니다. 이는 RLHF과 유사하지만 reward가 필요없는 방법입니다.

 

정리하면 7B의 사전훈련된 모델을 두개로 복사하여 붙여서 모델의 크기를 키우고 다시 추가 학습을 했습니다. GPT-4에서 쓰인 MoE(Mixture of Experts) 보다 구조가 훨씬 간단하면서 효율적으로 성능을 높일 수 있습니다. 벤치마크를 보면 MoE 기반의 Mixtral 8x7B보다 점수가 더 높게 나왔습니다. 업스테이지의 기술력이 놀랍네요. SOLAR가 한국을 대표하는 LLM으로 발전했으면 합니다.

 

K-002.png

 

 

 

< 논문 >

https://arxiv.org/abs/2312.15166

 

List of Articles
제목 글쓴이 날짜 조회 수sort
OpenAI, 성능은 높아지고 가격은 싸진 새로운 모델 공개 file 깊은바다 2024-01-26 324
콜센터 챗봇에 ChatGPT를 적용하는 방법 깊은바다 2023-02-20 327
AutoGPT 사용기 - 다른 에이전트 생성 능력 file 깊은바다 2023-04-23 330
GPT-4 수능 국어영역에서 3등급(상위 17%) 달성 깊은바다 2023-03-21 332
인공지능과 친구가 될 수 있을까요 - 이루다의 페르소나 구축 방법 file 깊은바다 2023-02-21 339
ChatGPT API에서도 플러그인과 동일한 기능을 - ChatGPT Function file 깊은바다 2023-06-14 339
ChatGPT를 앱스토어 같은 플랫폼으로 확장 - ChatGPT 플러그인 file 깊은바다 2023-03-24 354
GPT-3를 활용하여 주석을 코드로 바꿔주는 GitHub Copilot 깊은바다 2021-06-30 356
지금 생성AI는 과도기일 뿐 file 깊은바다 2023-06-19 359
딥러닝으로 상식 구축 - Event2Mind 깊은바다 2018-09-14 373
Private sLLM - 어떻게 만들고 어떻게 배포할까? file 깊은바다 2023-12-18 375
딥러닝을 활용한 뉴스 메타 태깅 깊은바다 2019-08-26 379
스탠포드 자연어처리 강의 - The Limits and Future of NLP 깊은바다 2018-08-30 395
페이지(PAIGE)를 만드는 사람들 - 자연어처리 기법 깊은바다 2018-05-26 397
딥러닝으로 동네생활 게시글 필터링하기 깊은바다 2020-10-06 398