레플리
글 수 293


업스테이지 SOLAR 10.7B 모델의 논문이 나왔습니다. DUS(Depth Up-Scaling)이라는 새로운 기법을 사용했습니다. 먼저 Llama2 아키텍처인 Mistral 7B 모델을 베이스 모델로 가져옵니다. 이 모델을 2개로 복사하고 각각 위쪽 8개 레이어와 아래쪽 8개 레이어를 제거합니다. 그다음 두 모델을 붙여서 총 48 레이어의 하나의 모델로 만듭니다.

 

K-001.png

 

 

 

이 상태에서는 기존 Mistral 7B보다 모델 크기는 10.7B으로 커졌지만 성능이 떨어집니다. 그래서 다시 pretraining을 한번 하고 Instruction tuning과 Alignment tuning 과정을 거칩니다. Instruction tuning은 QA 데이터로 파인튜닝을 합니다. Alignment tuning은 DPO(Direct Preference Optimization)를 사용합니다. 이는 RLHF과 유사하지만 reward가 필요없는 방법입니다.

 

정리하면 7B의 사전훈련된 모델을 두개로 복사하여 붙여서 모델의 크기를 키우고 다시 추가 학습을 했습니다. GPT-4에서 쓰인 MoE(Mixture of Experts) 보다 구조가 훨씬 간단하면서 효율적으로 성능을 높일 수 있습니다. 벤치마크를 보면 MoE 기반의 Mixtral 8x7B보다 점수가 더 높게 나왔습니다. 업스테이지의 기술력이 놀랍네요. SOLAR가 한국을 대표하는 LLM으로 발전했으면 합니다.

 

K-002.png

 

 

 

< 논문 >

https://arxiv.org/abs/2312.15166

 

List of Articles
제목 글쓴이 날짜 조회 수
OpenAI, 성능은 높아지고 가격은 싸진 새로운 모델 공개 file 깊은바다 2024-01-26 468
AI 휴대용 기기 R1을 만든 Rabbit의 대표 Jesse Lyu 깊은바다 2024-01-12 433
화면을 보고 스마트폰 앱 사용방법을 배우는 모델 - AppAgent file 깊은바다 2024-01-08 485
LLM의 새로운 기법 - Merge와 DPO file 깊은바다 2024-01-02 1719
업스테이지 SOLAR 10.7B에서 사용한 DUS 모델 확장 방법 file 깊은바다 2023-12-27 713
죽은 아들의 AI 아바타를 만든 중국의 부모 file 깊은바다 2023-12-21 282
Private sLLM - 어떻게 만들고 어떻게 배포할까? file 깊은바다 2023-12-18 768
GPT-4가 내 여자친구보다 나를 더 잘 알까? file 깊은바다 2023-12-12 292
FSM과 생성 에이전트의 차이점 깊은바다 2023-11-22 298
RAG를 사용한 페르소나 챗봇 - ChatHaruhi file 깊은바다 2023-10-17 1207
LLM Multi Agent: Customer Service를 기깔나게 자동화하는 방법 file [1] 깊은바다 2023-10-09 1010
사진을 인식할 수 있는 ChatGPT 멀티모달 버전 공개 file 깊은바다 2023-09-26 346
Poe에 추가된 업스테이지의 LLM, Solar-70b file 깊은바다 2023-09-18 542
RAG 아키텍처를 위한 임베딩 모델의 선택에 대해 깊은바다 2023-09-14 682
LLM의 미래는 자율행동과 멀티 에이전트 깊은바다 2023-08-30 363