레플리
글 수 292

Pre-training 시대에서 Post-training 시대로 전환

조회 수 202 추천 수 0 2024.12.21 14:51:13


확대이미지

 

https://www.aitimes.com/news/articleView.html?idxno=166231

 

 

 

o1 preview에 이어 o3가 공개됐습니다. o 시리즈는 기존의 GPT와 이름부터가 다릅니다. 추론에 더 특화된 모델인데요. CoT(Chain-of-Thought)와 RL(Reinforcement learning)을 적용했습니다.

 

CoT는 일반 LLM처럼 한번에 대답하지 않고 여러번 스스로에게 질문을 하면서 생각을 다듬어갑니다. 다양한 페르소나를 가진 에이전트로 구분해서 서로 대화하는 방식도 이와 비슷합니다. o1은RL을 통해 CoT를 훈련했습니다. 그래서 알파고가 혼자 대국을 두면서 학습한 것처럼, 스스로 추론하는 방법을 배웠다고 할 수 있습니다.

 

OpenAI의 핵심 연구자였던 일리야 수츠케버는 사전훈련 방식은 끝났다고 말했습니다. 더 이상 학습할 데이터가 부족하기 때문입니다. 아무리 모델 크기를 늘려도 그만큼의 학습 데이터가 없으면 스케일링 법칙이 적용되지 않습니다. 대신 o1처럼 에이전트나 추론이 더욱 중요해졌습니다. AGI로 가는 보다 확실한 방법으로 보입니다.

 

이제 Pre-training의 시대에서 Post-training의 시대가 되었습니다.

 

엮인글 :
List of Articles
제목 글쓴이 날짜 조회 수
구글 제미나이 2.0의 감성대화 능력 우종하 2025-02-07 111
Pre-training 시대에서 Post-training 시대로 전환 우종하 2024-12-21 202
RAG를 사용한 장기기억의 한계 깊은바다 2024-10-12 277
OpenAI의 o1, IQ 테스트에서 인간의 평균을 훨씬 뛰어넘음 file 깊은바다 2024-09-16 161
심심이와 이루다1.0같은 검색 기반 챗봇의 장점 file 깊은바다 2024-06-02 301
GPT-4o가 GPT-4보다 한글 문장 품질이 훨씬 높아짐 file 깊은바다 2024-05-20 212
GPT-4o, GPT-3.5-turbo, 클로바X 가격 비교 file 깊은바다 2024-05-15 496
감성대화에서 클로바X가 챗GPT보다 뛰어난 이유 깊은바다 2024-05-10 241
MS 코파일럿, 한국어 토큰수 2배에서 1.1배로 감소 file 깊은바다 2024-05-04 256
5배 싸진 클로바X의 경량화 모델 - HCX-DASH file 깊은바다 2024-04-26 298
클로바X의 사용량 제한 - QPM과 TPM 깊은바다 2024-04-01 278
Pi를 만든 Inflection AI, MS로 대거 이직한 이유 깊은바다 2024-03-25 215
LLaMA나 Mistral이 계속 무료로 유지될 수 있을까 깊은바다 2024-03-05 473
GPT-3.5와 클로바X 가격 비교 file 깊은바다 2024-02-25 770
OpenAI, 성능은 높아지고 가격은 싸진 새로운 모델 공개 file 깊은바다 2024-01-26 464