- AI Dev - 인공지능 개발자 모임
- 정보공유
- 챗봇 딥러닝
글 수 292
https://www.aitimes.com/news/articleView.html?idxno=166231
o1 preview에 이어 o3가 공개됐습니다. o 시리즈는 기존의 GPT와 이름부터가 다릅니다. 추론에 더 특화된 모델인데요. CoT(Chain-of-Thought)와 RL(Reinforcement learning)을 적용했습니다.
CoT는 일반 LLM처럼 한번에 대답하지 않고 여러번 스스로에게 질문을 하면서 생각을 다듬어갑니다. 다양한 페르소나를 가진 에이전트로 구분해서 서로 대화하는 방식도 이와 비슷합니다. o1은RL을 통해 CoT를 훈련했습니다. 그래서 알파고가 혼자 대국을 두면서 학습한 것처럼, 스스로 추론하는 방법을 배웠다고 할 수 있습니다.
OpenAI의 핵심 연구자였던 일리야 수츠케버는 사전훈련 방식은 끝났다고 말했습니다. 더 이상 학습할 데이터가 부족하기 때문입니다. 아무리 모델 크기를 늘려도 그만큼의 학습 데이터가 없으면 스케일링 법칙이 적용되지 않습니다. 대신 o1처럼 에이전트나 추론이 더욱 중요해졌습니다. AGI로 가는 보다 확실한 방법으로 보입니다.
이제 Pre-training의 시대에서 Post-training의 시대가 되었습니다.