- AI Dev - 인공지능 개발자 모임
- 정보공유
- 챗봇 딥러닝
글 수 293
https://www.facebook.com/rosinality/posts/6768879263164448
Llama 2의 가장 큰 특징은 역시 RLHF입니다. 이 과정에 대해서 자세히 설명한 글입니다. RLHF의 1단계는 SFT입니다. 사람이 질문에 대한 정답을 작성하고 이를 지도학습으로 배웁니다. 2단계는 사람이 모델이 생성한 답변에 점수를 매겨 reward model을 만듭니다. 3단계는 이를 사용해서 모델이 스스로 최적의 문장을 만드는 방법을 학습합니다. SFT보다 RL이 모델의 성능을 높이는데 더 효과적이라고 합니다. 직접 소설을 쓰는 것보다 좋은 소설을 판별하는게 더 쉬운 것처럼요.