레플리
글 수 284

Llama 2의 RLHF 구현 방법

조회 수 734 추천 수 0 2023.07.19 20:31:41


https://www.facebook.com/rosinality/posts/6768879263164448

 

 

 

Llama 2의 가장 큰 특징은 역시 RLHF입니다. 이 과정에 대해서 자세히 설명한 글입니다. RLHF의 1단계는 SFT입니다. 사람이 질문에 대한 정답을 작성하고 이를 지도학습으로 배웁니다. 2단계는 사람이 모델이 생성한 답변에 점수를 매겨 reward model을 만듭니다. 3단계는 이를 사용해서 모델이 스스로 최적의 문장을 만드는 방법을 학습합니다. SFT보다 RL이 모델의 성능을 높이는데 더 효과적이라고 합니다. 직접 소설을 쓰는 것보다 좋은 소설을 판별하는게 더 쉬운 것처럼요.

 

엮인글 :
List of Articles
제목 글쓴이 날짜sort 조회 수
RNN과 Torch로 발라드곡 작사하기 깊은바다 2018-03-23 538
챗봇에 딥러닝 학습을 적용하기 어려운 이유 file 깊은바다 2018-03-23 6641
잡담봇 삽질기 - 문봇에서 딥러닝 Seq2Seq로 문장 생성 깊은바다 2018-03-25 857
문장 입력 이진분류 모델 레시피 - 영화평점 학습 [3] 깊은바다 2018-04-04 614
Gluon으로구현해보는 한영기계번역 모형 깊은바다 2018-04-13 275
챗봇에서 유사한 문장 자동인식 방법 file 깊은바다 2018-04-27 5154
딥러닝으로 욕설 탐지하기 file [2] 깊은바다 2018-05-04 1073
Java에서 Word2vec 사용하기 깊은바다 2018-05-05 1573
카카오미니의 명령어 분류 방법 - GloVe와 CNN 사용 깊은바다 2018-05-07 674
딥러닝 학습으로 배우는 대화 인공지능 - 구글 듀플렉스 깊은바다 2018-05-09 515
머신러닝의 자연어처리 기술 깊은바다 2018-05-11 937
딥러닝을 이용한 자연어처리 깊은바다 2018-05-17 561
페이지(PAIGE)를 만드는 사람들 - 자연어처리 기법 깊은바다 2018-05-26 399
딥러닝으로 미소녀 챗봇 만들기 깊은바다 2018-06-01 1499
게임 속 음성 기술 깊은바다 2018-06-13 206