챗봇 딥러닝 - Llama 2의 RLHF 구현 방법

글 수 283

Llama 2의 RLHF 구현 방법

조회 수 728 추천 수 0 2023.07.19 20:31:41

깊은바다 *.68.249.160 http://aidev.co.kr/13228

https://www.facebook.com/rosinality/posts/6768879263164448

Llama 2의 가장 큰 특징은 역시 RLHF입니다. 이 과정에 대해서 자세히 설명한 글입니다. RLHF의 1단계는 SFT입니다. 사람이 질문에 대한 정답을 작성하고 이를 지도학습으로 배웁니다. 2단계는 사람이 모델이 생성한 답변에 점수를 매겨 reward model을 만듭니다. 3단계는 이를 사용해서 모델이 스스로 최적의 문장을 만드는 방법을 학습합니다. SFT보다 RL이 모델의 성능을 높이는데 더 효과적이라고 합니다. 직접 소설을 쓰는 것보다 좋은 소설을 판별하는게 더 쉬운 것처럼요.

이 게시물을

엮인글 :

List of Articles

제목	글쓴이	날짜	조회 수
구글의 초거대모델 PaLM의 추론과 상식 능력	깊은바다	2022-05-20	838
DALL-E를 능가하는 OpenAI의 GLIDE	깊은바다	2021-12-27	836
네이버 뉴스 댓글로 사전훈련한 구어체 모델 - KcBERT	깊은바다	2020-07-20	814
러시아의 구글 얀덱스, 100B 초거대모델 무료 공개	깊은바다	2022-06-26	806
ChatGPT 프롬프트 엔지니어링 - 다양한 말투로 대답하기	깊은바다	2023-02-17	804
GPT-3 패러다임을 바꿀 미친 성능의 인공지능 등장 및 활용 사례 10가지	깊은바다	2020-09-14	799
ChatGPT와 유사한 서비스 - Chatsonic	깊은바다	2023-01-09	794
GPT3로 하는 리액트 프로그래밍	깊은바다	2020-07-19	769
HyperCLOVA로 만드는 캐릭터 챗봇	깊은바다	2021-11-26	761
LLM이 서로 협력하여 프로그램을 개발 - ChatDev	깊은바다	2023-08-16	751
GPT3가 상식을 가지고 있을까	깊은바다	2020-07-24	741
Llama 2의 RLHF 구현 방법	깊은바다	2023-07-19	728
RAG를 사용한 페르소나 챗봇 - ChatHaruhi	깊은바다	2023-10-17	713
LLM의 창발적인 현상인 CoT(Chain of Thouht) 소개	깊은바다	2023-07-27	708
GPT-3를 헬스케어 서비스에 적용했을 때의 문제점들	깊은바다	2020-11-04	707

쓰기

첫 페이지 5 6 7 8 9 10 11 12 13 14 끝 페이지