챗봇 딥러닝 - RAG(Retrieval-Augmented Generation)

글 수 283

RAG(Retrieval-Augmented Generation) - LLM의 환각을 줄이는 방법

조회 수 9718 추천 수 0 2023.07.04 15:56:35

깊은바다 *.32.218.234 http://aidev.co.kr/13062

ChatGPT의 가장 큰 단점은 환각(hallucination)입니다. 자기가 모르는 사실은 적당히 지어내서 얘기합니다. 그래서 언뜻 그럴듯해 보이지만 실제로는 잘못된 정보일 경우가 많습니다.

이런 문제를 해결하는 첫 번째 방법은 파인튜닝입니다. 특정 도메인의 새로운 데이터로 추가 학습을 합니다. 초거대AI일 경우 전체 파라미터를 모두 업데이트하기는 어렵습니다. 그래서 P-tuning이나 LoRA 같이 일부 파라미터만 학습하는 방식을 사용합니다. 다만 아직 ChatGPT는 파인튜닝 기능이 없습니다.

두 번째 방법은 RAG(Retrieval-Augmented Generation)입니다. LLM에게 미리 질문과 관련된 참고자료를 알려줍니다. 이렇게 하면 환각을 줄이고 보다 정확하게 대답을 생성할 수 있습니다. ChatPDF가 대표적인 예입니다. PDF 문서를 업로드하고 질문을 하면, PDF에서 해당하는 정보를 찾아서 대답을 해줍니다.

RAG를 하기 위해선 먼저 지식베이스를 만들어야 합니다. 위키피디아일 경우 100단어 단위로 잘라서 단락으로 구분합니다. 그리고 벡터로 임베딩한 후 벡터DB에 넣습니다. 질문을 하면 이 문장 역시 임베딩으로 변환하고, 벡터DB에서 가장 유사한 단락을 찾습니다. 검색한 단락과 질문을 같이 프롬프트에 넣고 LLM에 입력하면 대답이 생성됩니다. 논문에서는 Bi-Encoder로 임베딩을 했지만, 요즘은 OpenAI Enbeddings를 주로 씁니다.

이런 RAG 기법은 LLM을 당장 기업에서 도입할 수 있는 가장 손쉬운 방법입니다. 이미 관련 스타트업도 상당수 있는 걸로 알고 있습니다. 예전 챗봇 회사들이 SI로 챗봇 만들어주는 것과 비슷합니다. Wecover란 곳에서는 장기기억까지 적용해서 사내 또는 고객대응 LLM 챗봇을 만들어주고 있습니다. 사용자의 프로필 정보나 이전에 했던 말을 기억해서 대답을 하면 더욱 유용해집니다. 이렇게 개인화된 서비스 역시 필수적이 될 것입니다.

< Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks >

https://arxiv.org/abs/2005.11401

< 논문 리뷰 >

https://cobslab.com/retrieval%EC%9D%98-%ED%9A%A8%EA%B3.../

< Embedding이란 무엇이고, 어떻게 사용하는가? >

https://today-gaze-697915.framer.app/.../what-is...

< ChatPDF >

https://www.chatpdf.com/

< Wecover >

https://www.wecoverai.com/

이 게시물을

엮인글 :

List of Articles

제목	글쓴이	날짜	조회 수
ChatGPT iOS 버전 출시	깊은바다	2023-05-19	98
Scale entanglement - LLM 연대기	깊은바다	2023-05-21	208
아카라이브 AI 언어모델 로컬 채널	깊은바다	2023-05-23	531
LLM의 시대에도 자연어처리를 배워야할까	깊은바다	2023-05-29	316
내가 AI를 직접 가르치고 키우는 반려지능의 시대	깊은바다	2023-05-31	968
ChatGPT API에서도 플러그인과 동일한 기능을 - ChatGPT Function	깊은바다	2023-06-14	340
카카오브레인 김일두 대표님의 글 - 생성AI가 비즈니스를 어떻게 혁신할까	깊은바다	2023-06-15	218
지금 생성AI는 과도기일 뿐	깊은바다	2023-06-19	359
세콰이어캐피탈에서 전망하는 LLM의 미래	깊은바다	2023-06-19	249
WizardLM의 Evol-instruct로 직접 한글 데이터셋을 만든 모델	깊은바다	2023-06-19	1142
생성 에이전트의 자율성이 AGI의 핵심 요소	깊은바다	2023-06-25	174
ChatGPT plugin와 Autonomous Agent, 그리고 새로운 패러다임의 시작	깊은바다	2023-06-27	204
Generative AI — 시장 구조, 기회, moat에 대한 몇 가지 생각	깊은바다	2023-06-27	303
RAG(Retrieval-Augmented Generation) - LLM의 환각을 줄이는 방법	깊은바다	2023-07-04	9718
LLM 챗봇의 특징 2가지 - RAG와 Function	깊은바다	2023-07-06	1210

쓰기

첫 페이지 10 11 12 13 14 15 16 17 18 19 끝 페이지