챗봇 딥러닝 - 감성대화에서 클로바X가 챗GPT보다 뛰어난 이유

글 수 293

감성대화에서 클로바X가 챗GPT보다 뛰어난 이유

조회 수 456 추천 수 0 2024.05.10 19:12:03

깊은바다 *.151.21.2 http://aidev.co.kr/14819

챗GPT는 학습 데이터의 92%가 영어이고 한글은 고작 0.19%에 불과합니다. 그렇다고 영어로만 이해하는 것은 아닙니다. 실제 LLM은 언어에 종속되지 않은 정보를 저장한다고 알려져 있습니다. 그래서 약간의 한글 데이터만 학습해 기본적인 한국어를 할 수 있다면, 영어로 학습한 내용도 잘 대답합니다.

다만 한글 표현 능력이 매우 떨어지는 편입니다. 기능형 챗봇에서는 큰 문제가 없습니다. 나무 위키 정도만 학습해도 평이한 문장은 충분히 가능하니까요. 하지만 감성 대화는 문장의 어감이 가장 중요합니다. 챗GPT로 페르소나 챗봇을 만들면 아래와 같은 표현을 자주 합니다.

"취미생활로 스트레스를 날려버리자"

"정말 신나는 영화 데이트가 될거야"

이해는 되는데 뭔가 이상한 느낌이 들지 않나요. 실제 우리 생활에서 쓰지 않는 문장이기 때문입니다. 영어로 학습한 데이터를 한글로 번역하듯 생성해서 발생하는 문제입니다. Claude Opus나 Command R+ 모델은 챗GPT보다 한글 표현이 상당히 좋아졌습니다. 디시 스타일로 대답하라고 하면 꽤 그럴듯한 디시 말투로 말을 합니다. 아마 무단으로 한국 커뮤니티 사이트를 크롤링한 듯 보입니다.

그렇지만 네이버의 클로바X가 감성대화에서는 압도적입니다. 그 이유는 역시 데이터에 있습니다. 블로그, 카페, 밴드, 지식인 등 가두리 양식으로 모아둔 방대한 정보가 있으니까요. 스캐터랩 역시 일상대화만 따지면 수준급입니다. 가장 최신 모델을 사용한 제타는 재미면에서 클로바X에 크게 뒤지지 않습니다.

스캐터랩의 연애의 과학에는 카톡으로 보는 속마음이란 서비스가 있습니다. 연인들의 카톡을 올리면 둘 사이의 관계를 분석해줍니다. 여기서 수집한 160억건의 데이터로 제타의 LLM을 학습했습니다. 그만큼 고품질의 한글 데이터가 있었기 때문에 상대적으로 작은 모델로도 높은 성능을 낼 수 있었습니다.

앞으로도 외국산 LLM은 최소한 감성 대화에서는 경쟁력을 갖추기 어렵다고 봅니다. 국내에서 이러한 데이터를 보유하고 있는 곳은 네이버와 카카오, 스캐터랩 정도이니까요.

이 게시물을

엮인글 :

List of Articles

제목	글쓴이	날짜	조회 수
제미나이 2.5 플래시 가격 4배로 인상	우종하	2025-06-28	24
클로바X 신모델 출시 - HCX-005 / HCX-DASH-002	우종하	2025-04-21	412
제미나이 2.5 프로 API 정식 출시	우종하	2025-04-10	319
간단하게 만들어보는 MCP와 동작 방식	우종하	2025-03-31	428
구글 제미나이 2.0의 감성대화 능력	우종하	2025-02-07	358
Pre-training 시대에서 Post-training 시대로 전환	우종하	2024-12-21	435
RAG를 사용한 장기기억의 한계	깊은바다	2024-10-12	555
OpenAI의 o1, IQ 테스트에서 인간의 평균을 훨씬 뛰어넘음	깊은바다	2024-09-16	381
심심이와 이루다1.0같은 검색 기반 챗봇의 장점	깊은바다	2024-06-02	536
GPT-4o가 GPT-4보다 한글 문장 품질이 훨씬 높아짐	깊은바다	2024-05-20	443
GPT-4o, GPT-3.5-turbo, 클로바X 가격 비교	깊은바다	2024-05-15	715
감성대화에서 클로바X가 챗GPT보다 뛰어난 이유	깊은바다	2024-05-10	456
MS 코파일럿, 한국어 토큰수 2배에서 1.1배로 감소	깊은바다	2024-05-04	457
5배 싸진 클로바X의 경량화 모델 - HCX-DASH	깊은바다	2024-04-26	512
클로바X의 사용량 제한 - QPM과 TPM	깊은바다	2024-04-01	489

쓰기

첫 페이지 1 2 3 4 5 6 7 8 9 10 끝 페이지