레플리
글 수 288


챗GPT는 학습 데이터의 92%가 영어이고 한글은 고작 0.19%에 불과합니다. 그렇다고 영어로만 이해하는 것은 아닙니다. 실제 LLM은 언어에 종속되지 않은 정보를 저장한다고 알려져 있습니다. 그래서 약간의 한글 데이터만 학습해 기본적인 한국어를 할 수 있다면, 영어로 학습한 내용도 잘 대답합니다.

 

다만 한글 표현 능력이 매우 떨어지는 편입니다. 기능형 챗봇에서는 큰 문제가 없습니다. 나무 위키 정도만 학습해도 평이한 문장은 충분히 가능하니까요. 하지만 감성 대화는 문장의 어감이 가장 중요합니다. 챗GPT로 페르소나 챗봇을 만들면 아래와 같은 표현을 자주 합니다.

 

"취미생활로 스트레스를 날려버리자"

"정말 신나는 영화 데이트가 될거야"

 

이해는 되는데 뭔가 이상한 느낌이 들지 않나요. 실제 우리 생활에서 쓰지 않는 문장이기 때문입니다. 영어로 학습한 데이터를 한글로 번역하듯 생성해서 발생하는 문제입니다. Claude Opus나 Command R+ 모델은 챗GPT보다 한글 표현이 상당히 좋아졌습니다. 디시 스타일로 대답하라고 하면 꽤 그럴듯한 디시 말투로 말을 합니다. 아마 무단으로 한국 커뮤니티 사이트를 크롤링한 듯 보입니다.

 

 

 

그렇지만 네이버의 클로바X가 감성대화에서는 압도적입니다. 그 이유는 역시 데이터에 있습니다. 블로그, 카페, 밴드, 지식인 등 가두리 양식으로 모아둔 방대한 정보가 있으니까요. 스캐터랩 역시 일상대화만 따지면 수준급입니다. 가장 최신 모델을 사용한 제타는 재미면에서 클로바X에 크게 뒤지지 않습니다.

 

스캐터랩의 연애의 과학에는 카톡으로 보는 속마음이란 서비스가 있습니다. 연인들의 카톡을 올리면 둘 사이의 관계를 분석해줍니다. 여기서 수집한 160억건의 데이터로 제타의 LLM을 학습했습니다. 그만큼 고품질의 한글 데이터가 있었기 때문에 상대적으로 작은 모델로도 높은 성능을 낼 수 있었습니다.

 

앞으로도 외국산 LLM은 최소한 감성 대화에서는 경쟁력을 갖추기 어렵다고 봅니다. 국내에서 이러한 데이터를 보유하고 있는 곳은 네이버와 카카오, 스캐터랩 정도이니까요.

 

엮인글 :
List of Articles
제목 글쓴이 날짜 조회 수
심심이와 이루다1.0같은 검색 기반 챗봇의 장점 file 깊은바다 2024-06-02 135
GPT-4o가 GPT-4보다 한글 문장 품질이 훨씬 높아짐 file 깊은바다 2024-05-20 127
GPT-4o, GPT-3.5-turbo, 클로바X 가격 비교 file 깊은바다 2024-05-15 284
감성대화에서 클로바X가 챗GPT보다 뛰어난 이유 깊은바다 2024-05-10 110
MS 코파일럿, 한국어 토큰수 2배에서 1.1배로 감소 file 깊은바다 2024-05-04 179
5배 싸진 클로바X의 경량화 모델 - HCX-DASH file 깊은바다 2024-04-26 137
클로바X의 사용량 제한 - QPM과 TPM 깊은바다 2024-04-01 159
Pi를 만든 Inflection AI, MS로 대거 이직한 이유 깊은바다 2024-03-25 145
LLaMA나 Mistral이 계속 무료로 유지될 수 있을까 깊은바다 2024-03-05 336
GPT-3.5와 클로바X 가격 비교 file 깊은바다 2024-02-25 452
OpenAI, 성능은 높아지고 가격은 싸진 새로운 모델 공개 file 깊은바다 2024-01-26 369
AI 휴대용 기기 R1을 만든 Rabbit의 대표 Jesse Lyu 깊은바다 2024-01-12 333
화면을 보고 스마트폰 앱 사용방법을 배우는 모델 - AppAgent file 깊은바다 2024-01-08 382
LLM의 새로운 기법 - Merge와 DPO file 깊은바다 2024-01-02 1395
업스테이지 SOLAR 10.7B에서 사용한 DUS 모델 확장 방법 file 깊은바다 2023-12-27 580