- AI Dev - 인공지능 개발자 모임
- 정보공유
- 챗봇 딥러닝
챗GPT는 학습 데이터의 92%가 영어이고 한글은 고작 0.19%에 불과합니다. 그렇다고 영어로만 이해하는 것은 아닙니다. 실제 LLM은 언어에 종속되지 않은 정보를 저장한다고 알려져 있습니다. 그래서 약간의 한글 데이터만 학습해 기본적인 한국어를 할 수 있다면, 영어로 학습한 내용도 잘 대답합니다.
다만 한글 표현 능력이 매우 떨어지는 편입니다. 기능형 챗봇에서는 큰 문제가 없습니다. 나무 위키 정도만 학습해도 평이한 문장은 충분히 가능하니까요. 하지만 감성 대화는 문장의 어감이 가장 중요합니다. 챗GPT로 페르소나 챗봇을 만들면 아래와 같은 표현을 자주 합니다.
"취미생활로 스트레스를 날려버리자"
"정말 신나는 영화 데이트가 될거야"
이해는 되는데 뭔가 이상한 느낌이 들지 않나요. 실제 우리 생활에서 쓰지 않는 문장이기 때문입니다. 영어로 학습한 데이터를 한글로 번역하듯 생성해서 발생하는 문제입니다. Claude Opus나 Command R+ 모델은 챗GPT보다 한글 표현이 상당히 좋아졌습니다. 디시 스타일로 대답하라고 하면 꽤 그럴듯한 디시 말투로 말을 합니다. 아마 무단으로 한국 커뮤니티 사이트를 크롤링한 듯 보입니다.
그렇지만 네이버의 클로바X가 감성대화에서는 압도적입니다. 그 이유는 역시 데이터에 있습니다. 블로그, 카페, 밴드, 지식인 등 가두리 양식으로 모아둔 방대한 정보가 있으니까요. 스캐터랩 역시 일상대화만 따지면 수준급입니다. 가장 최신 모델을 사용한 제타는 재미면에서 클로바X에 크게 뒤지지 않습니다.
스캐터랩의 연애의 과학에는 카톡으로 보는 속마음이란 서비스가 있습니다. 연인들의 카톡을 올리면 둘 사이의 관계를 분석해줍니다. 여기서 수집한 160억건의 데이터로 제타의 LLM을 학습했습니다. 그만큼 고품질의 한글 데이터가 있었기 때문에 상대적으로 작은 모델로도 높은 성능을 낼 수 있었습니다.
앞으로도 외국산 LLM은 최소한 감성 대화에서는 경쟁력을 갖추기 어렵다고 봅니다. 국내에서 이러한 데이터를 보유하고 있는 곳은 네이버와 카카오, 스캐터랩 정도이니까요.