챗봇 딥러닝 - 한국어 초거대AI가 필요한 이유 - 토크나이저와 한국어 콘텐츠

글 수 284

한국어 초거대AI가 필요한 이유 - 토크나이저와 한국어 콘텐츠

조회 수 271 추천 수 0 2023.04.17 15:55:13

깊은바다 *.32.218.234 http://aidev.co.kr/12637

https://tomaszurbanski.substack.com/p/the-hidden-price-tag-on-gpt-4-for

GPT-4에서 영어 대비 언어별 오버헤드를 정리한 표입니다. 한국어, 일본어, 중국어가 가장 하단에 있네요. 영어에 비해 거의 3배 정도 느립니다. 그만큼 같은 내용일 경우 비용도 더 증가하고요.

이는 GPT의 토크나이저가 BPE(Byte-Pair Encoding)에 기반하고 있기 때문입니다. 처음에는 캐릭터로 분리되지만 데이터셋에서 자주 나오는 캐릭터들은 하나의 토큰으로 합쳐집니다. 예를 들어, 처음에는 a, b, c, ..., z로 시작합니다. 만약 cat이 많이 보인다면 c, a, t가 붙어서 cat이 새로 토큰에 추가됩니다.

c, a, t보다 cat이 더 유리한 점이 무엇일까요. 바로 입력의 길이가 줄어들기 때문에 속도가 더 빨라진다는 것입니다. 그만큼 하나의 토큰이 더 많은 의미를 담게 되는 것이죠. 한중일 언어가 느린 이유는 이렇게 합쳐진 토큰이 적기 때문입니다. 아마 한중일의 데이터가 적어서일 것입니다. 데이터가 부족하면 빈도수가 낮고, 빈도수가 낮으면 토큰이 합쳐지지 않습니다.

그럼 10만개가 아니라 100만개로 토큰 최대치를 늘리면 되지 않을까요. 데이터가 적은 언어들도 토큰이 합쳐질 수 있게요. GPT에서 Transformer의 가장 마지막에는 Softmax 레이어가 있습니다. 여기서 최종적으로 출력되는 토큰을 결정합니다. 만약 토큰 최대치가 100만개라면 Softmax 역시 100만개 중 하나를 선택해야 합니다. 당연히 모델의 성능이 떨어질 수밖에 없습니다. 앞으로 기술이 더 개선되면 모르겠지만 현재로서는 무작정 토큰 최대치를 늘릴 수가 없습니다.

이와 별도로 한국어 콘텐츠가 부족하다는 점도 문제가 될 수 있습니다. 물론 영어나 다른 언어로 학습한 데이터도 한글로 물어보고 한글로 대답을 얻을 수 있습니다. 하지만 한국어 데이터가 적기 때문에 그만큼 한국 콘텐츠에 대해서 정확히 대답하기가 어렵습니다. 속도와 데이터, 이 2가지 면에서 한국어 전용 초거대AI가 어느정도 경쟁력을 가질 수 있다고 봅니다. 몇 년 후에는 또 어떻게 바뀔지 모르겠지만요.

이 게시물을

엮인글 :

List of Articles

제목	글쓴이	날짜	조회 수
딥러닝을 이용한 자연어 처리 입문 - 위키독스	깊은바다	2018-09-21	1108
질의응답을 위한 딥러닝 모델인 메모리 네트워크 정리	깊은바다	2018-09-26	960
다이나믹 메모리 네트워크 정리	깊은바다	2018-09-29	1135
딥러닝을 이용한 자연어처리의 연구동향	깊은바다	2018-10-04	631
썰로 푸는 NLP	깊은바다	2018-10-11	494
Seq2Seq와 어텐션 기법을 애니메이션으로 쉽게 설명한 글	깊은바다	2018-10-12	1055
구글의 Transformer 신경망 모델 [2]	깊은바다	2018-10-13	3023
RNN seq2seq 간단한 대화모델	깊은바다	2018-10-23	1366
사전학습을 통한 구글의 자연어처리 언어 모델 - BERT	깊은바다	2018-11-03	4299
개체명인식 with Naver	깊은바다	2018-11-20	2320
커뮤니케이션과 AI - Multi-channel CNN을 이용한 한국어 감성분석	깊은바다	2018-11-22	1156
딥러닝 자연어처리 튜토리얼 - DLK2NLP [1]	깊은바다	2018-11-24	1221
구글 듀플렉스(Duplex) 상용화 시작 [2]	깊은바다	2018-11-26	644
위키정보를 찾아 잡담을 하는 딥러닝 모델 - Wizard Of Wikipedia	깊은바다	2018-11-29	900
카카오의 딥러닝 기반 형태소 분석기	깊은바다	2018-11-30	497

쓰기

첫 페이지 1 2 3 4 5 6 7 8 9 10 끝 페이지