레플리
글 수 72

WordPiece와 BPE(Byte Pair Encoding)

조회 수 4750 추천 수 0 2019.06.17 04:18:39


https://lovit.github.io/nlp/2018/04/02/wpm/

 

 

 

자연어처리 딥러닝은 임베딩(embedding)을 해야 한다는 점에서 이미지 딥러닝과 큰 차이가 있습니다. 임베딩이란 문장을 신경망이 이해할 수 있는 벡터로 변환하는 것을 말합니다. 임베딩에는 단어를 기준으로 하는 워드 임베딩과 글자를 기준으로 하는 캐릭터 임베딩이 있습니다.

 

보통은 워드 임베딩이 더 높은 성능을 보입니다. 임베딩의 의미가 더 압축되어 있기 때문입니다. 예를 들어, 워드 임베딩인 Seq2Seq에서 '인공지능'은 하나의 출력입니다. 하지만 캐릭터 임베딩에서는 '인', '공', '지', '능' 4개로 연속해서 나와야 해서 학습이 더 어렵습니다.

 

다만 워드 임베딩은 사전에 없는 OOV(Out Of Vocabulary)가 나올 수 있다는 단점이 있습니다. 캐릭터 임베딩은 이런 문제가 없기 때문에 더 유리합니다.

 

 

 

이런 두 가지 임베딩을 섞은 방법이 바로 WordPiece 모델입니다. 먼저 캐릭터 단위로 분리를 합니다. 그다음 자주 나오는 캐릭터들을 병합하여 하나의 토큰으로 만듭니다. 이렇게 하면 의미가 있는 캐릭터들이 묶여지기 때문에 캐릭터 임베딩과 워드 임베딩의 장점이 합쳐집니다. 또한 형태소분석이 필요 없어서 다양한 언어에 적용할 수도 있습니다.

 

BERT에서는 WordPiece를 사용했고, GPT2에서는 BPE(Byte Pair Encoding)이 쓰였습니다. WordPiece와 BPE는 거의 비슷한 개념인데, 약간 차이가 있는 것 같습니다. 서로 별개의 논문에서 발표되기도 했고, '_'나 '</w>' 등 토큰을 분리하는 방식이 조금 다릅니다. 좀 더 자세한 사항은 링크된 글을 참조하시기 바랍니다.

엮인글 :
List of Articles
제목 글쓴이 날짜sort 조회 수
개인 성격 분석(Watson Personality Insights) 데모 file 깊은바다 2017-10-02 2812
공공 인공지능 오픈 API·DATA 서비스 포털 깊은바다 2017-11-29 1381
한글 NLP with Python - KoNLPy 사용법 [2] 깊은바다 2017-12-08 4028
파이썬으로 3줄 요약기 만들기 깊은바다 2018-01-19 10815
머신러닝으로 쏟아지는 유저 CS 답변하기 깊은바다 2018-01-26 681
네이버 사용자를 만족시켜라 - 의도파악과 의미검색 깊은바다 2018-01-28 2664
단어 간 유사도 파악 방법 깊은바다 2018-02-01 2855
자연어처리의 개념 깊은바다 2018-03-24 1930
왓슨 컴퓨터의 인공지능 소개 깊은바다 2018-03-25 836
엑소브레인 자연어 질의응답 기술 file 깊은바다 2018-03-25 627
음성인식 방법과 카카오i의 음성형엔진 깊은바다 2018-04-09 661
나이브 베이즈로 스팸 분류 깊은바다 2018-04-15 911
한국어 채팅 데이터로 머신러닝 하기 깊은바다 2018-04-25 6087
노가다 없는 텍스트 분석을 위한 한국어 NLP 깊은바다 2018-04-26 3903
소셜 미디어 감성분석을 통한 주가 예측 깊은바다 2018-04-28 1159