글 수 72

WordPiece와 BPE(Byte Pair Encoding)

조회 수 4387 추천 수 0 2019.06.17 04:18:39


https://lovit.github.io/nlp/2018/04/02/wpm/

 

 

 

자연어처리 딥러닝은 임베딩(embedding)을 해야 한다는 점에서 이미지 딥러닝과 큰 차이가 있습니다. 임베딩이란 문장을 신경망이 이해할 수 있는 벡터로 변환하는 것을 말합니다. 임베딩에는 단어를 기준으로 하는 워드 임베딩과 글자를 기준으로 하는 캐릭터 임베딩이 있습니다.

 

보통은 워드 임베딩이 더 높은 성능을 보입니다. 임베딩의 의미가 더 압축되어 있기 때문입니다. 예를 들어, 워드 임베딩인 Seq2Seq에서 '인공지능'은 하나의 출력입니다. 하지만 캐릭터 임베딩에서는 '인', '공', '지', '능' 4개로 연속해서 나와야 해서 학습이 더 어렵습니다.

 

다만 워드 임베딩은 사전에 없는 OOV(Out Of Vocabulary)가 나올 수 있다는 단점이 있습니다. 캐릭터 임베딩은 이런 문제가 없기 때문에 더 유리합니다.

 

 

 

이런 두 가지 임베딩을 섞은 방법이 바로 WordPiece 모델입니다. 먼저 캐릭터 단위로 분리를 합니다. 그다음 자주 나오는 캐릭터들을 병합하여 하나의 토큰으로 만듭니다. 이렇게 하면 의미가 있는 캐릭터들이 묶여지기 때문에 캐릭터 임베딩과 워드 임베딩의 장점이 합쳐집니다. 또한 형태소분석이 필요 없어서 다양한 언어에 적용할 수도 있습니다.

 

BERT에서는 WordPiece를 사용했고, GPT2에서는 BPE(Byte Pair Encoding)이 쓰였습니다. WordPiece와 BPE는 거의 비슷한 개념인데, 약간 차이가 있는 것 같습니다. 서로 별개의 논문에서 발표되기도 했고, '_'나 '</w>' 등 토큰을 분리하는 방식이 조금 다릅니다. 좀 더 자세한 사항은 링크된 글을 참조하시기 바랍니다.

엮인글 :
List of Articles
제목 글쓴이 날짜 조회 수
파이썬과 커뮤니티와 한국어 오픈데이터 - KoNLPy의 탄생배경 깊은바다 2019-11-11 915
검색을 통해 지식그래프를 바로 생성하는 알고리즘 file 깊은바다 2019-08-02 2885
NLTK 개발자들이 직접 쓴 자연어처리 책의 공개 버전 깊은바다 2019-07-02 1203
WordPiece와 BPE(Byte Pair Encoding) 깊은바다 2019-06-17 4387
스마트 스피커에서의 음악 재생 발화 오류 교정 file 깊은바다 2019-03-28 374
한국어 MRC 연구를 위한 표준 데이터셋(KorQuAD) 소개 및 B2B를 위한 MRC 연구 사례 깊은바다 2019-03-10 923
메이템 가상비서 앱 자연어처리 모듈 개발 file [1] 깊은바다 2019-01-31 774
토론하는 인공지능 - IBM Project Debater file 깊은바다 2019-01-16 535
인공지능이 법률 문서를 검토한다면? 깊은바다 2019-01-09 756
TextRank 기법을 이용한 핵심 어구 추출 및 텍스트 요약 file 깊은바다 2018-12-28 3119
한국어 자연어처리 데이터셋 - KorQuAD 깊은바다 2018-12-21 4651
자연어 관련 데이터셋 사이트 - AI 오픈 이노베이션 허브 file 깊은바다 2018-12-03 1410
네이버 검색과 개인화 깊은바다 2018-11-20 580
NUGU Knowledge Base - 지식베이스 깊은바다 2018-11-10 988
텍스트 분석을 자동으로 해주는 서비스 - KoALA 깊은바다 2018-10-31 1999