자연어처리 - WordPiece와 BPE(Byte Pair Encoding)

글 수 72

WordPiece와 BPE(Byte Pair Encoding)

조회 수 5233 추천 수 0 2019.06.17 04:18:39

깊은바다 *.68.247.186 http://aidev.co.kr/7777

https://lovit.github.io/nlp/2018/04/02/wpm/

자연어처리 딥러닝은 임베딩(embedding)을 해야 한다는 점에서 이미지 딥러닝과 큰 차이가 있습니다. 임베딩이란 문장을 신경망이 이해할 수 있는 벡터로 변환하는 것을 말합니다. 임베딩에는 단어를 기준으로 하는 워드 임베딩과 글자를 기준으로 하는 캐릭터 임베딩이 있습니다.

보통은 워드 임베딩이 더 높은 성능을 보입니다. 임베딩의 의미가 더 압축되어 있기 때문입니다. 예를 들어, 워드 임베딩인 Seq2Seq에서 '인공지능'은 하나의 출력입니다. 하지만 캐릭터 임베딩에서는 '인', '공', '지', '능' 4개로 연속해서 나와야 해서 학습이 더 어렵습니다.

다만 워드 임베딩은 사전에 없는 OOV(Out Of Vocabulary)가 나올 수 있다는 단점이 있습니다. 캐릭터 임베딩은 이런 문제가 없기 때문에 더 유리합니다.

이런 두 가지 임베딩을 섞은 방법이 바로 WordPiece 모델입니다. 먼저 캐릭터 단위로 분리를 합니다. 그다음 자주 나오는 캐릭터들을 병합하여 하나의 토큰으로 만듭니다. 이렇게 하면 의미가 있는 캐릭터들이 묶여지기 때문에 캐릭터 임베딩과 워드 임베딩의 장점이 합쳐집니다. 또한 형태소분석이 필요 없어서 다양한 언어에 적용할 수도 있습니다.

BERT에서는 WordPiece를 사용했고, GPT2에서는 BPE(Byte Pair Encoding)이 쓰였습니다. WordPiece와 BPE는 거의 비슷한 개념인데, 약간 차이가 있는 것 같습니다. 서로 별개의 논문에서 발표되기도 했고, '_'나 '</w>' 등 토큰을 분리하는 방식이 조금 다릅니다. 좀 더 자세한 사항은 링크된 글을 참조하시기 바랍니다.

이 게시물을

엮인글 :

List of Articles

제목	글쓴이	날짜	조회 수
파이썬과 커뮤니티와 한국어 오픈데이터 - KoNLPy의 탄생배경	깊은바다	2019-11-11	1173
검색을 통해 지식그래프를 바로 생성하는 알고리즘	깊은바다	2019-08-02	3357
NLTK 개발자들이 직접 쓴 자연어처리 책의 공개 버전	깊은바다	2019-07-02	1488
WordPiece와 BPE(Byte Pair Encoding)	깊은바다	2019-06-17	5233
스마트 스피커에서의 음악 재생 발화 오류 교정	깊은바다	2019-03-28	730
한국어 MRC 연구를 위한 표준 데이터셋(KorQuAD) 소개 및 B2B를 위한 MRC 연구 사례	깊은바다	2019-03-10	1210
메이템 가상비서 앱 자연어처리 모듈 개발 [1]	깊은바다	2019-01-31	1116
토론하는 인공지능 - IBM Project Debater	깊은바다	2019-01-16	896
인공지능이 법률 문서를 검토한다면?	깊은바다	2019-01-09	1012
TextRank 기법을 이용한 핵심 어구 추출 및 텍스트 요약	깊은바다	2018-12-28	3463
한국어 자연어처리 데이터셋 - KorQuAD	깊은바다	2018-12-21	5095
자연어 관련 데이터셋 사이트 - AI 오픈 이노베이션 허브	깊은바다	2018-12-03	1692
네이버 검색과 개인화	깊은바다	2018-11-20	947
NUGU Knowledge Base - 지식베이스	깊은바다	2018-11-10	1249
텍스트 분석을 자동으로 해주는 서비스 - KoALA	깊은바다	2018-10-31	2359

쓰기

첫 페이지 1 2 3 4 5 끝 페이지