챗봇 딥러닝 - 문장을 벡터로 변환하는 방법들

글 수 284

문장을 벡터로 변환하는 방법들

조회 수 931 추천 수 0 2021.09.16 15:57:52

깊은바다 *.106.133.224 http://aidev.co.kr/10801

https://ichi.pro/ko/sentence-bertleul-sayonghan-pungbuhan-munjang-imbeding-pateu-i-226626600899395

보통 챗봇에서 많이 사용하는 방법 중 하나가 문장의 유사도를 비교하는 것입니다. 만약 사용자가 U라는 질문을 했다면, DB에서 U와 가장 비슷한 질문 Q를 찾습니다. 그리고 거기에 해당하는 대답 A를 출력합니다. 이런 유사도는 자카드 유사도(Jaccard similarity)처럼 문자열 단위로 비교할 수도 있습니다. 하지만 신경망에서는 무조건 벡터 단위로 처리해야 합니다.

문장을 벡터로 표현하는 가장 간단한 방법은 BoW(Bag of Words)입니다. OHE(One Hot Encoding)과 거의 유사하지만 문장안에 있는 모든 단어를 하나의 벡터로 나타낼 수 있습니다. 이때 벡터의 차원은 단어사전의 개수입니다. 전체 코퍼스의 단어가 1만개라면 1만차원의 벡터가 됩니다. 각 차원의 위치는 하나의 단어와 매칭됩니다. 처음에는 벡터를 모두 0으로 초기화 하고, 문장에 나온 모든 단어의 차원에 1을 넣습니다. 보통 다음과 같이 표현됩니다.

(0, 1, 1, 0, 0, 0, ... , 0, 1, 0)

중복을 허용해도 됩니다. 한 문장에 같은 단어가 여러번 나오면 그 숫자만큼 차원의 위치에 넣습니다. 계속 반복되는 단어는 그만큼 더 중요하다는 의미가 됩니다.

(0, 1, 5, 0, 0, 2, ... , 0, 1, 0)

하지만 BoW는 큰 단점이 있습니다. 반복되는 단어가 다른 문장들에도 흔하게 나오는 것이라면, 오히려 그 문장만의 차별성이 사라지게 됩니다. TF-IDF는 이런 문제점을 조금 완화시켜 줍니다. 흔한 단어들은 수치를 낮춰 특징을 떨어뜨리고, 그 문장에만 나오는 독특한 단어들은 수치를 높여 문장 구분이 더 잘되게 합니다.

Word2Vec이나 GloVe 같은 단어 임베딩으로 문장 벡터를 만드는 것도 가능합니다. 문장의 각 단어를 임베딩으로 변환하고 모두 합하여 평균을 냅니다. 이렇게 하면 하나의 벡터로 문장을 나타낼 수 있습니다. BERT도 비슷한 방법을 씁니다. 문장을 입력에 넣고 출력으로 나온 각 토큰의 벡터를 평균냅니다. 또는 분류를 위해 사용되는 가장 앞의 CLS 토큰만 쓰기도 합니다. 그러나 실험 결과를 보면 BERT 평균값이나 CLS 토큰을 사용했을 때, GloVe 평균값을 썼을 때보다 오히려 정확도가 더 낮다고 합니다.

이런 BERT의 문장 임베딩을 더 강화한 것이 Sentence-BERT입니다. 기존 사전훈련된 BERT를 별도의 모델 구조로 다시 훈련시킵니다. 이렇게 한번 파인튜닝을 거치면 문장의 임베딩 성능이 훨씬 높아집니다. 카카오브레인에서 공개한 Pororo에도 문장 임베딩 기능이 있습니다. 몇 줄의 코드만으로 간단하게 문장을 벡터로 변환할 수 있습니다.

https://kakaobrain.github.io/pororo/text_cls/sent2vec.html

이 게시물을

엮인글 :

List of Articles

제목	글쓴이	날짜	조회 수
한국어 LLM 민주화의 시작 KoAlpaca	깊은바다	2023-07-17	1067
Jay Alammar의 트랜스포머 한글 번역글	깊은바다	2019-05-09	1065
Seq2Seq와 어텐션 기법을 애니메이션으로 쉽게 설명한 글	깊은바다	2018-10-12	1055
GPT-3의 다섯 가지 한계	깊은바다	2020-08-23	1053
단어를 벡터로 변환하는 Word2Vec	깊은바다	2017-05-04	1039
추천시스템이 word2vec을 만났을때	깊은바다	2018-08-22	1032
Meme 자동 생성기	깊은바다	2020-05-11	1023
딥러닝 기반 자연어처리 기법의 최근 연구 동향 [2]	깊은바다	2017-12-17	1020
딥러닝과 자연어처리의 집중 메커니즘	깊은바다	2018-09-08	1019
페르소나에 따라 대화를 하는 딥러닝 챗봇 by Hugging Face	깊은바다	2020-03-06	1011
프로그램을 작성하는 딥마인드의 알파코드	깊은바다	2022-02-04	1005
7B의 Alpaca가 175B의 GPT-3.5와 동급의 성능을 보임	깊은바다	2023-03-14	979
내가 AI를 직접 가르치고 키우는 반려지능의 시대	깊은바다	2023-05-31	979
가짜뉴스를 생성 또는 판별하는 딥러닝 모델 - Grover	깊은바다	2019-06-01	969
OpenAI의 대화전용 딥러닝 모델 - ChatGPT	깊은바다	2022-12-02	965

쓰기

첫 페이지 3 4 5 6 7 8 9 10 11 12 끝 페이지