챗봇 딥러닝 - 문장 입력 이진분류 모델 레시피

글 수 293

문장 입력 이진분류 모델 레시피 - 영화평점 학습

조회 수 726 추천 수 0 2018.04.04 01:20:41

깊은바다 *.68.247.188 http://aidev.co.kr/4399

https://tykimos.github.io/2017/08/17/Text_Input_Binary_Classification_Model_Recipe/

영화정보 사이트인 IMDb의 영화평점 데이터를 사용해서 케라스로 학습하는 코드입니다. 자연어를 어떻게 벡터로 임베딩을 하는지 간단하게 설명해 보겠습니다.

먼저 데이터셋에 있는 모든 단어를 빈도수에 따라 정렬하고 ID를 부여합니다. 보통 편의를 위해서 최대 단어수를 지정합니다. 여기서는 5개의 단어만 존재한다고 가정하고 빈도수는 임의로 설정하겠습니다.

--------------------
love -> 0
i -> 1
so -> 2
you -> 3
much -> 4
--------------------

그리고 문장의 단어를 ID로 변환합니다.

----------------------------
i love you so much
-> [1, 0, 3, 2, 4]
----------------------------

만약 단어의 수가 적다면 다음과 같이 간단하게 각각의 ID를 벡터로 지정하는 One-Hot Encoding으로 변환할 수도 있습니다.

-------------------------------------
i -> (0, 1, 0, 0, 0)
love -> (1, 0, 0, 0, 0)
you -> (0, 0, 0, 1, 0)
so -> (0, 0, 1, 0, 0)
much -> (0, 0, 0, 0, 1)
-------------------------------------

하지만 보통은 차원의 수를 줄이기 위해 임베딩 함수를 이용합니다. 전체 단어수는 5, 임베딩 벡터 크기는 3, 한 문장의 단어 개수는 5일때 아래와 같이 구현을 합니다.

----------------------------------------------------------------
model.add(Embedding(5, 3, input_length=5))
----------------------------------------------------------------

임베딩의 초기값은 랜덤하게 지정이 되고 학습을 통해 조금씩 업데이트 됩니다. Word2Vec 같은 방식을 사용하여 초기값을 설정할 수도 있습니다.

---------------------------------
i -> (0.5, 0.1, 0.7)
love -> (0.2, 0.6, 0.3)
you -> (0.9, 0.7, 0.5)
so -> (0.4, 0.7, 0.1)
much -> (0.3, 0.4, 0.5)

i love you so much
-> {[0.5, 0.1, 0.7], [0.2, 0.6, 0.3], [0.9, 0.7, 0.5], [0.4, 0.7, 0.1], [0.3, 0.4, 0.5]}
---------------------------------

이 게시물을

엮인글 :

2018.04.04 03:09:28
*.64.194.131

seq2seq 예시를 만들었는데 임베딩 레이어를 넣어보려고 했더니 정작 디코딩은 어떻게 해야할지 모르겠더라구요. 임베딩한 값을 다시 단어로 바꾸려면 뭐라고 검색을 해봐야 할까요 ㅠ

2018.04.04 23:06:47
*.68.247.188

원핫인코딩 예제는 많은데 임베딩으로 되어 있는 것은 저도 찾기가 어렵네요^^; 제 생각에는 벡터 유사도 비교를 해서 가장 비슷한 걸로 표시하면 될 것 같은데요.

2018.04.05 03:26:04
*.64.194.131

음 역시 가장 가까운 벡터값을 가진 단어를 선택하도록 탐색하는 수 밖에 없겠네요..

List of Articles

제목	글쓴이	날짜	조회 수
딥러닝 자연어처리 라이브러리 - Pororo	깊은바다	2021-02-03	2244
스캐터랩의 오픈도메인 챗봇 루다 육아일기 - 모델의 구조 및 동작방식	깊은바다	2020-12-30	1500
일상대화 챗봇 레플리카(Replika)의 구현 방식	깊은바다	2020-12-22	1772
좋은 응답을 골라내는 모델 만들기 - 핑퐁의 답변매칭 알고리즘	깊은바다	2020-12-10	650
GPT-3를 헬스케어 서비스에 적용했을 때의 문제점들	깊은바다	2020-11-04	789
스캐터랩의 핑퐁팀, 새로운 생성 모델 챗봇 데모 공개	깊은바다	2020-11-02	985
카카오미니의 명령어 분류 방법	깊은바다	2020-10-23	326
딥러닝으로 동네생활 게시글 필터링하기	깊은바다	2020-10-06	484
KoNLPy를 이용하여 Huggingface Transformers 학습하기	깊은바다	2020-09-20	1680
GPT-3 패러다임을 바꿀 미친 성능의 인공지능 등장 및 활용 사례 10가지	깊은바다	2020-09-14	884
GPT3 유료화 가격 공개	깊은바다	2020-09-04	1827
GPT-3의 다섯 가지 한계	깊은바다	2020-08-23	1149
그림으로 아주 쉽게 설명한, The Illustrated GPT-2	깊은바다	2020-08-15	2989
한국어로 대화하는 생성 모델의 학습을 위한 여정 - Transformer와 GPT2	깊은바다	2020-08-13	3649
KoGPT2, KoBERT, KoELECTRA로 만든 심리상담 챗봇	깊은바다	2020-08-05	6701

쓰기

첫 페이지 6 7 8 9 10 11 12 13 14 15 끝 페이지

문장 입력 이진분류 모델 레시피 - 영화평점 학습

NeuroWhAI

깊은바다

NeuroWhAI