레플리
글 수 293


img

 

https://tykimos.github.io/2017/08/17/Text_Input_Binary_Classification_Model_Recipe/

 

 

 

영화정보 사이트인 IMDb의 영화평점 데이터를 사용해서 케라스로 학습하는 코드입니다. 자연어를 어떻게 벡터로 임베딩을 하는지 간단하게 설명해 보겠습니다.

 

먼저 데이터셋에 있는 모든 단어를 빈도수에 따라 정렬하고 ID를 부여합니다. 보통 편의를 위해서 최대 단어수를 지정합니다. 여기서는 5개의 단어만 존재한다고 가정하고 빈도수는 임의로 설정하겠습니다.

 

--------------------
love -> 0
i -> 1
so -> 2
you -> 3
much -> 4
--------------------

 

그리고 문장의 단어를 ID로 변환합니다.

 

----------------------------
i love you so much
-> [1, 0, 3, 2, 4]
----------------------------

 

 

 

만약 단어의 수가 적다면 다음과 같이 간단하게 각각의 ID를 벡터로 지정하는 One-Hot Encoding으로 변환할 수도 있습니다.

 

-------------------------------------
i -> (0, 1, 0, 0, 0)
love -> (1, 0, 0, 0, 0)
you -> (0, 0, 0, 1, 0)
so -> (0, 0, 1, 0, 0)
much -> (0, 0, 0, 0, 1)
-------------------------------------

 

 

 

하지만 보통은 차원의 수를 줄이기 위해 임베딩 함수를 이용합니다. 전체 단어수는 5, 임베딩 벡터 크기는 3, 한 문장의 단어 개수는 5일때 아래와 같이 구현을 합니다.

 

----------------------------------------------------------------
model.add(Embedding(5, 3, input_length=5))
----------------------------------------------------------------

 

임베딩의 초기값은 랜덤하게 지정이 되고 학습을 통해 조금씩 업데이트 됩니다. Word2Vec 같은 방식을 사용하여 초기값을 설정할 수도 있습니다.

 

---------------------------------
i -> (0.5, 0.1, 0.7)
love -> (0.2, 0.6, 0.3)
you -> (0.9, 0.7, 0.5)
so -> (0.4, 0.7, 0.1)
much -> (0.3, 0.4, 0.5)

 

i love you so much
-> {[0.5, 0.1, 0.7], [0.2, 0.6, 0.3], [0.9, 0.7, 0.5], [0.4, 0.7, 0.1], [0.3, 0.4, 0.5]}
---------------------------------

엮인글 :

NeuroWhAI

2018.04.04 03:09:28
*.64.194.131

seq2seq 예시를 만들었는데 임베딩 레이어를 넣어보려고 했더니 정작 디코딩은 어떻게 해야할지 모르겠더라구요. 임베딩한 값을 다시 단어로 바꾸려면 뭐라고 검색을 해봐야 할까요 ㅠ

깊은바다

2018.04.04 23:06:47
*.68.247.188

원핫인코딩 예제는 많은데 임베딩으로 되어 있는 것은 저도 찾기가 어렵네요^^; 제 생각에는 벡터 유사도 비교를 해서 가장 비슷한 걸로 표시하면 될 것 같은데요.

NeuroWhAI

2018.04.05 03:26:04
*.64.194.131

음 역시 가장 가까운 벡터값을 가진 단어를 선택하도록 탐색하는 수 밖에 없겠네요..

List of Articles
제목 글쓴이 날짜 조회 수sort
딥러닝을 활용한 뉴스 메타 태깅 깊은바다 2019-08-26 471
Koko 심리상담 서비스에서 GPT-3 대답 추천 기능을 도입 file 깊은바다 2023-01-11 468
MS 코파일럿, 한국어 토큰수 2배에서 1.1배로 감소 file 깊은바다 2024-05-04 457
감성대화에서 클로바X가 챗GPT보다 뛰어난 이유 깊은바다 2024-05-10 456
페이지(PAIGE)를 만드는 사람들 - 자연어처리 기법 깊은바다 2018-05-26 453
Generative AI — 시장 구조, 기회, moat에 대한 몇 가지 생각 깊은바다 2023-06-27 453
GPT-4o가 GPT-4보다 한글 문장 품질이 훨씬 높아짐 file 깊은바다 2024-05-20 444
LLM의 시대에도 자연어처리를 배워야할까 깊은바다 2023-05-29 442
LLM의 미래는 자율행동과 멀티 에이전트 깊은바다 2023-08-30 442
스탠포드 자연어처리 강의 - The Limits and Future of NLP 깊은바다 2018-08-30 440
노암 촘스키의 ChatGPT 기고문 깊은바다 2023-03-09 436
AutoGPT 사용기 - 다른 에이전트 생성 능력 file 깊은바다 2023-04-23 435
Pre-training 시대에서 Post-training 시대로 전환 우종하 2024-12-21 435
인공지능과 친구가 될 수 있을까요 - 이루다의 페르소나 구축 방법 file 깊은바다 2023-02-21 433
Pi를 만든 Inflection AI, MS로 대거 이직한 이유 깊은바다 2024-03-25 431