Skip-Gram 모델에서 input 값을 원핫 인코딩을 할 때 학습할 모든 단어에 대한 원핫 인코딩하는 것인가요 아님 특정 문장이나 스라이딩 윈도우에 대한 원핫 인코딩인가요
이부분이 햇갈리네요
2021.09.14 18:00:44 *.106.133.224
입력과 출력의 원핫인코딩은 같은 딕셔너리를 사용합니다. 학습 데이터의 전체 단어집합으로 구성되어 있습니다. 이 원핫인코딩의 1 위치의 w가 해당 단어의 벡터값이 됩니다. 특정 문장의 원핫인코딩이면 10~20개 정도의 단어(벡터의 차원수)로 될텐데요. 문장마다 윈핫인코딩의 각 단어 역시 달라지고요. 그러면 word2vec을 만들 수가 없습니다.
입력과 출력의 원핫인코딩은 같은 딕셔너리를 사용합니다. 학습 데이터의 전체 단어집합으로 구성되어 있습니다. 이 원핫인코딩의 1 위치의 w가 해당 단어의 벡터값이 됩니다. 특정 문장의 원핫인코딩이면 10~20개 정도의 단어(벡터의 차원수)로 될텐데요. 문장마다 윈핫인코딩의 각 단어 역시 달라지고요. 그러면 word2vec을 만들 수가 없습니다.