레플리
글 수 72

한국어 채팅 데이터로 머신러닝 하기

조회 수 6086 추천 수 0 2018.04.25 16:02:46


Word Embedding - Word2Vec
• 단어 정보를 이용하여 머신러닝을 하려면 단어를 vector로 변환해주어야 합니다.

• 이를 word embedding 또는 word representation이라고 합...

 

https://www.slideshare.net/hanseokjo5/little-big-data-1-94862151

 

 

 

스캐터랩은 카톡감정분석, 연애의 과학 등 모바일 앱을 개발하는 회사입니다. 카톡 대화내용을 분석하여 두 사람 사이의 감정이나 정보들을 알려주고 연애에 대해 조언을 하주는 서비스입니다.

 

여기서 어떻게 자연어처리를 했는지 설명하는 슬라이드입니다. 메신저 대화는 문법에 맞지 않은 문장이 많은데 이를 해결한 방법이 많은 참고가 될 것 같습니다.

 

 

 

현재 세계에서 한글 대화 데이터를 가장 많이 보유한 회사가 스캐터랩이 아닐까 생각합니다. 메신저 회사는 공개한 바에 따르면 대화 내용을 영구적으로 보관하지 않는다고 합니다.

 

머신러닝에 있어서 가장 중요한 것은 무엇보다 데이터입니다. 그만큼 앞으로 자연어분석에 있어 이 회사가 유리한 위치를 차지할 가능성이 높습니다. 최근에는 자연스러운 일상 대화를 제공하는 핑퐁이라는 챗봇 API를 공개했는데 앞으로 여러 챗봇에서 사용되지 않을까 싶습니다.

엮인글 :
List of Articles
제목 글쓴이 날짜sort 조회 수
APEACH – 혐오 발화 평가데이터를 만드는 새로운 방법 깊은바다 2022-04-22 1103
윈도우에서 간편하게 Mecab 설치방법 - pyeunjeon 깊은바다 2021-06-15 500
자연어처리 벤치마크 GLUE의 한글 버전인 KLUE 공개 file 깊은바다 2021-05-22 690
모두의 말뭉치에 새로운 일상 대화 추가 file 깊은바다 2021-04-06 562
자연어처리 벤치마크인 SuperGLUE도 인간의 기록을 경신 [1] 깊은바다 2021-01-21 550
한국어 문장 분리기, KSS(Korean Sentence Splitter) 파이썬 포팅 file 깊은바다 2020-12-23 6176
파이썬 한국어 말뭉치 패키지 - Korpora file 깊은바다 2020-09-12 1513
세종 말뭉치보다 9배 더 큰 한글 코퍼스 공개 - 모두의 말뭉치 file 깊은바다 2020-08-27 3158
한국어 전처리 기법 모음 깊은바다 2020-07-31 4539
예일대의 자연어-SQL 데이터셋, Spider 깊은바다 2020-07-12 532
IBM 왓슨의 자연어처리 방식 깊은바다 2020-06-26 626
매주 한편씩 글을 작성하는 자연어처리 블로그 - 위클리 NLP 깊은바다 2020-06-12 1132
인간의 언어를 이해하는 기계, NLU에는 어떤 것이 있을까? 깊은바다 2020-06-05 417
한글 자모 분리 및 합치기 파이썬 패키지 [1] 깊은바다 2020-03-03 3246
Machine Learning for Kids로 감정분석 깊은바다 2020-02-09 932