레플리
글 수 72


K-001.png

 

https://songys.github.io/2019LangCon/data/smartspeaker2.pdf?fbclid=IwAR0ZkXX0O93yA3bWgmILk3fxIm8U33e-qLhtXX3tOWNqTKfh7VsHK2cJQsE

 

 

 

카카오미니에서 음성인식으로 변환한 텍스트의 오류를 어떻게 교정하는지 설명한 자료입니다. 예를 들어, '트와이스의 wild love 틀어줘'라고 인식했다면 '가수명->트와이스', '곡명->wild love'라고 엔티티를 추출합니다. 하지만 실제 곡명인 'what is love'로 수정해야 정확한 음악을 들려줄 수 있습니다.

 

이를 위해 먼저 전체, 가수명, 곡명에 따라 모든 데이터와 비교하여 총 16개의 유사도를 구합니다. 여기서 단순히 16개 유사도의 합이 가장 높은 곡을 선택하면 안됩니다. 각 유사도마다 가중치를 조절해야 하기 때문입니다.

 

바로 여기에서 학습이 사용됩니다. 16개의 유사도가 입력으로 들어가고 '교정/비교정'으로 출력이 나옵니다. 사람이 직접 라벨을 달은 데이터를 기반으로 랜덤 포레스트 모델로 학습을 했다고 합니다. 이진 출력이 확률로 나오기 때문에 아마 가장 높은 출력값이 나온 것을 정답으로 선택하지 않았을까 합니다.

 

 

 

< 엔티티 추출 >
트와이스 / wild love

 

< 오류 교정 >
트와이스 / what is love -> 0.8 (정답!)
트와이스 / I love you baby -> 0.6
아이유 / love attack -> 0.4

List of Articles
제목 글쓴이 날짜 조회 수
APEACH – 혐오 발화 평가데이터를 만드는 새로운 방법 깊은바다 2022-04-22 1087
윈도우에서 간편하게 Mecab 설치방법 - pyeunjeon 깊은바다 2021-06-15 487
자연어처리 벤치마크 GLUE의 한글 버전인 KLUE 공개 file 깊은바다 2021-05-22 678
모두의 말뭉치에 새로운 일상 대화 추가 file 깊은바다 2021-04-06 551
자연어처리 벤치마크인 SuperGLUE도 인간의 기록을 경신 [1] 깊은바다 2021-01-21 541
한국어 문장 분리기, KSS(Korean Sentence Splitter) 파이썬 포팅 file 깊은바다 2020-12-23 6105
파이썬 한국어 말뭉치 패키지 - Korpora file 깊은바다 2020-09-12 1489
세종 말뭉치보다 9배 더 큰 한글 코퍼스 공개 - 모두의 말뭉치 file 깊은바다 2020-08-27 3119
한국어 전처리 기법 모음 깊은바다 2020-07-31 4523
예일대의 자연어-SQL 데이터셋, Spider 깊은바다 2020-07-12 513
IBM 왓슨의 자연어처리 방식 깊은바다 2020-06-26 616
매주 한편씩 글을 작성하는 자연어처리 블로그 - 위클리 NLP 깊은바다 2020-06-12 1117
인간의 언어를 이해하는 기계, NLU에는 어떤 것이 있을까? 깊은바다 2020-06-05 408
한글 자모 분리 및 합치기 파이썬 패키지 [1] 깊은바다 2020-03-03 3203
Machine Learning for Kids로 감정분석 깊은바다 2020-02-09 921