자연어처리 - 스마트 스피커에서의 음악 재생 발화 오류 교정

글 수 72

스마트 스피커에서의 음악 재생 발화 오류 교정

조회 수 407 추천 수 0 2019.03.28 21:37:54

깊은바다 *.68.247.186 http://aidev.co.kr/7272

https://songys.github.io/2019LangCon/data/smartspeaker2.pdf?fbclid=IwAR0ZkXX0O93yA3bWgmILk3fxIm8U33e-qLhtXX3tOWNqTKfh7VsHK2cJQsE

카카오미니에서 음성인식으로 변환한 텍스트의 오류를 어떻게 교정하는지 설명한 자료입니다. 예를 들어, '트와이스의 wild love 틀어줘'라고 인식했다면 '가수명->트와이스', '곡명->wild love'라고 엔티티를 추출합니다. 하지만 실제 곡명인 'what is love'로 수정해야 정확한 음악을 들려줄 수 있습니다.

이를 위해 먼저 전체, 가수명, 곡명에 따라 모든 데이터와 비교하여 총 16개의 유사도를 구합니다. 여기서 단순히 16개 유사도의 합이 가장 높은 곡을 선택하면 안됩니다. 각 유사도마다 가중치를 조절해야 하기 때문입니다.

바로 여기에서 학습이 사용됩니다. 16개의 유사도가 입력으로 들어가고 '교정/비교정'으로 출력이 나옵니다. 사람이 직접 라벨을 달은 데이터를 기반으로 랜덤 포레스트 모델로 학습을 했다고 합니다. 이진 출력이 확률로 나오기 때문에 아마 가장 높은 출력값이 나온 것을 정답으로 선택하지 않았을까 합니다.

< 엔티티 추출 >
트와이스 / wild love

< 오류 교정 >
트와이스 / what is love -> 0.8 (정답!)
트와이스 / I love you baby -> 0.6
아이유 / love attack -> 0.4

이 게시물을

K-001.png [File Size:108.3KB/Download:63]

엮인글 :

List of Articles

제목	글쓴이	날짜	조회 수
파이썬과 커뮤니티와 한국어 오픈데이터 - KoNLPy의 탄생배경	깊은바다	2019-11-11	942
검색을 통해 지식그래프를 바로 생성하는 알고리즘	깊은바다	2019-08-02	3052
NLTK 개발자들이 직접 쓴 자연어처리 책의 공개 버전	깊은바다	2019-07-02	1259
WordPiece와 BPE(Byte Pair Encoding)	깊은바다	2019-06-17	4742
스마트 스피커에서의 음악 재생 발화 오류 교정	깊은바다	2019-03-28	407
한국어 MRC 연구를 위한 표준 데이터셋(KorQuAD) 소개 및 B2B를 위한 MRC 연구 사례	깊은바다	2019-03-10	967
메이템 가상비서 앱 자연어처리 모듈 개발 [1]	깊은바다	2019-01-31	828
토론하는 인공지능 - IBM Project Debater	깊은바다	2019-01-16	579
인공지능이 법률 문서를 검토한다면?	깊은바다	2019-01-09	795
TextRank 기법을 이용한 핵심 어구 추출 및 텍스트 요약	깊은바다	2018-12-28	3229
한국어 자연어처리 데이터셋 - KorQuAD	깊은바다	2018-12-21	4725
자연어 관련 데이터셋 사이트 - AI 오픈 이노베이션 허브	깊은바다	2018-12-03	1451
네이버 검색과 개인화	깊은바다	2018-11-20	619
NUGU Knowledge Base - 지식베이스	깊은바다	2018-11-10	1031
텍스트 분석을 자동으로 해주는 서비스 - KoALA	깊은바다	2018-10-31	2088

쓰기

첫 페이지 1 2 3 4 5 끝 페이지