저는 GAN처럼 생성 모델?에 관심이 많습니다.
이미지 생성을 파다가 사운드 생성에도 관심이 생겨서 해보려고 했더니 난이도의 차이가 심하네요 ㅠㅠ
간단하게 파형을 LSTM에 때려박는 것으론 결과물을 못들어주겠고 결과를 잘 내려고 알아보니 WaveNet이란 녀석을 찾았는데 구현에 대해 설명한 자료를 찾을 수가 없네요.
기껏해야 어떤 특수한 CNN 구조를 사용했다 정도...
WaveNet까지는 아니더라도 좀 들어줄만한 결과가 나오는 모델을 구현해보고 싶은데 공부할만한 자료가 있으신 분 계시면 도움 좀 부탁드립니다..!
https://github.com/hccho2/Tacotron-Wavenet-Vocoder
https://drive.google.com/file/d/1gLwmkiZhA4Wj7769gwj_Y0RP5NByPfpo/view
얼마전 발표된 자료인데 이거 참고해보세요.
음성쪽은 저도 잘 모르겠네요^^;