딥러닝 - 미디가 아니라 오디오로 음악을 만들어내는 OpenAI의 생성 모델

글 수 203

미디가 아니라 오디오로 음악을 만들어내는 OpenAI의 생성 모델 - Jukebox

조회 수 664 추천 수 0 2020.05.02 21:12:51

깊은바다 *.68.249.203 http://aidev.co.kr/9121

GPT2로 유명한 OpenAI가 또 굉장한 모델을 공개했습니다. 작년에 발표한 MuseNet(https://openai.com/blog/musenet/)은 미디 데이터를 기반으로 음악을 생성했습니다. 방금 예측한 정보를 다시 입력에 넣어서 반복적으로 출력하는 자동회귀(autoregressive) 방식입니다.

Jukebox는 무려 오디오 사운드를 그대로 사용합니다. 웨이브 파형은 기호화된 미디 데이터보다 시퀀스가 훨씬 길어집니다. 그래서 직접 입력으로 넣기가 어렵습니다. 이를 위해 VQ-VAE를 활용하는 새로운 아이디어를 적용합니다. 먼저 인코더에서 오디오를 코드로 압축합니다. 코드 단위로 트랜스포머에 넣어 음악을 생성을 한 다음에, 다시 디코더에서 오디오 형태로 복원합니다.

이렇게 학습이 끝나면 GAN이나 VAE처럼 잠재공간(latent space)를 조작하여 다양하게 변형도 가능합니다. 노래의 장르를 팝에서 재즈로 바꾸거나, 특정 곡을 다른 가수의 목소리로 변경할 수도 있습니다. 무엇보다 새로운 가사만 주어지면 거기에 맞는 노래를 만들어내는게 가장 놀라웠습니다.

아직은 잡음이 너무 심하고 곡의 품질이 많이 떨어지는 편입니다. 하지만 이런 기술이 발전하면 음악 산업에 큰 파장을 일으킬 것 같습니다. 내가 좋아하는 가수의 신곡을 매일 받아보는 세상이 오게 될까요.

이 게시물을

K-001.png [File Size:79.2KB/Download:44]

엮인글 :

List of Articles

제목	글쓴이	날짜	조회 수
GAN의 상용화를 알리는 시작 - 포토샵 뉴럴 필터	깊은바다	2020-10-22	884
GAN을 이용한 염색 및 헤어 스타일 합성 - 꽤 GAN찮은 헤어살롱	깊은바다	2020-10-29	2817
알렉스넷과 Seq2Seq의 창시자 일리야 수츠케버(Ilya Sutskever)	깊은바다	2020-11-17	831
GAN으로 만든 얼굴을 테스트할 수 있는 뉴욕타임스의 기사	깊은바다	2020-11-24	682
문장을 사진으로 변환하는 GPT-3 모델, DALL-E	깊은바다	2021-01-09	985
톰 크루즈의 딥페이크 영상	깊은바다	2021-02-28	672
사진 한 장으로 움직이는 얼굴을 만드는 사이트 - Deep Nostalgia	깊은바다	2021-03-01	4282
이젠 모델 구축도 학습도 필요없다, OpenAI의 이미지인식 모델 CLIP	깊은바다	2021-03-07	4358
스냅챕의 디즈니 필터	깊은바다	2021-03-12	529
뉴런 하나로 특정 개념을 표현한다, CLIP 모델에서 개념 뉴런을 발견	깊은바다	2021-03-12	574
딥러닝의 창시자인 제프리 힌튼이 구글에 합류하게 된 스토리	깊은바다	2021-03-18	418
GPT-3로 광고문구를 만드는 서비스 - Copy.ai	깊은바다	2021-03-22	648
말로 설명하여 이미지를 변형하는 GAN - StyleCLIP	깊은바다	2021-04-04	1818
GAN으로 얼굴사진을 생성하는 사이트 - Face Generator	깊은바다	2021-04-28	2795
Transformer와 동급의 성능에 속도는 훨씬 빨라진 MLP-Mixer	깊은바다	2021-06-11	1446

쓰기

첫 페이지 5 6 7 8 9 10 11 12 13 14 끝 페이지