레플리
글 수 203


K-001.png

 

https://openai.com/blog/jukebox/

 

 

 

GPT2로 유명한 OpenAI가 또 굉장한 모델을 공개했습니다. 작년에 발표한 MuseNet(https://openai.com/blog/musenet/)은 미디 데이터를 기반으로 음악을 생성했습니다. 방금 예측한 정보를 다시 입력에 넣어서 반복적으로 출력하는 자동회귀(autoregressive) 방식입니다.

 

Jukebox는 무려 오디오 사운드를 그대로 사용합니다. 웨이브 파형은 기호화된 미디 데이터보다 시퀀스가 훨씬 길어집니다. 그래서 직접 입력으로 넣기가 어렵습니다. 이를 위해 VQ-VAE를 활용하는 새로운 아이디어를 적용합니다. 먼저 인코더에서 오디오를 코드로 압축합니다. 코드 단위로 트랜스포머에 넣어 음악을 생성을 한 다음에, 다시 디코더에서 오디오 형태로 복원합니다.

 

이렇게 학습이 끝나면 GAN이나 VAE처럼 잠재공간(latent space)를 조작하여 다양하게 변형도 가능합니다. 노래의 장르를 팝에서 재즈로 바꾸거나, 특정 곡을 다른 가수의 목소리로 변경할 수도 있습니다. 무엇보다 새로운 가사만 주어지면 거기에 맞는 노래를 만들어내는게 가장 놀라웠습니다.

 

아직은 잡음이 너무 심하고 곡의 품질이 많이 떨어지는 편입니다. 하지만 이런 기술이 발전하면 음악 산업에 큰 파장을 일으킬 것 같습니다. 내가 좋아하는 가수의 신곡을 매일 받아보는 세상이 오게 될까요.

 

List of Articles
제목 글쓴이 날짜 조회 수
불쾌한 골짜기에서 대유쾌 마운틴으로 - 이미지 생성AI file 깊은바다 2023-03-08 7219
아카라이브 반실사 채널 - Stable Diffusion 실사 그림 file 깊은바다 2023-03-01 2176
사인필드 시트콤을 패러디한 AI 생성 애니메이션 방송 file 깊은바다 2023-02-01 405
글로 설명하면 음악을 만들어주는 딥러닝 모델 - MusicLM 깊은바다 2023-01-27 447
Stable Diffusion 포토샵 플러그인 깊은바다 2022-12-25 2411
GPT : 도래한 초거대 AI의 시대, 빅테크가 주도할 수 밖에 없는 이유 file 깊은바다 2022-12-22 331
Stable Diffusion을 사용한 사진 변환 앱 Lensa AI, 앱스토어 1위 달성 깊은바다 2022-12-09 786
NVIDIA가 발표한 Text-to-3D 모델 - Magic3D 깊은바다 2022-11-22 654
아이폰에서 실행하는 Stable Diffusion 앱 - Draw Things 깊은바다 2022-11-11 1311
일기를 쓰면 그림을 그려주는 그림일기 서비스 file 깊은바다 2022-11-08 1916
World Models를 만든 David Ha, 구글에서 StabilityAI로 이적 file 깊은바다 2022-10-11 366
인공지능 킬러앱의 등장, 그리고 모바일에서 인공지능으로 패러다임 변환 file 깊은바다 2022-10-10 513
Text-to-Image 모델을 정리한 글 - The State of AI and Art 2022 깊은바다 2022-10-06 1196
Text-to-3D인 DreamFusion과 Text-to-Video인 Make-A-Video 깊은바다 2022-10-01 440
Stable Diffusion으로 만든 뮤직비디오 영상 깊은바다 2022-09-25 1136