글 수 208
https://github.com/THUDM/CogVideo
중국 칭화대에서 CogVideo(Large-scale Pretraining for Text-to-Video Generation via Transformers)란 모델을 공개했습니다. 아직 논문은 안나왔고 github에 결과물만 올려놓았습니다. 말로 설명하면 4초 분량의 32프레임 동영상을 생성합니다.
조만간 이런 모델이 나올줄은 알았지만 신기하네요. 말로 이미지를 생성하는 DALL.E2나 Imagen은 당장 상용화 수준을 넘어섰다고 봅니다. 아마 몇 년 지나면 이런 동영상 생성 모델도 성능이 급격히 올라갈 것 같습니다. 그때는 개인 혼자서 영화를 만드는 세상이 올까요.