레플리
글 수 203


Sora는 OpenAI가 공개한 Text2Video 모델입니다. 다른 모델들은 보통 5초 정도의 짧은 영상인데 반해 Sora는 1분까지 긴 영상이 가능합니다. 또한 스틸 이미지에서 살짝만 움직이는게 아니라 카메라 뷰가 완전히 이동하는 등 역동적인 표현을 보여줍니다. 영상의 품질 역시 실사에 가까울 정도입니다. AI로만 영화를 만드는게 정말 금방일 것 같습니다.

 

 

[ 더 많은 영상보기 ]

https://openai.com/sora

 

 

Sora 모델 구조

테크니컬 리포트에 모델의 대한 설명이 간단히 나와 있습니다. 가장 큰 특징은 Patch입니다. GPT의 기본 단위는 Token입니다. 입력 문장을 Token으로 분리하고 이를 벡터 임베딩을 변환합니다. 그리고 다음에 올 Token의 벡터를 예측하고, 이를 다시 문자로 최종 표시합니다.

 

Sora 역시 이런 LLM의 특징을 그대로 가져왔습니다. 영상의 각 프레임 이미지를 작은 Patch로 쪼개고 이를 벡터 임베딩을 변환합니다. 그리고 다음에 올 프레임을 Patch 단위로 예측하여 전체 영상을 생성합니다. 이렇게 하면 긴 영상의 시간적, 공간적인 정보를 계속적으로 유지할 수 있습니다.

 

K-008_1.jpg

 

Sora는 Diffusion Transformer입니다. Token이 아닌 Patch를 기본 단위로 하는 Transformer모델이며, 각 Patch는 Diffusion 방식으로 고해상도 이미지로 생성됩니다. 처음에는 노이즈로 시작한 영상이 점점 단계적으로 품질이 높아집니다.

 

K-009_1.jpg

 

K-010_1.jpg

 

 

세상을 이해하는 World Models

OpenAI는 Sora가 단순한 영상 생성 모델이 아니라고 말합니다. 그보다는 현실의 물리적인 세계를 시뮬레이션 한다고 강조합니다. 저도 이 부분이 가장 중요하다고 느껴졌습니다. GPT는 텍스트를 통해 세상을 이해합니다. 그래서 이해력에 한계가 있을 수 밖에 없습니다. 우리는 뭔가를 생각할 때 글자가 아니라 이미지나 영상을 머리속으로 떠올립니다. AI도 다음 단계로 나아갈려면 이런 방법이 반드시 필요합니다.

 

2018년 구글 브레인의 David Ha는 World Models를 발표했습니다. 세상이 어떻게 돌아가는지를 예측하는 모델입니다. 자동차가 도로를 따라 움직이게 하는 예시를 보여줍니다. 예전에는 현재 이미지가 모델에 입력되면 왼쪽이나 오른쪽으로 이동하는 액션을 출력했습니다. World Models는 여기서 중간 단계를 더 추가합니다. 현재 이미지가 주어지면 다음 다음에 발생할 일을 예측하여 새로운 이미지를 생성합니다. 미래를 상상하고 거기에 맞게 행동을 결정하는 것입니다.

 

K-011_1.jpg

 

K-012_1.jpg

 

[ World Models 설명 ]

http://aidev.co.kr/deeplearning/4304

 

 

World Models을 가진 새로운 AI의 등장

사람의 뇌 역시 하나의 예측 기계입니다. 우리는 항상 의식적 또는 무의식적으로 다음에 일어날 일을 예측합니다. 만약 물이 든 컵을 들어올리려고 손을 뻗었다면 어떨까요. 컵을 쥐었을 때의 감촉, 컵 재질의 매끌거림, 컵속의 물이 살짝 일렁이며 움직일 것이라 예상을 합니다. 만약 컵이 갑자기 깨진다거나 컵이 눈앞에서 사라지는 등 예상과 다른 상황이 발생한다면 매우 놀랄 것입니다.

 

앞으로 AI 역시 사람처럼 이런 월드 모델을 가질 것입니다. 이것이 바로 상식과 추론 능력입니다. GPT-5는 Sora처럼 영상 기반의 월드 모델이 아닐까 조심스럽게 예상해봅니다.

 

List of Articles
제목 글쓴이 날짜 조회 수sort
Text-to-Video 생성 서비스인 Pika, 5500만달러 투자 유치 file 깊은바다 2023-11-29 149
누구나 쉽게 AI 인플루언서를 만드는 시대 - Aitana Lopez file 깊은바다 2024-01-04 172
OpenAI의 Sora로 만든 단편영화 file 깊은바다 2024-03-26 177
인도의 생성AI 영화 - Maharaja in Denims 깊은바다 2024-01-16 197
AI의 미래 - Coatue가 주목한 AI 산업 트렌드 깊은바다 2023-11-28 203
만약 ChatGPT가 영상으로 세상을 이해하게 된다면? file 깊은바다 2024-02-16 257
초거대AI를 API로 썼을 때 경쟁업체와 차별화를 하려면 깊은바다 2023-03-20 300
GPT : 도래한 초거대 AI의 시대, 빅테크가 주도할 수 밖에 없는 이유 file 깊은바다 2022-12-22 331
어도비의 생성AI 프로그램 - Firefly 깊은바다 2023-03-23 348
가구 카탈로그를 만들어주는 생성AI - 뚝딱 AI 스튜디오 file 깊은바다 2023-09-22 363
World Models를 만든 David Ha, 구글에서 StabilityAI로 이적 file 깊은바다 2022-10-11 366
딥러닝 시대에 글로벌 대기업들을 따라잡을 수 있을까 깊은바다 2020-01-30 370
생성 AI의 시대, 진짜 메타버스가 온다 깊은바다 2023-04-04 374
인공지능이 가상의 온라인 모델을 만들어낸다면? 깊은바다 2019-03-15 404
사인필드 시트콤을 패러디한 AI 생성 애니메이션 방송 file 깊은바다 2023-02-01 405