딥러닝

문샷AI가 발표한 새로운 트랜스포머 구조 - Attention Residuals

우종하 — Tue, 17 Mar 2026 12:14:53 +0900

중국의 문샷AI가 Attention Residuals라는 새로운 딥러닝 구조를 제안했습니다. 추론 지연은 2% 미만으로 늘어났지만, 연산 효율은 25% 이상 향상됐다고 합니다.

딥러닝의 표준으로 사용하는 트랜스포머는 self-attention 기법을 사용합니다. 입력 토큰들끼리 서로 attention 계산을 해서 그중 중요한 정보만 압축하고 다음 레이어에 전달합니다. 그래서 기존 LSTM 같은 모델보다 성능이 훨씬 뛰어납니다.

트랜스포머에는 잔차 연결(residual connection)이 있습니다. self-attention으로 압축된 정보가 다음 레이어로 전달될 때, 이전 정보를 그대로 유지해서 추가로 전달하는 부분입니다. 레이어마다 완전히 새로 작성되기 보다는, 이전 레이어에서 점진적으로 개선되게 하기 위해서입니다.

그런데 잔차 연결은 이전 정보를 그대로 전달만 하기 때문에 문제가 있었습니다. 레이어가 깊어질수록 잔차 정보들이 누적되어 초기 잔차 정보가 사라진다는 점입니다. Attention Residuals는 잔차 연결에도 attention을 적용하여 잔차가 더 오래 유지되도록 하자는 아이디어입니다.

딥러닝의 아버지인 제프리 힌튼이 처음 딥러닝을 만들었을 때와 비슷합니다. 당시 신경망의 활성화 함수는 보통 시그모이드였습니다. 너무나 당연하게 사용했기 때문에 아무도 여기에 깊게 고민하지 않았습니다. 하지만 힌튼은 시그모이드에서 정보가 손실된다는 점을 발견하고 이전 정보가 계속 유지되는 ReLU로 변경했습니다. Attention Residuals 역시 마찬가지입니다. 그동안 아무도 주목하지 않았던 잔차 연결에 발상의 전환을 한 것입니다.

안드레이 카파시는 'We're not taking the Attention is All You Need part literally enough?'라는 트윗을 남겼습니다. 트랜스포머 모델이 개선될 여지가 아직 많이 남아있다는 뜻입니다. 어쩌면 전혀 새로운 딥러닝 모델이 나올 수도 있겠죠. 일리야 수츠케버가 말한 것처럼 이제 스케일링의 시대에서 다시 연구의 시대로 접어든 걸까요.

체스 신동이던 데미스 허사비스는 어떻게 구글 딥마인드의 수장이 되었나

우종하 — Sat, 20 Dec 2025 13:09:18 +0900

구글 딥마인드의 데미스 허사비스는 일리야 수츠케버와 함께 가장 뛰어난 AI 연구자입니다. 우리에게는 알파고의 아버지로 잘 알려져있는데요. 작년에는 알파폴드의 성과를 인정받아 노벨 화학상을 수상하기도 했습니다.

3년 전 구글은 ChatGPT에 뒤쳐지면서 코드레드를 발동했습니다. 위기감을 느낀 구글은 구글브레인과 딥마인드로 분산되어 있던 AI 연구조직을 구글 딥마인드로 통합했습니다. 그리고 허사비스가 구글의 AI 최고 책임자가 되어 내부 역량을 집중했습니다. 지금은 오히려 OpenAI가 코드레드를 선언할 정도로 구글이 세계최고의 AI 회사로 성장했습니다.

허사비스는 어릴 때부터 체스 신동이었습니다. 6살에 런던의 U-8 대회의 챔피언이 될 정도였죠. 대회 상금으로 컴퓨터를 처음 구입하고 곧바로 프로그래밍 책을 사서 독학을 합니다. 15살에는 유명한 게임 개발자인 피터 몰리뉴의 회사에 들어가 신디케이트, 테마파크 제작에 참여합니다.

케임브리지대 컴퓨터과학과를 졸업한 후 다시 피터 몰리뉴와 함께 블랙앤화이트란 게임을 만듭니다. 여기서 AI 개발을 담당했는데 당시로서는 혁신적인 기술을 보여줬습니다. 게임내 크리쳐가 사용자로부터 보상과 벌칙을 받으면서 스스로 학습할 수 있었습니다. 주민을 잡아먹으면 벌칙을, 마법으로 주민을 도우면 보상을 주는 식으로 가르칠 수 있었습니다. 물론 그 반대로도 가능했죠. 지금과 같은 강화학습 알고리듬은 아니었고 결정 트리(decision tree)를 실시간으로 생성하는 기법이었습니다. 당시 저도 정말 좋아했던 게임 중 하나였습니다.

그후 독립하여 엘릭서 스튜디오라는 자신만의 게임 개발사를 창업합니다. 7년 정도 운영을 하다 매각하고, 평생의 숙원이었던 인공지능을 공부하기 위해 인지신경과학 박사과정에 진학합니다. 2010년에는 무스타파 슐레이만(현재 MS의 AI 수장), 셰인 레그와 함께 딥마인드를 설립합니다.

2014년에는 DQN(Deep Q-Network)이란 혁신적인 모델을 발표합니다. 제 석사 졸업논문도 Q-Learning을 사용한 강화학습이었습니다. 강화학습은 환경에서 보상이 주어지면 스스로 학습할 수 있는 모델입니다. 당시 보상값 계산을 Q-Table이란 방식을 사용했습니다. N차원의 테이블을 이동하면서 보상값을 업데이트하고 검색했습니다. 하지만 테이블이 커지면 학습이 거의 불가능했습니다. 그래서 간단한 작업이 아닌 현실세계의 복잡한 문제는 해결할 수 없었죠.

DQN은 2012년 제프리 힌튼이 공개한 딥러닝을 Q-Learning에 적용했습니다. 보상값 계산을 테이블이 아닌 딥러닝으로 예측했습니다. 딥러닝의 가장 큰 장점인 일반화 덕분에 상태공간(에이전트가 행동할 수 있는 모든 경우의 수)이 커져도 안정적으로 학습할 수 있었습니다.

딥마인드는 DQN으로 57개의 아타리 게임을 학습하는 모델을 개발했습니다. 물론 당시에도 강화학습으로 게임을 배우려는 시도가 있었습니다. 그러나 상태공간을 줄이기 위해 게임속 데이터들을 모델에 직접 넣어야 했습니다. 주인공과 적의 좌표, 맵의 모양, 현재 점수 등의 데이터를 프로그래머가 따로 추출해서 수치로 변환하는 방식으로요. DQN은 직관적으로 그냥 게임 화면을 그대로 모델에 입력했습니다. 상태공간이 커져도 딥러닝이 게임화면속 패턴을 정확하게 학습했습니다. 덕분에 하나의 모델로 모든 게임에 범용적으로 적용할 수 있었습니다.

딥마인드는 DQN으로 단번에 AI 업계에서 가장 유명한 회사가 되었습니다. 마크 저커버그와 일론 머스크가 인수하려고 시도했지만 허사비스는 중요한 조건을 내걸었습니다. AGI의 위험에 대비하기 위해 윤리위원회를 설치하는 등 안전장치를 마련해야 된다고 요구했습니다. 결국 구글 창업자인 세르게이 브린이 전폭적으로 지원하면서 딥마인드는 구글의 품으로 들어갑니다. 그 다음은 모두가 아는 것처럼 알파고와 알파폴드, 제미나이 등 혁신적인 AI 기술 개발을 주도했습니다.

허사비스는 AGI가 5~10년 이내에 등장할 것이라 예상하고 있습니다. 누가 먼저 거기에 도달할지는 아직 모릅니다. 구글, OpenAI, 메타, xAI, SSI(일리야 수츠케버 설립) 등 글로벌 탑티어 회사들이 치열하게 경쟁하고 있습니다. 딥시크 같은 중국회사들도 마찬가지입니다.

AGI가 아니더라도 내년은 에이전트와 피지컬AI가 우리 사회를 크게 변화시킬 것입니다. 자율주행도 거의 상용화 직전이고요. 제가 오랫동안 꿈꿔왔던 AI의 시대가 이제 바로 눈앞에 있습니다. 그게 유토피아일지 디스토피아일지는 아직 확실하지 않지만요. 개인적으로 너무 흥미롭습니다. 인류 문명의 역사 1만년에서 가장 중요한 시기를 경험하고 있으니까요.

< 2014년 딥마인드 DQN 발표 영상 >

https://www.youtube.com/watch?v=EfGD2qveGdQ

일리야 수츠케버, 스케일링에서 다시 연구의 시대로

우종하 — Sat, 13 Dec 2025 12:21:54 +0900

https://www.youtube.com/watch?v=as_q_0d2VOo

일리야 수츠케버는 전세계에서 가장 유명한 AI 전문가 중 한명입니다. 2012년 토론토 대학에서 제프리 힌튼의 박사과정 학생이었습니다. 또다른 학생이었던 알렉스 크리제프스키 함께 3명이서 AlexNet을 개발합니다. 바로 딥러닝의 시작이었습니다.

그후 DNN 리서치를 설립하고 바로 구글에 인수되었습니다. 구글브레인에서 텐서플로우와 알파고 개발에 참여했으며, 2015년에는 샘 알트만과 같이 OpenAI를 창업합니다. ChatGPT와 GPT-4 설계를 주도하면서 지금의 LLM 시대를 본격적으로 열게 됩니다.

2023년 샘 알트만에게 반기를 들며 그를 몰아내지만, 3일 천하로 끝나고 맙니다. 결국 OpenAI를 퇴사하고 SSI(Safe Superintelligence Inc.)를 설립합니다. AGI가 가져올 위험에 대비할 수 있는 연구를 하는 회사입니다.

수츠케버는 이제 다시 연구의 시대가 되었다고 말합니다. 2012~2020년은 딥러닝이 처음 등장하면서 연구에 집중하였습니다. 트랜스포머, BERT, GPT-2 등 새로운 구조의 모델들이 앞다투어 등장했습니다. 그러다 2020년 GPT-3가 나오면서 스케일링의 시대가 되었습니다. 동일한 모델 구조에 파라미터만 늘리면 성능이 올라갔으니까요. 회사 입장에서도 비교적 안전하게 자금을 쏟아부을 수 있었습니다.

하지만 스케일링의 법칙도 이제 한계에 다다랐습니다. AGI를 개발하기 위해서는 다시 연구의 시대로 돌아가야 한다고 주장합니다. 인간처럼 적은 데이터만으로도 빠르게 학습하는 능력이 필요합니다. 또한 지금처럼 한번 학습이 끝나면 멈추는게 아니라, 현실 세계에서 경험을 통해 지속적으로 학습을 계속 해야 합니다.

과연 수츠케버와 그의 회사인 SSI가 전혀 새로운 AI 모델을 선보일 수 있을까요. 개인적으로는 그 시기가 최대한 천천히 왔으면 좋겠습니다. 지금의 AI 기술만으로도 변화가 너무 빨라 적응이 어렵습니다. 만약 인간처럼 스스로 학습하고 성장하는 AGI가 나온다면, 세상이 어떻게 바뀔지 상상하기도 힘드네요.

구글의 AI 가상피팅 앱 - Doppl

우종하 — Sat, 05 Jul 2025 11:17:26 +0900

구글이 AI 가상피팅 앱인 Doppl을 출시했습니다. 내 전신사진을 한장 올리고 원하는 옷을 선택합니다. 그러면 그 옷을 입은 내 사진을 생성해서 보여줍니다. 게다가 움직이는 영상으로도 만들어줍니다.

그동안 AI 가상피팅을 개발하던 스타트업들도 많았는데요. 빅테크들이 이제 애플리케이션 영역까지 진출하고 있습니다. 더 좁은 영역으로 타깃을 좁히지 않으면 살아남기가 어려워졌습니다. 그렇다고 너무 니치한 시장이면 글로벌이 아닌 이상 성장성이 없고요.

가장 강력한 해자는 역시 네트워크 효과입니다. 기술은 빅테크들이 금방 따라하고 더 잘할 수 있습니다. 반면에 한번 구축해놓은 네트워크는 유저들을 붙잡아놓는 효과적인 방법입니다. 과거 인스타그램 역시 사진기반 SNS 분야를 선점했습니다. 불과 13명의 직원으로 페이스북의 추격을 막아내고 결국 10억 달러에 인수되었습니다.

OpenAI도 비밀리에 SNS를 개발하고 있습니다. AI 챗봇에 어떻게 해자를 구축하는지가 앞으로 중요해질 것입니다.

구글 AI Studio에 바이브 코딩 기능 추가

우종하 — Mon, 26 May 2025 19:54:03 +0900

구글 AI Studio에 바이브 코딩 기능이 추가되었습니다. 왼쪽 메뉴에서 Build를 선택하면 대화창이 나오는데요. 여기서 만들고 싶은 프로그램을 말로 설명하면 됩니다.

저는 오목 게임을 만들어 달라고 했습니다. 혼자 막 생각을 하더니 오른쪽 창에서 코드를 쭉쭉 작성합니다. 그리고 자동으로 게임 화면이 실행됩니다. 처음에는 사람 2명이 번갈아 하는 오목이었습니다. AI를 넣어달라고 다시 요청하니 또 한참 생각하고 수정을 해주었습니다.

이번에는 바둑판을 마블 이미지를 생성하여 넣어달라고 했습니다. 구글의 이미지 생성 모델인 Imagen을 사용해서 마블 캐릭터 사진을 생성하고 바둑판 화면에 적용합니다.

간단하게 실행할 수 있는 링크를 주어서 친구들에게 공유할 수 있습니다. 또한 구글 클라우드 계정이 있으면 여기서 돌아가는 정식 서비스로 만들 수도 있습니다.

프론트엔드 코딩은 거의 모르는 저도 10분 만에 타입스크립트로 돌아가는 오목 게임을 만들었습니다. 아직 간단한 프로그램만 가능하긴 합니다. 하지만 비개발자도 자신의 아이디어를 빠르게 구현해볼 수 있는 세상이 되었습니다.

앤쓰로픽 대표, 2년 안에 AI가 모든 분야에서 인간을 능가할 것

우종하 — Thu, 23 Jan 2025 21:14:17 +0900

https://arstechnica.com/ai/2025/01/anthropic-chief-says-ai-could-surpass-almost-all-humans-at-almost-everything-shortly-after-2027/

앤쓰로픽은 ChatGPT와 함께 대표적인 LLM인 클로드를 만든 회사입니다. 앤쓰로픽 대표의 최근 인터뷰 내용입니다. 2027년에는 AI가 모든 영역에서 인간을 뛰어넘을 것이라 합니다. 로봇 역시 마찬가지고요. 이제 2년 밖에 남지 않았습니다. 만약 그런 날이 온다면 우리 사회가 어떻게 바뀔지 상상이 안가네요. 위기와 기회가 공존하는 격변의 시기입니다.

인터뷰 내용

-------------

"제 개인적인 경험으로 이 기술이 얼마나 빠르게 발전하고 있는지를 설명하자면, 약 2017~2018년으로 거슬러 올라가야 할 것 같습니다. 당시 저와 공동 창립자들은 ‘스케일링 법칙’을 기록하며, 컴퓨팅 자원을 더 많이 투입할수록 모델이 모든 면에서 향상된다는 사실을 처음으로 문서화했습니다. 그 당시부터 약 6개월 전까지, 저는 이러한 추세를 기반으로 앞으로 거의 모든 면에서 대부분의 인간보다 뛰어난 모델들이 등장할 것이라고 생각했습니다. 제 예상은 2000년대, 아마도 2020년 중반쯤일 것이라고 보았습니다. 그러나 늘 “모르겠다, 확실치는 않다”는 태도로 임했었죠. CEO로서 무조건 ‘이게 반드시 일어날 것이다’라고 단정하면 마치 과대 광고처럼 들릴 수 있으니까요. 그래서 3~6개월 전까지만 해도 상당한 불확실성이 있었지만, 지금은 그 불확실성이 크게 줄었습니다. 앞으로 2~3년 내에 소비자들이 직장에서 사용하는, 인간에게 도움을 주지만 점차 인간보다 모든 면에서 더 뛰어난 모델들이 등장할 것이라는 확신이 생겼습니다. 긍정적인 결과는 매우 클 테고, 부정적인 결과에 대해서도 주의해야 할 것입니다. 발전 속도는 사람들이 생각하는 만큼 빠르며, 저희는 이 빠른 발전을 적절한 심각성과 함께 인지하고 진지하게 논의해야 한다고 생각합니다. 다른 몇몇 회사들이 직원들 사이에서 “우리가 놀라운 일을 하고 있다”며 은밀하게 윙크하는 식의 소통을 하는 것을 보면, 외부에서는 단순 과대 광고처럼 보일 수 있으니 위험하다고 봅니다. AI 산업 전체가 지금의 심각성을 제대로 전달할 의무가 있다고 생각합니다. 엄청난 긍정적 가능성과 함께, 이와 같은 큰 변화에는 당연히 위험이 따르기 마련이니까요. 그래서 저희는 진지하게 소통하고 실제 생각하는 바를 말씀드려야 한다고 믿습니다."

< 인터뷰 전문 >

https://www.facebook.com/seungjoon.choi/posts/10234232721535014

레딧에서 샘 알트만과의 AMA(Ask Me Anything)

깊은바다 — Fri, 01 Nov 2024 16:34:45 +0900

레딧 ChatGPT 게시판에서 AMA(Ask Me Anything)을 진행했습니다. 샘 알트만과 몇몇 중요 인사들이 답글을 달았습니다. AGI가 현재 하드웨어로도 가능하다고 하네요. 그리고 다음번 기술적 돌파구는 에이전트라고 합니다. API 가격은 계속 내려갈 것이며, 영어 이외의 다른 언어에 대해서도 지속적으로 발전시킬 예정이라고 밝혔습니다.

https://www.reddit.com/r/ChatGPT/comments/1ggixzy/ama_with_openais_sam_altman_kevin_weil_srinivas/

LMM(Large Multimodal Model)의 시작을 알리는 GPT-4o

깊은바다 — Thu, 23 May 2024 14:19:49 +0900

이번 GPT-4o 발표에서 가장 인상 깊었던 부분입니다. 베드타임 스토리를 들려달라고 하고 중간에 다양한 요구를 합니다. 좀 더 감정을 담아서 말하기, 로봇 같은 목소리로 말하기, 노래로 바꿔 부르기 등등. AI는 상황에 따라 각기 다른 톤과 감정으로 자연스럽게 대답합니다.

기존 TTS(Text-to-Speech) 서비스들은 보통 여러 음성 캐릭터를 제공합니다. 한 캐릭터 마다 말하는 톤이 거의 일정합니다. 어떤 서비스는 감정을 조절할 수도 있지만 사용자가 설정한대로 따를 뿐입니다.

반면에 GPT-4o는 현재 대화 내용에 따라 자유롭게 톤과 감정을 바꿉니다. 이는 텍스트와 음성이 End-to-end로 같이 학습되었기 때문에 가능합니다. AI가 의미를 이해하고 거기에 맞게 음성을 변경하는 것이죠. LMM(Large Multimodal Model)의 진정한 능력입니다. 예전처럼 텍스트 모델, 이미지 모델, 음성 모델 따로따로 처리해서 하나로 합치는 방식은 이제 끝났습니다.

올해는 LLM에서 LMM으로 바뀌는 한해가 될 것입니다.

GPT-4o와 구글 I/O 2024를 보고 느낀 점

깊은바다 — Wed, 15 May 2024 20:55:35 +0900

GPT-4o와 구글 I/O를 보고 느낀 점. 또 한번 엄청난 변화가 일어나고 있습니다.

첫째, 멀티모달이 새로운 표준이 됩니다. 텍스트와 음성, 이미지가 하나로 통합되었습니다. 각각 별도의 모델을 거치는게 아니라 한 모델에서 입력과 출력이 동시에 지원됩니다. End-to-end가 가능하기 때문에 속도가 훨씬 빨라지고 이해력도 높아졌습니다.

둘째, API 가격이 급격히 떨어집니다. GPT-4o는 기존 GPT-4-turbo보다 2배 저렴합니다. 게다가 토크나이저의 한글 성능이 1.7배 높아졌습니다. 결국 3.4배 더 싸진 셈입니다. 구글도 Genimi 1.5 Flash를 선보였습니다. 저렴한 경량화 모델인데 성능은 크게 차이가 없습니다. 오픈소스 LLM의 가격 경쟁력이 점점 악화되고 있습니다. 개인정보나 보안 등 특수한 영역에서만 제한적으로 사용될 가능성이 높습니다.

셋째, 감성대화 능력이 중요해집니다. Claude3는 GPT-4와 달리 감성적인 대답으로 크게 주목을 받았습니다. GPT-4o의 음성 대화 역시 정말 놀라웠습니다. 감정을 그대로 표현하며 웃고 즐거워하고 노래도 불러줍니다. 시리의 사무적이고 단조로운 대답은 이제 과거의 유물이 됐습니다. 영하 Her의 테오도르처럼 AI와 사랑에 빠지는 사람이 점점 늘어날 것입니다.

넷째, 국산 LLM의 소버린 AI가 필요합니다. 한국이 과연 빅테크의 발전 속도를 따라잡을 수 있을지 의문이 듭니다. 그렇다고 외산 LLM에 종속되어 버리면 국가 주권 및 경제적 손실이 너무 큽니다. 한컴이 MS의 공격을 이겨낸 것처럼 최소한 정부 및 공공기관에서 적극적으로 국산 LLM을 지원해야 합니다. 또한 아직 외산 LLM은 감성 대화 능력이 떨어집니다. 실생활에서 쓰이는 날 것의 한글 데이터를 국내 업체들이 독점하고 있기 때문입니다. 국산 LLM이 엔터테인먼트, 게임, 멘탈헬스케어 등 감성 대화가 중요한 분야에 집중하는 것도 좋은 방법입니다.

다섯째, AI 애플리케이션의 시대가 옵니다. 점점 빅테크와 기술 경쟁은 어려워지고 있습니다. OpenAI가 한 번 발표할 때마다 스타트업 수백곳이 망한다는 말이 더이상 농담처럼 들리지 않습니다. 결국 서비스에 집중해야 합니다. API 가격이 계속 떨어진다면 LLM을 도입한 애플리케이션도 조만간 손익분기점을 넘을 수 있습니다. 모바일 시대의 틱톡처럼 AI Native한 앱도 곧 등장하리라 봅니다.

지금이 새로운 기회라는 것은 분명합니다. 다만 예전과 달리 빅테크들의 시장 지배력이 더 높아질 듯 합니다. 그래도 그들이 못하는(또는 안하는) 영역도 많으니까요. 다들 자신만의 분야를 찾아 건승하시길 바랍니다.

OpenAI의 Sora로 만든 단편영화

깊은바다 — Tue, 26 Mar 2024 16:05:21 +0900

OpenAI의 Sora로 만든 단편 영화입니다. 생성한 영상에 음악과 내레이션을 넣었습니다. 풍선 머리를 가진 남자의 일생을 다룬 내용입니다.

1991년 신해철이 두 번째로 발표한 Myself는 제가 가장 좋아하는 앨범 중 하나입니다. 나에게 쓰는 편지, 내 마음 깊은 곳의 너, 재즈 카페 등 명곡들이 포함되어 있습니다. 또한 한국 최초로 MIDI(Musical Instrument Digital Interface)를 적극 활용해서 녹음한 앨범이었습니다. 이전에는 악기를 연주하는 세션들을 구해야했기 때문에 비용이 많이 들었습니다. 이젠 마음만 먹으면 혼자서도 음반을 낼 수 있습니다.

최근 미국의 유명한 영화 제작자인 타일러 페리는 1조원 규모의 대규모 영화 제작 시설 신축 계획을 무기한 중단했습니다. Sora가 생성한 영상을 보고난 직후였습니다. Sora는 영상 제작과정을 완전히 혁신할 것입니다. 기존 영화 종사자들에게는 위협이겠지만, 다른 이들에게는 새로운 기회입니다. 중요한 것은 무한한 상상력, 그리고 이를 실현해주는 AI입니다.

사실 지금은 AI 시대의 극초기에 불과합니다. 글쓰기, 그림, 영상을 넘어서 콜센터, 코딩, 자율주행, 로봇 등 적용할 분야는 무한합니다. 많은 전문가들이 5~10년 안에 AGI가 나올 거라고 예측하고 있습니다. 솔직히 변화의 속도가 너무 빨라서 적응하기가 쉽지 않습니다. 그래도 미리 대비를 하는 사람에게 기회가 올 테니까요.

https://openai.com/blog/sora-first-impressions

만약 ChatGPT가 영상으로 세상을 이해하게 된다면?

깊은바다 — Fri, 16 Feb 2024 16:39:49 +0900

Sora는 OpenAI가 공개한 Text2Video 모델입니다. 다른 모델들은 보통 5초 정도의 짧은 영상인데 반해 Sora는 1분까지 긴 영상이 가능합니다. 또한 스틸 이미지에서 살짝만 움직이는게 아니라 카메라 뷰가 완전히 이동하는 등 역동적인 표현을 보여줍니다. 영상의 품질 역시 실사에 가까울 정도입니다. AI로만 영화를 만드는게 정말 금방일 것 같습니다.

[ 더 많은 영상보기 ]

https://openai.com/sora

Sora 모델 구조

테크니컬 리포트에 모델의 대한 설명이 간단히 나와 있습니다. 가장 큰 특징은 Patch입니다. GPT의 기본 단위는 Token입니다. 입력 문장을 Token으로 분리하고 이를 벡터 임베딩을 변환합니다. 그리고 다음에 올 Token의 벡터를 예측하고, 이를 다시 문자로 최종 표시합니다.

Sora 역시 이런 LLM의 특징을 그대로 가져왔습니다. 영상의 각 프레임 이미지를 작은 Patch로 쪼개고 이를 벡터 임베딩을 변환합니다. 그리고 다음에 올 프레임을 Patch 단위로 예측하여 전체 영상을 생성합니다. 이렇게 하면 긴 영상의 시간적, 공간적인 정보를 계속적으로 유지할 수 있습니다.

Sora는 Diffusion Transformer입니다. Token이 아닌 Patch를 기본 단위로 하는 Transformer모델이며, 각 Patch는 Diffusion 방식으로 고해상도 이미지로 생성됩니다. 처음에는 노이즈로 시작한 영상이 점점 단계적으로 품질이 높아집니다.

세상을 이해하는 World Models

OpenAI는 Sora가 단순한 영상 생성 모델이 아니라고 말합니다. 그보다는 현실의 물리적인 세계를 시뮬레이션 한다고 강조합니다. 저도 이 부분이 가장 중요하다고 느껴졌습니다. GPT는 텍스트를 통해 세상을 이해합니다. 그래서 이해력에 한계가 있을 수 밖에 없습니다. 우리는 뭔가를 생각할 때 글자가 아니라 이미지나 영상을 머리속으로 떠올립니다. AI도 다음 단계로 나아갈려면 이런 방법이 반드시 필요합니다.

2018년 구글 브레인의 David Ha는 World Models를 발표했습니다. 세상이 어떻게 돌아가는지를 예측하는 모델입니다. 자동차가 도로를 따라 움직이게 하는 예시를 보여줍니다. 예전에는 현재 이미지가 모델에 입력되면 왼쪽이나 오른쪽으로 이동하는 액션을 출력했습니다. World Models는 여기서 중간 단계를 더 추가합니다. 현재 이미지가 주어지면 다음 다음에 발생할 일을 예측하여 새로운 이미지를 생성합니다. 미래를 상상하고 거기에 맞게 행동을 결정하는 것입니다.

[ World Models 설명 ]

http://aidev.co.kr/deeplearning/4304

World Models을 가진 새로운 AI의 등장

사람의 뇌 역시 하나의 예측 기계입니다. 우리는 항상 의식적 또는 무의식적으로 다음에 일어날 일을 예측합니다. 만약 물이 든 컵을 들어올리려고 손을 뻗었다면 어떨까요. 컵을 쥐었을 때의 감촉, 컵 재질의 매끌거림, 컵속의 물이 살짝 일렁이며 움직일 것이라 예상을 합니다. 만약 컵이 갑자기 깨진다거나 컵이 눈앞에서 사라지는 등 예상과 다른 상황이 발생한다면 매우 놀랄 것입니다.

앞으로 AI 역시 사람처럼 이런 월드 모델을 가질 것입니다. 이것이 바로 상식과 추론 능력입니다. GPT-5는 Sora처럼 영상 기반의 월드 모델이 아닐까 조심스럽게 예상해봅니다.

인도의 생성AI 영화 - Maharaja in Denims

깊은바다 — Tue, 16 Jan 2024 18:34:12 +0900

인도의 Intelliflicks Studios라는 곳에서 생성AI를 활용한 영화를 제작하고 있습니다. 유명한 소설인 Maharaja in Denims를 원작으로 합니다. 펀자브 대학을 다니는 한 학생의 이야기입니다. 자신이 위대한 왕인 마하라자의 환생임을 깨닫고 다양한 일을 겪게 됩니다.

우선 2분 정도의 트레일러가 나왔는데 퀄리티가 상당히 좋습니다. 요즘 주목받는 동영상 생성 기술을 활용했습니다. 인도의 영화는 보통 제작에 600만달러가 드는데, AI를 도입하면 1/6 가격으로 낮아진다고 합니다. 물론 대사가 있는 본격적인 영화를 만들기는 아직 어려울 텐데요. 지금의 발전 속도라면 그런 날이 금방 올 것 같기도 합니다.

누구나 쉽게 AI 인플루언서를 만드는 시대 - Aitana Lopez

깊은바다 — Thu, 04 Jan 2024 11:51:25 +0900

Aitana Lopez는 AI 인플루언서입니다. 작년 7월에 처음 인스타그램을 시작했는데 벌써 팔로워가 25만명이 넘었습니다. 유명한 남미의 한 배우는 AI인지 모르고 데이트 신청을 했다고도 합니다. 다른 인플루언서들처럼 협찬을 받아 광고를 올리며 수익을 얻습니다. 광고 한 건당 150만원 정도를 받고 있고, 한달 평균 450만원 정도를 벌고 있습니다.

이 AI 인플루언서를 만든 회사는 스페인의 모델 에이전시입니다. 원래 사람 모델과 함께 일을 했는데 문제가 많이 발생했습니다. 스케줄을 지키지 않거나 다른 회사로 이적을 하는 등 예측하기 어려운 일이 자주 생겼습니다. 그래서 직접 모델을 만들어보면 어떨까 생각을 했다고 합니다.

혹시 사이버 가수 아담을 기억하시는 분들도 계실 텐데요. 1998년 등장했던 최초의 AI 가수입니다. 당시 선풍적인 인기를 끌었지만 곧 활동을 중단했습니다. 가장 큰 이유는 바로 비용이었습니다. 한 번 영상을 만드는데 억대의 돈이 필요해서 수지타산이 맞지 않았습니다.

이제는 Midjourney 같은 생성AI 덕분에 실사 같은 사진을 쉽고 저렴하게 만들 수 있습니다. 개인도 AI 인플루언서를 하나씩 가질 수 있는 시대가 된 것이죠. 오히려 기술보다는 콘텐츠가 더 중요해졌습니다. 캐릭터의 페르소나를 확실히 정하고 일관적인 스토리를 만들어야 하니까요. 올해는 초창기 유튜버처럼 AI 인플루언서라는 새로운 기회가 떠오르지 않을까 싶습니다.

< Aitana Lopez 인스타그램 >

https://www.instagram.com/fit_aitana/

95생 천재 소녀가 만든 Pika가 빅테크들을 이길 수 있었던 이유

깊은바다 — Sun, 24 Dec 2023 23:52:04 +0900

중국의 95년생 천재 소녀가 AI 업계에서 화제가 되고 있습니다. 하버드 수학과에 조기 입학하고, 같은 학교에서 컴퓨터학과로 석사 과정을 마쳤습니다. 그후 페이스북 AI에서 최연소 직원으로 1년 정도 일을 하다가 다시 스탠포드 박사과정을 시작합니다.

우연히 AI 영화제에 참가했는데 기대와 달리 수상에 실패했습니다. 대회를 준비하는 과정에서 기존 AI 영상제작 프로그램에 실망을 하고 직접 만들기로 결심합니다. 같은 학교 동료와 함께 박사과정을 중퇴하고 피카랩스를 창업합니다. 올해 11월 피카 1.0을 출시했는데 틱톡에서 조회수 3000만회를 넘을 정도로 큰 인기를 끌었습니다. 그후 직원 4명의 이 회사는 5500만달러의 투자를 받았습니다.

생성AI는 빅테크들이 치열하게 경쟁하는 시장입니다. 그런데 어떻게 미드저니나 피카 같은 작은 스타트업이 오히려 앞서갈 수 있는 걸까요. 우선 새로운 분야에 먼저 뛰어든 것이 주효했다고 봅니다. Dall-E 1이 2021년 1월에 처음 소개되었습니다. 미드저니 V1은 2022년 2월에 공개됐습니다. Dall-E 2보다 2개월, Stable Diffusion보다 6개월 더 빠른 시기입니다. 피카 역시 마찬가지입니다. 아직 Text-to-Video는 극초기 단계입니다. 기술이 성숙되지 않았기 때문에 빅테크들도 큰 우위에 있지 않습니다.

과연 미드저니와 피카가 지금처럼 계속 시장을 선점할 수 있을지 궁금합니다. 생성AI는 모델의 크기가 중요합니다. 모델이 커질수록 학습하는 비용도 높아지고요. 충분한 투자를 받는다면 불가능하지는 않다고 봅니다. OpenAI 역시 처음에는 상대적으로 작은 회사였으니까요.

https://n.news.naver.com/mnews/article/015/0004928777

Text-to-Video 생성 서비스인 Pika, 5500만달러 투자 유치

깊은바다 — Wed, 29 Nov 2023 11:30:21 +0900

Text-to-Video 생성 서비스인 Pika가 5,500만달러의 투자를 받았습니다. 스탠포드대 박사과정이던 Demi Guo와 Chenlin Meng은 학교를 중퇴하고 회사를 공동창업했습니다. 올해 4월 출시한 이후로 50만명의 사용자를 모았고, 매주 100만개 이상의 영상이 생성되고 있습니다.

확실히 이미지를 넘어 영상 생성이 대세가 될 것 같습니다. 숏폼에 최적화된 미디어이기도 하고요. Runway와 Stable Video Diffusion도 이미 많은 인기를 얻고 있는 중입니다.

< 소개 영상 >

https://twitter.com/pika_labs/status/1729510078959497562