레플리
글 수 208

LMM(Large Multimodal Model)의 시작을 알리는 GPT-4o

조회 수 263 추천 수 0 2024.05.23 14:19:49


 

 

 

이번 GPT-4o 발표에서 가장 인상 깊었던 부분입니다. 베드타임 스토리를 들려달라고 하고 중간에 다양한 요구를 합니다. 좀 더 감정을 담아서 말하기, 로봇 같은 목소리로 말하기, 노래로 바꿔 부르기 등등. AI는 상황에 따라 각기 다른 톤과 감정으로 자연스럽게 대답합니다.

 

기존 TTS(Text-to-Speech) 서비스들은 보통 여러 음성 캐릭터를 제공합니다. 한 캐릭터 마다 말하는 톤이 거의 일정합니다. 어떤 서비스는 감정을 조절할 수도 있지만 사용자가 설정한대로 따를 뿐입니다.

 

반면에 GPT-4o는 현재 대화 내용에 따라 자유롭게 톤과 감정을 바꿉니다. 이는 텍스트와 음성이 End-to-end로 같이 학습되었기 때문에 가능합니다. AI가 의미를 이해하고 거기에 맞게 음성을 변경하는 것이죠. LMM(Large Multimodal Model)의 진정한 능력입니다. 예전처럼 텍스트 모델, 이미지 모델, 음성 모델 따로따로 처리해서 하나로 합치는 방식은 이제 끝났습니다.

 

올해는 LLM에서 LMM으로 바뀌는 한해가 될 것입니다.

 

엮인글 :
List of Articles
제목 글쓴이 날짜 조회 수
앤쓰로픽 대표, 2년 안에 AI가 모든 분야에서 인간을 능가할 것 file 우종하 2025-01-23 180
레딧에서 샘 알트만과의 AMA(Ask Me Anything) file 깊은바다 2024-11-01 192
LMM(Large Multimodal Model)의 시작을 알리는 GPT-4o 깊은바다 2024-05-23 263
GPT-4o와 구글 I/O 2024를 보고 느낀 점 깊은바다 2024-05-15 286
중국에서 고인의 AI 아바타를 만들어 주는 서비스 인기 file 깊은바다 2024-05-09 193
OpenAI의 Sora로 만든 단편영화 file 깊은바다 2024-03-26 340
만약 ChatGPT가 영상으로 세상을 이해하게 된다면? file 깊은바다 2024-02-16 381
인도의 생성AI 영화 - Maharaja in Denims 깊은바다 2024-01-16 329
누구나 쉽게 AI 인플루언서를 만드는 시대 - Aitana Lopez file 깊은바다 2024-01-04 306
95생 천재 소녀가 만든 Pika가 빅테크들을 이길 수 있었던 이유 file [2] 깊은바다 2023-12-24 1148
Text-to-Video 생성 서비스인 Pika, 5500만달러 투자 유치 file 깊은바다 2023-11-29 253
AI의 미래 - Coatue가 주목한 AI 산업 트렌드 깊은바다 2023-11-28 322
가구 카탈로그를 만들어주는 생성AI - 뚝딱 AI 스튜디오 file 깊은바다 2023-09-22 620
내가 원하는 사진을 만드는 생성AI SNS - 트윅(Tweak) file 깊은바다 2023-09-04 636
마우스로 끌어서 사진을 수정하는 딥러닝 - DragGAN 깊은바다 2023-05-21 570