레플리
글 수 211

LMM(Large Multimodal Model)의 시작을 알리는 GPT-4o

조회 수 1797 추천 수 0 2024.05.23 14:19:49


 

 

 

이번 GPT-4o 발표에서 가장 인상 깊었던 부분입니다. 베드타임 스토리를 들려달라고 하고 중간에 다양한 요구를 합니다. 좀 더 감정을 담아서 말하기, 로봇 같은 목소리로 말하기, 노래로 바꿔 부르기 등등. AI는 상황에 따라 각기 다른 톤과 감정으로 자연스럽게 대답합니다.

 

기존 TTS(Text-to-Speech) 서비스들은 보통 여러 음성 캐릭터를 제공합니다. 한 캐릭터 마다 말하는 톤이 거의 일정합니다. 어떤 서비스는 감정을 조절할 수도 있지만 사용자가 설정한대로 따를 뿐입니다.

 

반면에 GPT-4o는 현재 대화 내용에 따라 자유롭게 톤과 감정을 바꿉니다. 이는 텍스트와 음성이 End-to-end로 같이 학습되었기 때문에 가능합니다. AI가 의미를 이해하고 거기에 맞게 음성을 변경하는 것이죠. LMM(Large Multimodal Model)의 진정한 능력입니다. 예전처럼 텍스트 모델, 이미지 모델, 음성 모델 따로따로 처리해서 하나로 합치는 방식은 이제 끝났습니다.

 

올해는 LLM에서 LMM으로 바뀌는 한해가 될 것입니다.

 

엮인글 :
List of Articles
제목 글쓴이 날짜 조회 수
문샷AI가 발표한 새로운 트랜스포머 구조 - Attention Residuals file 우종하 2026-03-17 204
체스 신동이던 데미스 허사비스는 어떻게 구글 딥마인드의 수장이 되었나 file 우종하 2025-12-20 456
일리야 수츠케버, 스케일링에서 다시 연구의 시대로 file 우종하 2025-12-13 333
구글의 AI 가상피팅 앱 - Doppl 우종하 2025-07-05 1466
구글 AI Studio에 바이브 코딩 기능 추가 file 우종하 2025-05-26 2075
앤쓰로픽 대표, 2년 안에 AI가 모든 분야에서 인간을 능가할 것 file 우종하 2025-01-23 1734
레딧에서 샘 알트만과의 AMA(Ask Me Anything) file 깊은바다 2024-11-01 1681
LMM(Large Multimodal Model)의 시작을 알리는 GPT-4o 깊은바다 2024-05-23 1797
GPT-4o와 구글 I/O 2024를 보고 느낀 점 깊은바다 2024-05-15 1905
OpenAI의 Sora로 만든 단편영화 file 깊은바다 2024-03-26 1959
만약 ChatGPT가 영상으로 세상을 이해하게 된다면? file 깊은바다 2024-02-16 1989
인도의 생성AI 영화 - Maharaja in Denims 깊은바다 2024-01-16 1928
누구나 쉽게 AI 인플루언서를 만드는 시대 - Aitana Lopez file 깊은바다 2024-01-04 1941
95생 천재 소녀가 만든 Pika가 빅테크들을 이길 수 있었던 이유 file [2] 깊은바다 2023-12-24 2802
Text-to-Video 생성 서비스인 Pika, 5500만달러 투자 유치 file 깊은바다 2023-11-29 1806