딥러닝 - LMM(Large Multimodal Model)의 시작을 알리는 GPT-4o

글 수 208

LMM(Large Multimodal Model)의 시작을 알리는 GPT-4o

조회 수 591 추천 수 0 2024.05.23 14:19:49

깊은바다 *.151.21.2 https://aidev.co.kr/14881

이번 GPT-4o 발표에서 가장 인상 깊었던 부분입니다. 베드타임 스토리를 들려달라고 하고 중간에 다양한 요구를 합니다. 좀 더 감정을 담아서 말하기, 로봇 같은 목소리로 말하기, 노래로 바꿔 부르기 등등. AI는 상황에 따라 각기 다른 톤과 감정으로 자연스럽게 대답합니다.

기존 TTS(Text-to-Speech) 서비스들은 보통 여러 음성 캐릭터를 제공합니다. 한 캐릭터 마다 말하는 톤이 거의 일정합니다. 어떤 서비스는 감정을 조절할 수도 있지만 사용자가 설정한대로 따를 뿐입니다.

반면에 GPT-4o는 현재 대화 내용에 따라 자유롭게 톤과 감정을 바꿉니다. 이는 텍스트와 음성이 End-to-end로 같이 학습되었기 때문에 가능합니다. AI가 의미를 이해하고 거기에 맞게 음성을 변경하는 것이죠. LMM(Large Multimodal Model)의 진정한 능력입니다. 예전처럼 텍스트 모델, 이미지 모델, 음성 모델 따로따로 처리해서 하나로 합치는 방식은 이제 끝났습니다.

올해는 LLM에서 LMM으로 바뀌는 한해가 될 것입니다.

이 게시물을

엮인글 :

List of Articles

제목	글쓴이	날짜	조회 수
구글의 AI 가상피팅 앱 - Doppl	우종하	2025-07-05	74
구글 AI Studio에 바이브 코딩 기능 추가	우종하	2025-05-26	497
앤쓰로픽 대표, 2년 안에 AI가 모든 분야에서 인간을 능가할 것	우종하	2025-01-23	534
레딧에서 샘 알트만과의 AMA(Ask Me Anything)	깊은바다	2024-11-01	517
LMM(Large Multimodal Model)의 시작을 알리는 GPT-4o	깊은바다	2024-05-23	591
GPT-4o와 구글 I/O 2024를 보고 느낀 점	깊은바다	2024-05-15	612
OpenAI의 Sora로 만든 단편영화	깊은바다	2024-03-26	655
만약 ChatGPT가 영상으로 세상을 이해하게 된다면?	깊은바다	2024-02-16	684
인도의 생성AI 영화 - Maharaja in Denims	깊은바다	2024-01-16	644
누구나 쉽게 AI 인플루언서를 만드는 시대 - Aitana Lopez	깊은바다	2024-01-04	629
95생 천재 소녀가 만든 Pika가 빅테크들을 이길 수 있었던 이유 [2]	깊은바다	2023-12-24	1476
Text-to-Video 생성 서비스인 Pika, 5500만달러 투자 유치	깊은바다	2023-11-29	568
AI의 미래 - Coatue가 주목한 AI 산업 트렌드	깊은바다	2023-11-28	631
가구 카탈로그를 만들어주는 생성AI - 뚝딱 AI 스튜디오	깊은바다	2023-09-22	971
마우스로 끌어서 사진을 수정하는 딥러닝 - DragGAN	깊은바다	2023-05-21	717

쓰기

첫 페이지 1 2 3 4 5 6 7 8 9 10 끝 페이지