글 수 208
이번 GPT-4o 발표에서 가장 인상 깊었던 부분입니다. 베드타임 스토리를 들려달라고 하고 중간에 다양한 요구를 합니다. 좀 더 감정을 담아서 말하기, 로봇 같은 목소리로 말하기, 노래로 바꿔 부르기 등등. AI는 상황에 따라 각기 다른 톤과 감정으로 자연스럽게 대답합니다.
기존 TTS(Text-to-Speech) 서비스들은 보통 여러 음성 캐릭터를 제공합니다. 한 캐릭터 마다 말하는 톤이 거의 일정합니다. 어떤 서비스는 감정을 조절할 수도 있지만 사용자가 설정한대로 따를 뿐입니다.
반면에 GPT-4o는 현재 대화 내용에 따라 자유롭게 톤과 감정을 바꿉니다. 이는 텍스트와 음성이 End-to-end로 같이 학습되었기 때문에 가능합니다. AI가 의미를 이해하고 거기에 맞게 음성을 변경하는 것이죠. LMM(Large Multimodal Model)의 진정한 능력입니다. 예전처럼 텍스트 모델, 이미지 모델, 음성 모델 따로따로 처리해서 하나로 합치는 방식은 이제 끝났습니다.
올해는 LLM에서 LMM으로 바뀌는 한해가 될 것입니다.