OpenAI 发布 GPT-realtime 语音对话模型
OpenAI 宣布推出语音模型 GPT-realtime。一个专用于语音AI Agent的多模态模型,能够生成更加自然流畅的语音,完美模仿人类丰富多样的语调、情感以及语速,支持图像理解并将其与语音或文本对话相结合使用,适用于客服、教育、金融、医疗等领域打造语音智能体。
GPT-realtime 采用端到端架构,直接处理并生成音频,显著降低延迟。还新增了Marin与Cedar两种极具特色的语音,同时对原有的8种语音也进行了全面升级。
OpenAI 表示,该模型展现出更高智能水平,能够更准确地理解母语音频。可以捕捉非语言线索(例如笑声)、在句子中间切换语言,并调整语气(“简洁专业” vs. “友善善解人意”)。
根据内部评估,该模型在检测其他语言(包括西班牙语、中文、日语和法语)的字母数字序列(例如电话号码、车辆识别号码 (VIN) 等)方面也表现出更高的准确性。在 Big Bench Audio 评估中,该模型的推理能力gpt-realtime得分高达 82.8%,超过了 2024 年 12 月发布的上一版模型(得分为 65.6%)。
在衡量指令执行准确率的 MultiChallenge 音频基准测试中,该模型的gpt-realtime得分为 30.5%,相比 2024 年 12 月发布的上一版模型(得分为 20.6%)有了显著提升。
GPT-realtime 改进了函数调用能力,支持图像输入,使对话内容可与视觉信息结合。新增多项功能使API更易集成,为开发者提供更大灵活性。
据悉,此次发布由95后华人研究员Beichen Li和Liyu Chen参与。Beichen Li毕业于MIT,研究方向为计算机图形学与机器学习交叉领域。


