您现在的位置是:首页 > 文章详情

OpenAI 发布 GPT-realtime 语音对话模型

日期:2025-08-29点击:18

OpenAI 宣布推出语音模型 GPT-realtime。一个专用于语音AI Agent的多模态模型,能够生成更加自然流畅的语音,完美模仿人类丰富多样的语调、情感以及语速,支持图像理解并将其与语音或文本对话相结合使用,适用于客服、教育、金融、医疗等领域打造语音智能体。

GPT-realtime 采用端到端架构,直接处理并生成音频,显著降低延迟。还新增了Marin与Cedar两种极具特色的语音,同时对原有的8种语音也进行了全面升级。

OpenAI 表示,该模型展现出更高智能水平,能够更准确地理解母语音频。可以捕捉非语言线索(例如笑声)、在句子中间切换语言,并调整语气(“简洁专业” vs. “友善善解人意”)。

根据内部评估,该模型在检测其他语言(包括西班牙语、中文、日语和法语)的字母数字序列(例如电话号码、车辆识别号码 (VIN) 等)方面也表现出更高的准确性。在 Big Bench Audio 评估中,该模型的推理能力gpt-realtime得分高达 82.8%,超过了 2024 年 12 月发布的上一版模型(得分为 65.6%)。

在衡量指令执行准确率的 MultiChallenge 音频基准测试中,该模型的gpt-realtime得分为 30.5%,相比 2024 年 12 月发布的上一版模型(得分为 20.6%)有了显著提升。

GPT-realtime 改进了函数调用能力,支持图像输入,使对话内容可与视觉信息结合。新增多项功能使API更易集成,为开发者提供更大灵活性。

据悉,此次发布由95后华人研究员Beichen Li和Liyu Chen参与。Beichen Li毕业于MIT,研究方向为计算机图形学与机器学习交叉领域。

原文链接:https://www.oschina.net/news/369131
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章