OpenAI 发布 GPT-realtime 语音对话模型
OpenAI 宣布推出语音模型 GPT-realtime。一个专用于语音AI Agent的多模态模型,能够生成更加自然流畅的语音,完美模仿人类丰富多样的语调、情感以及语速,支持图像理解并将其与语音或文本对话相结合使用,适用于客服、教育、金融、医疗等领域打造语音智能体。
GPT-realtime 采用端到端架构,直接处理并生成音频,显著降低延迟。还新增了Marin与Cedar两种极具特色的语音,同时对原有的8种语音也进行了全面升级。
OpenAI 表示,该模型展现出更高智能水平,能够更准确地理解母语音频。可以捕捉非语言线索(例如笑声)、在句子中间切换语言,并调整语气(“简洁专业” vs. “友善善解人意”)。
根据内部评估,该模型在检测其他语言(包括西班牙语、中文、日语和法语)的字母数字序列(例如电话号码、车辆识别号码 (VIN) 等)方面也表现出更高的准确性。在 Big Bench Audio 评估中,该模型的推理能力gpt-realtime得分高达 82.8%,超过了 2024 年 12 月发布的上一版模型(得分为 65.6%)。
在衡量指令执行准确率的 MultiChallenge 音频基准测试中,该模型的gpt-realtime
得分为 30.5%,相比 2024 年 12 月发布的上一版模型(得分为 20.6%)有了显著提升。
GPT-realtime 改进了函数调用能力,支持图像输入,使对话内容可与视觉信息结合。新增多项功能使API更易集成,为开发者提供更大灵活性。
据悉,此次发布由95后华人研究员Beichen Li和Liyu Chen参与。Beichen Li毕业于MIT,研究方向为计算机图形学与机器学习交叉领域。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
xAI 发布代码生成模型 Grok Code Fast 1
xAI 宣布推出全新智能代码生成模型 Grok Code Fast 1。 xAI 表示该模型从零开始构建,基于涵盖真实世界编码任务的数据集进行预训练与优化,特别擅长 TypeScript、Python、Java、Rust、C++ 和 Go,可在最少监督下完成从项目构建到漏洞修复等多类任务。 定价方面,Grok Code Fast 1 的费用为:每百万输入 token 0.20 美元、每百万输出 token 1.50 美元、每百万已缓存输入 token 0.02 美元,主打“快速且经济”。目前已在 Cursor、GitHub Copilot、Cline、opencode、Windsurf、Roo Code 与 Kilo Code 等主流智能编程平台限时免费开放。
-
下一篇
微软发布两款全新自研模型:MAI-Voice-1 与MAI-1-preview
微软发布了两款完全自研的模型:语音生成模型MAI-Voice-1与基础大模型MAI-1-preview。 MAI-Voice-1可在单 GPU 上一秒内生成一分钟高保真语音,该模型已被应用于多项功能,包括由 AI 主持人播报当日要闻的 Copilot Daily,以及生成播客式讨论内容以阐释主题。 用户可在 Copilot Labs 亲自体验 MAI-Voice-1:输入文本内容后,可自由调整 AI 模型的语音风格与表达方式。 除该模型外,微软还推出了采用混合专家架构的 MAI-1-preview,据称其预训练与后训练共动用约15,000张NVIDIA H100GPU,该模型专为需要遵循指令并 “对日常查询提供实用回应” 的用户设计。 MAI-1-preview 已上线LMArena社区测试,排名第13,并同步向受邀开发者提供 API 试用申请。未来几周将先面向部分Copilot文本场景灰度上线,以收集反馈并持续迭代。 微软 AI 首席执行官Mustafa Suleyman表示,这只是开始,后续将围绕模型升级、计算路线规划以及与微软全线产品深度集成,目标触达数十亿用户,实现 “为所有人...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- CentOS7,8上快速安装Gitea,搭建Git服务器
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- MySQL数据库在高并发下的优化方案
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- MySQL8.0.19开启GTID主从同步CentOS8
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- Docker快速安装Oracle11G,搭建oracle11g学习环境