OpenAI 发布 GPT-realtime 语音对话模型-低调大师

OpenAI 发布 GPT-realtime 语音对话模型

2025-08-29 178

OpenAI 宣布推出语音模型 GPT-realtime。一个专用于语音AI Agent的多模态模型，能够生成更加自然流畅的语音，完美模仿人类丰富多样的语调、情感以及语速，支持图像理解并将其与语音或文本对话相结合使用，适用于客服、教育、金融、医疗等领域打造语音智能体。

GPT-realtime 采用端到端架构，直接处理并生成音频，显著降低延迟。还新增了Marin与Cedar两种极具特色的语音，同时对原有的8种语音也进行了全面升级。

OpenAI 表示，该模型展现出更高智能水平，能够更准确地理解母语音频。可以捕捉非语言线索（例如笑声）、在句子中间切换语言，并调整语气（“简洁专业” vs. “友善善解人意”）。

根据内部评估，该模型在检测其他语言（包括西班牙语、中文、日语和法语）的字母数字序列（例如电话号码、车辆识别号码 (VIN) 等）方面也表现出更高的准确性。在 Big Bench Audio 评估中，该模型的推理能力gpt-realtime得分高达 82.8%，超过了 2024 年 12 月发布的上一版模型（得分为 65.6%）。

在衡量指令执行准确率的 MultiChallenge 音频基准测试中，该模型的gpt-realtime得分为 30.5%，相比 2024 年 12 月发布的上一版模型（得分为 20.6%）有了显著提升。

GPT-realtime 改进了函数调用能力，支持图像输入，使对话内容可与视觉信息结合。新增多项功能使API更易集成，为开发者提供更大灵活性。

据悉，此次发布由95后华人研究员Beichen Li和Liyu Chen参与。Beichen Li毕业于MIT，研究方向为计算机图形学与机器学习交叉领域。

微信关注我们

原文链接：https://www.oschina.net/news/369131

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

xAI 发布代码生成模型 Grok Code Fast 1

xAI 宣布推出全新智能代码生成模型 Grok Code Fast 1。 xAI 表示该模型从零开始构建，基于涵盖真实世界编码任务的数据集进行预训练与优化，特别擅长 TypeScript、Python、Java、Rust、C++ 和 Go，可在最少监督下完成从项目构建到漏洞修复等多类任务。定价方面，Grok Code Fast 1 的费用为：每百万输入 token 0.20 美元、每百万输出 token 1.50 美元、每百万已缓存输入 token 0.02 美元，主打“快速且经济”。目前已在 Cursor、GitHub Copilot、Cline、opencode、Windsurf、Roo Code 与 Kilo Code 等主流智能编程平台限时免费开放。

2025-08-29

234

微软发布了两款完全自研的模型：语音生成模型MAI-Voice-1与基础大模型MAI-1-preview。 MAI-Voice-1可在单 GPU 上一秒内生成一分钟高保真语音，该模型已被应用于多项功能，包括由 AI 主持人播报当日要闻的 Copilot Daily，以及生成播客式讨论内容以阐释主题。用户可在 Copilot Labs 亲自体验 MAI-Voice-1：输入文本内容后，可自由调整 AI 模型的语音风格与表达方式。除该模型外，微软还推出了采用混合专家架构的 MAI-1-preview，据称其预训练与后训练共动用约15,000张NVIDIA H100GPU，该模型专为需要遵循指令并 “对日常查询提供实用回应” 的用户设计。 MAI-1-preview 已上线LMArena社区测试，排名第13，并同步向受邀开发者提供 API 试用申请。未来几周将先面向部分Copilot文本场景灰度上线，以收集反馈并持续迭代。微软 AI 首席执行官Mustafa Suleyman表示，这只是开始，后续将围绕模型升级、计算路线规划以及与微软全线产品深度集成，目标触达数十亿用户，实现 “为所有人...

2025-08-29

259

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。