OpenAI 发布 GPT-realtime 语音对话模型

OpenAI 宣布推出语音模型 GPT-realtime。一个专用于语音AI Agent的多模态模型,能够生成更加自然流畅的语音,完美模仿人类丰富多样的语调、情感以及语速,支持图像理解并将其与语音或文本对话相结合使用,适用于客服、教育、金融、医疗等领域打造语音智能体。

GPT-realtime 采用端到端架构,直接处理并生成音频,显著降低延迟。还新增了Marin与Cedar两种极具特色的语音,同时对原有的8种语音也进行了全面升级。

OpenAI 表示,该模型展现出更高智能水平,能够更准确地理解母语音频。可以捕捉非语言线索(例如笑声)、在句子中间切换语言,并调整语气(“简洁专业” vs. “友善善解人意”)。

根据内部评估,该模型在检测其他语言(包括西班牙语、中文、日语和法语)的字母数字序列(例如电话号码、车辆识别号码 (VIN) 等)方面也表现出更高的准确性。在 Big Bench Audio 评估中,该模型的推理能力gpt-realtime得分高达 82.8%,超过了 2024 年 12 月发布的上一版模型(得分为 65.6%)。

在衡量指令执行准确率的 MultiChallenge 音频基准测试中,该模型的gpt-realtime得分为 30.5%,相比 2024 年 12 月发布的上一版模型(得分为 20.6%)有了显著提升。

GPT-realtime 改进了函数调用能力,支持图像输入,使对话内容可与视觉信息结合。新增多项功能使API更易集成,为开发者提供更大灵活性。

据悉,此次发布由95后华人研究员Beichen Li和Liyu Chen参与。Beichen Li毕业于MIT,研究方向为计算机图形学与机器学习交叉领域。

优秀的个人博客,低调大师

微信关注我们

原文链接:https://www.oschina.net/news/369131

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

相关文章

发表评论

资源下载

更多资源
Apache Tomcat7、8、9(Java Web服务器)

Apache Tomcat7、8、9(Java Web服务器)

Tomcat是Apache 软件基金会(Apache Software Foundation)的Jakarta 项目中的一个核心项目,由Apache、Sun 和其他一些公司及个人共同开发而成。因为Tomcat 技术先进、性能稳定,而且免费,因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可,成为目前比较流行的Web 应用服务器。

Eclipse(集成开发环境)

Eclipse(集成开发环境)

Eclipse 是一个开放源代码的、基于Java的可扩展开发平台。就其本身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境。幸运的是,Eclipse 附带了一个标准的插件集,包括Java开发工具(Java Development Kit,JDK)。

Java Development Kit(Java开发工具)

Java Development Kit(Java开发工具)

JDK是 Java 语言的软件开发工具包,主要用于移动设备、嵌入式设备上的java应用程序。JDK是整个java开发的核心,它包含了JAVA的运行环境(JVM+Java系统类库)和JAVA工具。

Sublime Text 一个代码编辑器

Sublime Text 一个代码编辑器

Sublime Text具有漂亮的用户界面和强大的功能,例如代码缩略图,Python的插件,代码段等。还可自定义键绑定,菜单和工具栏。Sublime Text 的主要功能包括:拼写检查,书签,完整的 Python API , Goto 功能,即时项目切换,多选择,多窗口等等。Sublime Text 是一个跨平台的编辑器,同时支持Windows、Linux、Mac OS X等操作系统。