OpenAI Evals 新增原生音频输入和评估功能
OpenAI的Evals工具现已支持原生音频输入和音频评分,无需文本转录即可直接评估模型的音频响应。这项新功能极大简化了语音识别和生成模型的评估过程,使得开发者能够更高效地测试和优化其音频应用。
通过使用Evals的原生音频支持,用户可以上传音频文件,并直接在平台上进行性能评估。这一改进不仅减少了数据处理的复杂性,还提高了评估结果的准确性和可靠性。对于需要频繁测试和调整音频模型的开发者来说,这是一个重要的进步。
应用场景包括但不限于:智能语音助手的开发与优化、语音识别系统的性能评估,以及音频内容生成的质量控制。
如需了解更多关于如何使用Evals的新功能,参考官方Cookbook指南:https://cookbook.openai.com/examples/evaluation/use-cases/evalsapi_audio_inputs

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
微软研究院发布 RenderFormer,基于 Transformer 的神经渲染模型
微软研究院近日发布了RenderFormer,这是一个纯机器学习的神经架构,旨在通过机器学习完全替代传统图形计算,实现全功能3D渲染,无需传统图形计算。 RenderFormer整体架构如下: 双分支Transformer架构:分为视角无关(View-Independent)和视角相关(View-Dependent)两个阶段。视角无关阶段通过自注意力机制捕捉阴影、漫反射等全局光照效果;视角相关阶段通过交叉注意力机制建模可见性、反射等视角依赖效果。 相对空间位置编码:创新性地采用改进的旋转位置编码(RoPE),基于三角形的3D空间位置而非序列索引,保持场景平移不变性。 据介绍,RenderFormer是首个证明神经网络能学习完整图形渲染流水线的模型,支持任意3D场景和全局光照效果,无需依赖光线追踪或光栅化技术。它通过三角形令牌(triangle tokens)表示3D场景,编码空间位置、表面法线及材质属性,结合光线束令牌(ray bundle tokens)处理视角信息,实现端到端渲染。该成果已获SIGGRAPH 2025接收并开源。 https://microsoft.github.i...
-
下一篇
北京中小学全面开设人工智能通识课
据报道,自2025年秋季学期起,北京市1400余所中小学全面开设人工智能通识教育课程,覆盖183万余名中小学生,成为全国首个省级全域推进人工智能通识教育的地区。 报道称,课程资源方面,首批覆盖全学段的 160 套市级课程资源已上线,每套资源包含 15 分钟左右的核心教学视频、教学指南及活动任务单; 通过「视频 + 工具 + 任务单」模式满足教师授课、备课及学生自主学习 3 类场景需求,搭建 AI「课程超市」和「应用超市」,为课堂教学提供基础支撑。 市教委相关负责人表示,北京市将持续优化人工智能教育课程资源,结合教学反馈迭代更新;开展应用示范校评选和优秀案例推广,形成可复制经验。 同时,负责人还表示,要深化「京娃」系列智能体研发,拓展「AI + 教育」应用场景等,以首批课程资源为起点,力争将北京中小学人工智能教育打造成全国标杆,真正让数字技术赋能每一位师生,为培养担当民族复兴大任的时代新人奠定坚实基础。
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- 面试大杂烩
- MySQL数据库在高并发下的优化方案
- CentOS8编译安装MySQL8.0.19
- Docker安装Oracle12C,快速搭建Oracle学习环境
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- Windows10,CentOS7,CentOS8安装Nodejs环境
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- CentOS关闭SELinux安全模块
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果