OpenAI 发布 Evals API：AI 模型测试进入程序化新时代-低调大师

OpenAI 发布 Evals API：AI 模型测试进入程序化新时代

2025-04-09 273

OpenAI 宣布推出 Evals API。根据介绍，Evals API支持用户通过编程方式定义测试、自动化运行评估流程，并实现对提示（Prompt）的快速迭代优化。这一功能的发布，不仅将模型评估从手动操作推向了高度自动化的新阶段，也为开发者提供了更灵活、高效的工具，以加速AI应用的开发与优化。

Evals API的核心在于其程序化特性。过去，开发者在测试和评估AI模型时，往往依赖OpenAI提供的仪表板（Dashboard）界面，手动输入测试用例并记录结果。而现在，通过Evals API，开发者能够直接在代码中定义测试逻辑，利用脚本自动化运行评估任务，并实时获取结果反馈。

这种方式不仅大幅提升了效率，还允许将评估流程无缝嵌入到现有的开发工作流中。例如，一个团队可以在持续集成/持续部署(CI/CD)管道中加入Evals API，自动验证模型更新后的性能表现，确保每次迭代都达到预期标准。

此外，Evals API的推出还为提示工程（Prompt Engineering）带来了新的可能性。开发者可以通过快速迭代提示，测试不同输入对模型输出的影响，从而找到最优的指令组合。这一功能特别适合需要精细调整模型行为的场景，例如智能客服、教育助手或代码生成工具。业内人士指出，这种程序化的测试方法将显著缩短优化周期，帮助开发者更快地将AI模型推向生产环境。

技术分析显示，Evals API的背后依托了OpenAI在模型评估框架上的深厚积累。此前，OpenAI曾开源其Evals框架，用于内部测试GPT系列模型的性能，而此次API的发布则是这一技术向外部开发者的进一步开放。结合API的强大功能，开发者不仅能够评估模型的准确性，还可以通过自定义指标追踪其在特定任务上的表现，例如语言生成的质量、逻辑推理的严谨性或多模态任务的协同能力。

值得注意的是，Evals API并未取代原有的仪表板功能，而是作为一种补充，为用户提供了更多选择。对于习惯图形界面的用户，仪表板依然是直观易用的评估工具;而对于需要深度定制和自动化的大型项目，API则展现出无可比拟的优势。有专家预测，这一双轨并行的策略将进一步扩大OpenAI平台的用户基础，从个人开发者到企业团队都能从中受益。

然而，这一技术的推出也伴随着一些潜在挑战。自动化评估虽然高效，但如何设计科学合理的测试用例，以及如何解读复杂的评估结果，仍需开发者具备一定的专业知识。此外，频繁调用API可能增加计算成本，尤其是对于大规模测试项目而言，资源管理将成为需要关注的重点。

微信关注我们

原文链接：https://www.oschina.net/news/343609

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Jina AI 开源全新多模态多语言重排器 jina-reranker-m0

Jina AI正式发布jina-reranker-m0，一款多模态、多语言重排器（reranker），核心能力在于对包含丰富视觉元素的文档进行重排和精排，同时兼容跨语言场景。根据介绍，当用户输入一个查询（query）以及一堆包含文本、图表、表格、信息图或复杂布局的文档时，模型会根据文档与查询的相关性，输出一个排序好的文档列表。模型支持超过 29 种语言及多种图形文档样式，例如自然照片、截图、扫描件、表格、海报、幻灯片、印刷品等等。相较于前代纯文本的重排器jina-reranker-v2-base-multilingual，jina-reranker-m0不仅新增了处理视觉信息的能力，在纯文本重排场景下，针对多语言内容、长文档及代码搜索等任务，其性能也得到了进一步提升。全新架构 jina-reranker-m0 的模型架构基于 Qwen2-VL-2B 构建的，总参数量达到 24 亿。该模型采用成对比较（pairwise comparison）机制，能够同时评估输入文档里的视觉和文本元素与查询的相关性，进而实现高效的文档排序。跟jina-reranker-v2-base-multi...

2025-04-09

410

作为一种新的商品表现形态，内容几乎存在于手淘用户动线全流程，例如信息流种草内容、搜索消费决策内容、详情页种草内容等。过去一年，我们通过在视频生成、图文联合生成等核心技术上的持续攻关，AIGC内容生成在手淘多个场景取得了规模化落地价值。本专题《淘宝的AIGC内容生成技术总结》是我们摸索出的一部分实践经验，我们将开启一段时间的内容AI专题连载，欢迎大家一起交流进步。第一篇《淘宝内容AI团队2024年8篇论文总结》第二篇《内容AI: 目标驱动的图像生成》第三篇《OpenAI o1模型的前世今生》第四篇《多模态人物视频驱动技术回顾与业务应用》第五篇《视频级虚拟试衣技术在淘宝的产品化实践》第六篇《大模型时代的内容分析Agent解决方案与业务实践》第七篇《淘宝全新图生视频大模型“淘宝法象”，助力商家降本增效》第八篇《大模型时代的视频动静态封面生产方案及业务实践》第九篇《MLLM在电商域互动内容生产的实践》第十篇《多模态自动布局技术发展及其在淘内内容场的应用》第十一篇《 AI赋能：大模型创新的模板生成与内容填充》第十二篇《音频生成技术探索与淘宝域实践》引...

2025-04-07

289

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。