NVIDIA 推出 Orchestrator-8B：高效工具和模型选择的强化学习控制器-低调大师

NVIDIA 推出 Orchestrator-8B：高效工具和模型选择的强化学习控制器

2025-12-01 42

NVIDIA 最近推出了一种新方法 —— ToolOrchestra，旨在提升 AI 系统选择合适模型和工具的能力，避免传统的单一大型模型依赖。该方法通过训练一个名为 Orchestrator-8B 的小型语言模型，作为多工具使用代理的 “大脑”，实现更高效的任务处理。

目前大多数 AI 代理使用单一大型模型，例如 GPT-5，根据提示选择工具并完成任务。然而，研究发现，这种方法容易导致模型在决策时偏向于使用自身，造成资源浪费。为此，ToolOrchestra 设计了一种专门的控制模型 Orchestrator-8B，利用强化学习来优化工具选择。

Orchestrator-8B 是一个具有8亿参数的解码器，仅使用 Transformer 结构，通过微调 Qwen3-8B 模型而成。其工作流程分为三个主要步骤：首先，模型解析用户指令及可选的自然语言偏好，例如优先考虑低延迟或避免网络搜索；接着，生成推理过程并计划行动；最后，从可用工具中选择，并以统一的 JSON 格式发出工具调用。这一过程会持续进行，直到任务完成或达到50个步骤的上限。

ToolOrchestra 的强化学习设计包括多个奖励机制，以确保任务的高效完成。具体来说，模型的奖励由三个部分组成:任务成功的二元奖励、效率奖励（针对成本和时间）以及用户偏好奖励。这些因素结合起来，帮助优化策略，使 Orchestrator-8B 在选择和使用工具时更为灵活。

在一系列基准测试中，Orchestrator-8B 表现优异。例如，在 “人类最后的考试” 中，其准确率达到37.1%，高于 GPT-5的35.1%。在效率方面，Orchestrator-8B 的平均成本仅为0.092美元，时间为8.2分钟，远低于 GPT-5的0.302美元和19.8分钟。这表明，Orchestrator-8B 在资源利用和任务处理上表现更佳，适合关注效率和成本的团队。

微信关注我们

原文链接：https://www.oschina.net/news/386975

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

美团 LongCat 团队发布数学推理评测基准：AMO-Bench

大模型的"推理能力"能让机器具备与人类相似的认知和行为能力，能像人一样理解、思考、学习并解决复杂问题。而在众多推理能力评测场景中，数学推理任务是当前衡量和追踪模型推理能力进展的 "黄金标尺"。与此同时，主流数学推理评测体系正面临关键瓶颈：部分顶尖模型在常用的数学推理评测任务中，如 AIME24/25 的正确率已突破 90%，评测区分度大幅下降，难以再有效牵引模型向更高阶推理能力进化；此外，现有基准大多源于公开竞赛题库，存在数据穿越风险。在此背景下，美团 LongCat 团队发布数学推理评测基准------ AMO-Bench 。该评测集共包含 50 道竞赛专家原创试题，所有题目均对标甚至超越 IMO 竞赛难度。目前，头部大模型在 AMO-Bench 上的最好表现也尚未及格，SOTA 性能仅为 52.4%，绝大多数模型正确率低于 40%。AMO-Bench 既揭示出当前大语言模型在处理复杂推理任务上的局限性，同时也为模型推理能力的进一步提升树立了新的的标杆。 AMO-Bench 的评测榜单将保持更新，欢迎持续关注：项目主页：http://amo-bench.github.io/ ...

2025-12-01

50

OpenAI 宣布获得私募平台 Thrive Holdings 股份，却不出一分现金——而是以派驻员工、开放模型与产品接口的方式换取“有意义”的股权，并分享后者未来投资收益。由于 Thrive Holdings 的母公司正是 OpenAI 主要投资方 Thrive Capital，这场“投资换资源”的合作被外界视为典型的 AI 闭环交易。根据协议，OpenAI 将率先在会计与 IT 服务领域“嵌入”工程与产品团队，帮助被投企业提速降本;作为回报，它可调用这些公司的业务数据用于模型训练，同时享受股权增值和财务分成。知情人士透露，OpenAI 正寻求与更多私募股权机构复制这一模式，以零资本开支换取垂直行业数据和落地场景。对于估值5000亿美元的 OpenAI 而言，此举既缓解了高昂算力成本带来的现金流压力，也为其大举扩张企业客户提供了“外包”的实施团队。不过，市场亦担忧资金与股权在少数玩家之间空转，可能进一步放大 AI 泡沫风险。

2025-12-02

48

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。