NVIDIA 推出 Orchestrator-8B:高效工具和模型选择的强化学习控制器
NVIDIA 最近推出了一种新方法 —— ToolOrchestra,旨在提升 AI 系统选择合适模型和工具的能力,避免传统的单一大型模型依赖。该方法通过训练一个名为 Orchestrator-8B 的小型语言模型,作为多工具使用代理的 “大脑”,实现更高效的任务处理。 目前大多数 AI 代理使用单一大型模型,例如 GPT-5,根据提示选择工具并完成任务。然而,研究发现,这种方法容易导致模型在决策时偏向于使用自身,造成资源浪费。为此,ToolOrchestra 设计了一种专门的控制模型 Orchestrator-8B,利用强化学习来优化工具选择。 Orchestrator-8B 是一个具有8亿参数的解码器,仅使用 Transformer 结构,通过微调 Qwen3-8B 模型而成。其工作流程分为三个主要步骤:首先,模型解析用户指令及可选的自然语言偏好,例如优先考虑低延迟或避免网络搜索;接着,生成推理过程并计划行动;最后,从可用工具中选择,并以统一的 JSON 格式发出工具调用。这一过程会持续进行,直到任务完成或达到50个步骤的上限。 ToolOrchestra 的强化学习设计包括多个奖...
