智元机器人宣布正式推出新一代具身基座大模型 Genie Operator-2(简称 GO-2)。在 Genie Operator-1(简称GO-1)基础上进行了进化,以弥合机器人系统中长期存在的语义‑运动鸿沟(Semantic‑Actuation Gap),实现了从感知理解到动作执行。
根据介绍,GO-2 首次在统一架构中打通从逻辑推理到精准动作执行的“最后一公里”,结合数万小时的数据训练,在多个机器人基准测试中刷新行业 SOTA,让机器人从“黑盒摸索”迈向真正的 “知行合一”。
![]()
GO-2 构建了一套完整架构: 先通过动作思维链完成高层动作推理,再通过异步双系统稳定执行。
![]()
GO-2 引入了动作思维链 (Action Chain-of-Thought)。与其在语言或视觉空间中进行推理,再将结果转换为动作,GO-2 直接在动作空间中完成这一过程。模型不会立即输出控制信号,而是先生成一段高层动作序列,作为任务的整体规划。这一序列描述了行为的方向、结构以及执行路径,是一种可以直接被执行系统理解的中间表示。
通过这种方式,复杂任务被自然拆解为有序的动作步骤。执行过程不再依赖即时反应,而是建立在已经形成的结构化路径之上。机器人从“边看边做”转变为“想清楚再做”,执行偏差随之显著降低,整体行为也更加稳定。这一能力的提出,使得“推理”和“执行”之间不再存在明显断层,规划本身就已经具备了可执行性。
![]()
为了解决执行稳定性问题,GO-2 还引入了一种异步双系统架构,将“规划”和“执行”拆分为两个不同节奏的模块,同时保持它们之间的紧密协同。其核心目标并不是简单地提高控制精度,而是确保高层规划在真实环境中能够被持续、稳定地跟随。
![]()
GO-2在多个主流具身智能基准测试(benchmark) 中取得了 全面 SOTA(现有最佳技术),在任务成功率、环境鲁棒性以及跨场景泛化能力上均显著领先当前主流模型(如:π0.5、NVIDIA GR00T)。
- LIBERO Benchmark:GO-2 模型 在 Spatial、Object、Goal 与 Long 四类任务上均排名第一,平均成功率达到 98.5%
- LIBERO-Plus Benchmark:在包含相机、光照、背景和噪声等多种环境扰动的设置下,GO-2零样本测试取得 86.6% 平均成功率,显著超过现有方法,表现出了超强的泛化能力。
- VLABench Benchmark:在跨类别与纹理泛化测试中,GO-2 平均达到 47.4,特别是纹理泛化任务上显著优于其他方法。
- Genie Sim 3.0 Benchmark (Sim-to-Real):在面向真实世界迁移的 Genie Sim 3.0 评测中,GO-2 展示了良好的零样本跨域迁移能力,在仅使用仿真数据训练的前提下,在真实环境测试中取得了 82.9% 的平均成功率,显著优于 π0.5 (77.5%)。