阿里巴巴发布千问具身智能大模型 Qwen-Robot 系列。
根据介绍,Qwen-Robot Suite 包含 VLA 操作模型Qwen-RobotManip、VLN 移动模型 Qwen-RobotNav 和世界模型 Qwen-RobotWorld 三大模型,这也是千问大模型家族首个完整的具身智能模型系列。
- Qwen-RobotNav:物理智能体的行动入口 — 通过可控观测编码和工具接口,把视觉语言能力接入移动控制,统一了指令跟随、点/目标导航、目标追踪和自动驾驶四类任务
- Qwen-RobotManip:物理智能体的交互基石 — 通过规范状态-动作空间和相机坐标系下的末端执行器增量位姿,把视觉语言能力接入操作控制,基于完全由开源数据构建的 >38,100 小时语料库实现了大规模多机型训练
- Qwen-RobotWorld:物理智能体的无限世界 — 通过自然语言动作接口,把视觉语言能力接入世界动态预测,让同一个世界模型能够跨操作、驾驶和导航场景预测符合物理规律的未来。

Qwen-RobotNav 的核心思路是将视觉分配策略本身参数化:任务模式选择导航行为(指令跟随、目标搜索、目标追踪、自动驾驶),可调节参数(视觉 token 预算、时间衰减、单相机权重、帧采样模式)决定视觉历史的编码方式。模型在 1,560 万条样本上训练,同时联合视觉语言数据以保留感知能力,一套权重统一五类导航任务。
- 统一多域导航: 单一模型、单组权重,在 5 个导航领域达到 SOTA — VLN-CE RxR 76.5% SR、HM3Dv2 目标搜索 75.6% SR(仅 RGB,超越所有深度方法)、EVT-Bench 90.0% 跟踪率、NAVSIM 91.4 PDMS,以及 3 个 EQA 基准新纪录 — 2B 到 8B 参数一致提升
- 可控观测协议: 四个控制轴(视觉词元预算、时间衰减、逐相机权重、帧采样模式)作为推理时参数暴露,训练时逐样本随机化,无需重新训练或修改 Qwen3-VL 架构即可适配任意配置
- 智能体导航系统: 作为双层系统中可重配置的导航原语,上层规划器(Qwen3.6-Plus)分解长时序目标并调度可配置的导航调用,配合双层记忆机制 — 在 EXPRESS-Bench 上提升 15.4%,导航步数减少 77%
- 开放环境泛化: 在 Unitree Go2 四足机器人上零样本部署,仅使用单个低分辨率相机,在开放真实环境与自由自然语言指令下展现出强大的泛化能力,无需任何环境特定微调


Qwen-RobotManip 以 Qwen3.5-4B VL 为骨干、结合流匹配 DiT 动作头,通过三种机制解决这一问题。统一的 80 维状态-动作表示在单臂、双臂、灵巧手和移动平台等本体间共享。相机坐标系下的末端执行器增量位姿动作,使视觉上相似的运动在不同机器人之间数值上也相近,从而屏蔽形态差异。上下文策略自适应将执行历史视为隐式的本体标识,实现推理时在线行为校准。
一旦表征体系统一,数据壁垒随之降低。团队利用开源的 11,320 小时的机器人数据、 开源的 1,933 小时 第一人称人类视频,以及 人-机迁移数据合成管线 从人类视频合成的跨 15 个本体的 24,808 小时 机器人数据(共计 >38,100 小时 )训练VLA模型。仅依靠开源数据,模型即涌现出对扰动的鲁棒性、零样本指令跟随、自主错误恢复和跨本体迁移等泛化能力。
-
统一跨本体对齐框架 — 统一的 80 维状态-动作表示兼容多样化本体,相机坐标系末端执行器增量位姿使视觉相似运动数值相近,上下文策略自适应将执行历史作为隐式本体标识——三者共同实现跨本体一致信号提取
-
大规模人-机迁移数据合成 — 管线将 1,933 小时第一人称人类视频,经由动作重定向、手部去除与补绘、仿真渲染及深度辅助融合,转化为跨 15 个本体的 24,808 小时机器人演示,配合多阶段数据策划管线确保数据质量
-
分布外泛化: LIBERO-Plus 91.4%(超越 π0.5 +7.0),RoboTwin-Clean2Rand Hard 69.4%(超越 π0.5 +21.5),RoboCasa365 Composite-Unseen 14.9%(第二名的 3 倍),EBench 45.6%(超越第二名 +18.5);RoboTwin-IF (自建 zero-shot instruction following测评) 72.0%(超越 π0.5 +22.4),证实了可靠的语言条件控制能力;RoboTwin-XE(自建 zero-shot cross-embodiment 测评)零样本跨本体迁移性能达到先前最优的 3 倍
-
真实环境表现: RoboChallenge Table30 v1 通用赛道以 45% SR 排名第一,性能较此前SOTA提升20%;在真实机器人平台上的域内与域外任务、少样本适应及跨本体技能迁移中达到先前最优的 2 倍


Qwen-RobotWorld 通过直接学习世界的状态转移函数来解决这一问题:给定当前观测和一个自然语言动作,预测世界接下来将呈现的样子。关键的设计选择是将所有动作以自然语言表达——这将末端执行器位姿、转向指令和导航路标点统一为单一接口,使 20 余种本体类型和 500 余个动作类别得以在具身世界知识语料库(860 万视频-文本对,逾 2 亿帧)下协同训练。
60 层双流 MMDiT 将 Qwen2.5-VL 的语义表示与视频隐变量深度耦合。将完整的多模态大语言模型作为动作编码器——而非轻量级文本编码器——是关键所在:它带来了内化的世界知识——手臂是刚体、液体会扩散、物体会下落——从而隐式地将生成约束为物理上可信的未来。每个领域相互强化:操作教会接触物理,驾驶教会大尺度三维几何,导航教会房间级别的空间推理。
-
语言驱动的统一动作接口 — 自然语言将 20 余种机器人本体和 500 余个动作类别标准化为统一的训练接口,使操作、驾驶、导航和人机迁移得以联合训练;每个领域互相强化
-
双流 MMDiT + Qwen2.5-VL 动作编码器 — 以完整的多模态大语言模型(而非轻量级文本编码器)作为动作编码器,将复杂的组合指令解析为精确的生成信号,并内化物理世界知识,可作为合成数据引擎、闭环策略评估器和动作规划器
-
榜单排名: EWMBench 总分第一(运动保真度超越亚军 33%)及 DreamGen Bench 第一;开源模型中 WorldModelBench 第一(牛顿定律、质量守恒、流体动力学等物理规律遵循完美)及 PBBench 第一
-
核心能力: 细粒度语言控制(改变单个关键词即产生不同的未来);跨 8 种以上本体的人机迁移,具备多视角一致生成;在 RoboTwin-IF (自建 zero-shot instruction following测评) 上的零样本鲁棒性。

三个模型各自独立可用——但由于它们都提供语言优先的接口,通用 Qwen 模型可以将它们作为物理世界工具进行组合,将通用智能直接连接到物理行动。
此外,阿里还有一个内部项目 Qwen-RobotClaw——一个机器人智能体框架,使 Qwen VLM 智能体能够将 Qwen-Robot Suite 模型作为物理世界工具调用,同时妥善管理长程任务所需的上下文与记忆,推动物理智能走向更通用、更复杂的真实应用场景。