阿里发布首个具身大模型 Qwen-Robot 系列-低调大师

阿里发布首个具身大模型 Qwen-Robot 系列

2026-06-16 56

阿里巴巴发布千问具身智能大模型 Qwen-Robot 系列。

根据介绍，Qwen-Robot Suite 包含 VLA 操作模型Qwen-RobotManip、VLN 移动模型 Qwen-RobotNav 和世界模型 Qwen-RobotWorld 三大模型，这也是千问大模型家族首个完整的具身智能模型系列。

Qwen-RobotNav：物理智能体的行动入口 — 通过可控观测编码和工具接口，把视觉语言能力接入移动控制，统一了指令跟随、点/目标导航、目标追踪和自动驾驶四类任务
Qwen-RobotManip：物理智能体的交互基石 — 通过规范状态-动作空间和相机坐标系下的末端执行器增量位姿，把视觉语言能力接入操作控制，基于完全由开源数据构建的 >38,100 小时语料库实现了大规模多机型训练
Qwen-RobotWorld：物理智能体的无限世界 — 通过自然语言动作接口，把视觉语言能力接入世界动态预测，让同一个世界模型能够跨操作、驾驶和导航场景预测符合物理规律的未来。

Qwen-RobotNav 的核心思路是将视觉分配策略本身参数化：任务模式选择导航行为（指令跟随、目标搜索、目标追踪、自动驾驶），可调节参数（视觉 token 预算、时间衰减、单相机权重、帧采样模式）决定视觉历史的编码方式。模型在 1,560 万条样本上训练，同时联合视觉语言数据以保留感知能力，一套权重统一五类导航任务。

统一多域导航：单一模型、单组权重，在 5 个导航领域达到 SOTA — VLN-CE RxR 76.5% SR、HM3Dv2 目标搜索 75.6% SR（仅 RGB，超越所有深度方法）、EVT-Bench 90.0% 跟踪率、NAVSIM 91.4 PDMS，以及 3 个 EQA 基准新纪录 — 2B 到 8B 参数一致提升
可控观测协议：四个控制轴（视觉词元预算、时间衰减、逐相机权重、帧采样模式）作为推理时参数暴露，训练时逐样本随机化，无需重新训练或修改 Qwen3-VL 架构即可适配任意配置
智能体导航系统：作为双层系统中可重配置的导航原语，上层规划器（Qwen3.6-Plus）分解长时序目标并调度可配置的导航调用，配合双层记忆机制 — 在 EXPRESS-Bench 上提升 15.4%，导航步数减少 77%
开放环境泛化：在 Unitree Go2 四足机器人上零样本部署，仅使用单个低分辨率相机，在开放真实环境与自由自然语言指令下展现出强大的泛化能力，无需任何环境特定微调

Qwen-RobotManip 以 Qwen3.5-4B VL 为骨干、结合流匹配 DiT 动作头，通过三种机制解决这一问题。统一的 80 维状态-动作表示在单臂、双臂、灵巧手和移动平台等本体间共享。相机坐标系下的末端执行器增量位姿动作，使视觉上相似的运动在不同机器人之间数值上也相近，从而屏蔽形态差异。上下文策略自适应将执行历史视为隐式的本体标识，实现推理时在线行为校准。

一旦表征体系统一，数据壁垒随之降低。团队利用开源的 11,320 小时的机器人数据、开源的 1,933 小时第一人称人类视频，以及人-机迁移数据合成管线从人类视频合成的跨 15 个本体的 24,808 小时机器人数据（共计 >38,100 小时）训练VLA模型。仅依靠开源数据，模型即涌现出对扰动的鲁棒性、零样本指令跟随、自主错误恢复和跨本体迁移等泛化能力。

统一跨本体对齐框架 — 统一的 80 维状态-动作表示兼容多样化本体，相机坐标系末端执行器增量位姿使视觉相似运动数值相近，上下文策略自适应将执行历史作为隐式本体标识——三者共同实现跨本体一致信号提取
大规模人-机迁移数据合成 — 管线将 1,933 小时第一人称人类视频，经由动作重定向、手部去除与补绘、仿真渲染及深度辅助融合，转化为跨 15 个本体的 24,808 小时机器人演示，配合多阶段数据策划管线确保数据质量
分布外泛化： LIBERO-Plus 91.4%（超越 π0.5 +7.0），RoboTwin-Clean2Rand Hard 69.4%（超越 π0.5 +21.5），RoboCasa365 Composite-Unseen 14.9%（第二名的 3 倍），EBench 45.6%（超越第二名 +18.5）；RoboTwin-IF (自建 zero-shot instruction following测评) 72.0%（超越 π0.5 +22.4），证实了可靠的语言条件控制能力；RoboTwin-XE（自建 zero-shot cross-embodiment 测评）零样本跨本体迁移性能达到先前最优的 3 倍
真实环境表现： RoboChallenge Table30 v1 通用赛道以 45% SR 排名第一，性能较此前SOTA提升20%；在真实机器人平台上的域内与域外任务、少样本适应及跨本体技能迁移中达到先前最优的 2 倍

Qwen-RobotWorld 通过直接学习世界的状态转移函数来解决这一问题：给定当前观测和一个自然语言动作，预测世界接下来将呈现的样子。关键的设计选择是将所有动作以自然语言表达——这将末端执行器位姿、转向指令和导航路标点统一为单一接口，使 20 余种本体类型和 500 余个动作类别得以在具身世界知识语料库（860 万视频-文本对，逾 2 亿帧）下协同训练。

60 层双流 MMDiT 将 Qwen2.5-VL 的语义表示与视频隐变量深度耦合。将完整的多模态大语言模型作为动作编码器——而非轻量级文本编码器——是关键所在：它带来了内化的世界知识——手臂是刚体、液体会扩散、物体会下落——从而隐式地将生成约束为物理上可信的未来。每个领域相互强化：操作教会接触物理，驾驶教会大尺度三维几何，导航教会房间级别的空间推理。

语言驱动的统一动作接口 — 自然语言将 20 余种机器人本体和 500 余个动作类别标准化为统一的训练接口，使操作、驾驶、导航和人机迁移得以联合训练；每个领域互相强化
双流 MMDiT + Qwen2.5-VL 动作编码器 — 以完整的多模态大语言模型（而非轻量级文本编码器）作为动作编码器，将复杂的组合指令解析为精确的生成信号，并内化物理世界知识，可作为合成数据引擎、闭环策略评估器和动作规划器
榜单排名： EWMBench 总分第一（运动保真度超越亚军 33%）及 DreamGen Bench 第一；开源模型中 WorldModelBench 第一（牛顿定律、质量守恒、流体动力学等物理规律遵循完美）及 PBBench 第一
核心能力：细粒度语言控制（改变单个关键词即产生不同的未来）；跨 8 种以上本体的人机迁移，具备多视角一致生成；在 RoboTwin-IF (自建 zero-shot instruction following测评) 上的零样本鲁棒性。

三个模型各自独立可用——但由于它们都提供语言优先的接口，通用 Qwen 模型可以将它们作为物理世界工具进行组合，将通用智能直接连接到物理行动。

此外，阿里还有一个内部项目 Qwen-RobotClaw——一个机器人智能体框架，使 Qwen VLM 智能体能够将 Qwen-Robot Suite 模型作为物理世界工具调用，同时妥善管理长程任务所需的上下文与记忆，推动物理智能走向更通用、更复杂的真实应用场景。

微信关注我们

原文链接：https://www.oschina.net/news/459601

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

技术圈的极客们都去哪了？

一位自称"Mr. Market"的科技行业内部人士发表了一篇长文，标题直白得近乎愤怒："What the Fuck Happened to Nerds"（极客们都他妈怎么了）。文章试图解释一个令许多人不安的现象：为什么科技行业的公众形象，从乔布斯和沃兹尼亚克那种"迷人的怪人"，变成了如今满屏自恋狂和注意力掠食者。文章将过去四十年的科技文化史分为三个阶段。第一阶段（1970 年代末至 2007 年），创始人被媒体关注，但媒体报道的核心始终是他们创造的产品。车库照片、发布会、杂志访谈，这些神话围绕着产品而非个人建构。即便是那个时代的&q...

2026-06-16

53

P2P 网络库 iroh 正式发布了 1.0 版本。这个由 n0 团队历时四年多、跨越 65 个版本迭代打磨的 Rust 项目，提出了一个简洁到近乎激进的口号：Dial keys, not IPs（拨号用密钥，而不是 IP 地址）。在互联网基础设施层面，这个口号指向的是一次根本性的范式转换——将设备寻址的基本单位从网络层分配的 IP 地址，替换为由用户自主控制的加密密钥对。 IP 地址的问题由来已久。它们是临时租约——DHCP 会过期，设备会在 Wi-Fi 和蜂窝网络之间切换，NAT 和防火墙会让一个网络中的设备对另一个网络中的设备完全不可见。在...

2026-06-16

51

资源下载

更多资源

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。