智元发布 SOP：面向真实世界部署的在线后训练系统-低调大师

智元发布 SOP：面向真实世界部署的在线后训练系统

2026-01-06 47

智元具身研究中心提出 SOP（Scalable Online Post-training）——一套面向真实世界部署的在线后训练系统。这是业界首次在物理世界的 VLA 后训练中，系统性地融合在线学习、分布式架构与多任务通才性，使机器人集群能够在真实环境中持续进化，让个体经验在群体中高效复用，从而将“规模”转化为“智能”。

根据介绍，SOP 的核心目标，是让机器人在真实世界中实现分布式、持续的在线学习。项目团队将 VLA 后训练从“离线、单机、顺序”重构为“在线、集群、并行”，形成一个低延迟的闭环系统：多机器人并行执行 → 云端集中在线更新 → 模型参数即时回流

SOP 采用 Actor–Learner 异步架构：

Actor（机器人侧）并行经验采集 多台部署了同一policy模型的机器人（actors）在不同地点同时执行多样任务，持续采集成功、失败以及人类接管产生的交互数据。每台机器人的经验数据被汇总传输至云端 Experience Buffer中。
Learner（云端）在线学习 所有交互轨迹实时上传至云端 learner，形成由在线数据与离线专家示教数据组成的数据池。系统通过动态重采样策略，根据不同任务的性能表现，自适应调整在线/离线数据比例，以更高效地利用真实世界经验。
即时参数同步 更新后的模型参数在分钟级别内同步回所有机器人，实现集群一致进化，维持在线训练的稳定性。

SOP本身是一套通用的框架，可以即插即用的使用任意后训练算法，让VLA从在线经验数据中获益。项目团队选取 HG-DAgger（交互式模仿学习）与 RECAP（离线强化学习）作为代表性算法，将其接入 SOP 框架以进化为分布式在线训练。

关键优势

高效状态空间探索 分布式多机器人并行探索，显著提升状态–动作覆盖率，避免单机在线学习的局限。
缓解分布偏移 所有机器人始终基于低延迟的最新策略进行推理采集，提升在线训练的稳定性与一致性。
在提升性能的同时保留泛化能力 传统的单机在线训练往往会使模型退化为只擅长单一任务的“专家”， SOP 通过空间上的并行而非时间上的串行，在提升任务性能的同时保留 VLA 的通用能力，避免退化为单任务专家。

实验结果表明，在各类测试场景下，结合SOP的后训练方法均得到了显著的性能提升。相比预训练模型，结合SOP的HG-Dagger方法在物品繁杂的商超场景中实现了33% 的综合性能提升。对于灵巧操作任务（叠衣服和纸盒装配），SOP 的引入不仅提升了任务的成功率，结合在线经验学习到的错误恢复能力还能明显提升策略操作的吞吐量。

结合SOP的HG-Dagger方法让叠衣服的相比HG-Dagger吞吐量跃升114%。SOP让多任务通才的性能普遍提升至近乎完美，不同任务的成功率均提升至94%以上，纸盒装配更是达到98%的成功率。

在相同的总训练时间下，更多数量的机器人带来了更高的性能表现。在总训练时间为3小时的限制下，四机进行学习的最终成功率达到了92.5%，比单机高出12%。多机采集可以有效阻止模型过拟合到单机的特定特征上。同时，SOP 还将硬件的扩展转化为了学习时长的大幅缩短，四机器人集群相比单机能够将模型达到目标性能的训练速度增至2.4倍。

最后还探究了 SOP 和预训练数据之间的关系。把总量为160小时的多任务预训练数据分为了三组：20小时，80小时和160小时，分别训练一组初始模型后再进行 SOP。发现，预训练的规模决定了基座模型和后训练提升的轨迹。SOP 能为所有初始模型带来稳定的提升，且最终性能与VLA预训练质量正相关。

同时，对比80小时和160小时实验效果，也可以明显注意到，在解决特定失败情况时，在轨策略经验带来了非常显著的边际效果。SOP 在三小时的在轨经验下就获得了约30%的性能提升，而80小时额外人类专家数据只带来了4%的提升。这说明在预训练出现边际效应递减的情况下，SOP 能够高效突破VLA性能瓶颈。

微信关注我们

原文链接：https://www.oschina.net/news/394538

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

波士顿动力正式发布 Atlas 人形机器人量产版

在 2026 年国际消费电子展上，波士顿动力公司正式宣布，其标志性的 Atlas 人形机器人已进入量产阶段，并将在 2026 年首批交付给其控股股东现代汽车和新的 AI 合作伙伴谷歌 DeepMind。波士顿动力表示，量产工作已在其美国波士顿总部启动，2026 年的产能已全部被预订。未来几个月内，首批 Atlas 机器人将发往现代汽车的机器人应用中心和谷歌 DeepMind。 Atlas 为一款企业级人形机器人，身高 1.9 米，臂展可达 2.3 米，具备 56 个自由度，能够搬运最多 50 公斤的重物，可用于执行从物料搬运到订单履行的多种工业任务，并能自主导航至充电站更换电池，实现近乎不间断的工作。根据 Google DeepMind 机器人高级总监 Carolina Parada 的介绍，双方合作的核心是将 Google DeepMind 的 AI 基础模型与 Boston Dynamics 的新一代 Atlas 机器人深度整合，探索构建“全球最先进的机器人基础模型”，从而满足通用型人形机器人在现实应用中的人类需求。 Parada 在发布会上表示，团队希望通过尖端的多模态生成式...

2026-01-06

44

OpenAI研究副总裁Jerry Tworek在社交平台宣布已离职，结束其在该公司近七年的任职，理由为“探索OpenAI难以开展的研究类型”。 Jerry Tworek是OpenAI核心技术元老，主导了GPT-4、Codex（首个AI编程模型）、推理模型O1/O3等关键项目，被誉为“推理模型之父”，对AI编程和复杂逻辑推理能力的发展有奠基性贡献。他在内部备忘录及社交平台公开表示，离职是为尝试OpenAI当前环境难以支持的研究方向，虽未具体说明，但被解读为暗指公司战略转向商业化与产品化，与研究理念存在分歧。大家好，我做出了一个艰难的决定：离开 OpenAI。我在这里度过了近七年的时光，经历了很多美好和疯狂的时刻，但更多的是美好。我非常热爱与这个团队共处的时光。我有幸在机器人强化学习（RL）还没流行起来之前就致力于它的扩展工作；训练了世界上最早的代码模型，从而开启了 LLM（大语言模型）的代码革命；发现了 Chinchilla 扩展定律（在那被命名为 Chinchilla 之前）；参与了 GPT-4 和 ChatGPT 的研发；而最近，我组建了一个团队，确立了扩展训练和推理算力（in...

2026-01-06

52

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。