智元发布 SOP:面向真实世界部署的在线后训练系统
智元具身研究中心提出 SOP(Scalable Online Post-training)——一套面向真实世界部署的在线后训练系统。这是业界首次在物理世界的 VLA 后训练中,系统性地融合在线学习、分布式架构与多任务通才性,使机器人集群能够在真实环境中持续进化,让个体经验在群体中高效复用,从而将“规模”转化为“智能”。 根据介绍,SOP 的核心目标,是让机器人在真实世界中实现分布式、持续的在线学习。项目团队将 VLA 后训练从“离线、单机、顺序”重构为“在线、集群、并行”,形成一个低延迟的闭环系统:多机器人并行执行 → 云端集中在线更新 → 模型参数即时回流 SOP 采用 Actor–Learner 异步架构: Actor(机器人侧)并行经验采集多台部署了同一policy模型的机器人(actors)在不同地点同时执行多样任务,持续采集成功、失败以及人类接管产生的交互数据。每台机器人的经验数据被汇总传输至云端 Experience Buffer中。 Learner(云端)在线学习所有交互轨迹实时上传至云端 learner,形成由在线数据与离线专家示教数据组成的数据池。系统通过动态重采样策...
