清华联手上海 AI Lab 发布开源 SimpleVLA-RL 框架
清华联手上海AI Lab组建的PRIME-RL团队发布SimpleVLA-RL,这是一个基于强化学习扩展Vision-Language-Action模型训练的轻量框架。
项目受DeepSeek-R1启发,仅用0/1规则奖励即可在仿真环境中完成在线RL,显著提升长时规划能力并超越监督微调基线。该框架利用强化学习扩展视觉-语言-动作模型的训练,有效提升了模型的长时规划能力。
据介绍,SimpleVLA-RL是一个专为VLA模型设计的高效RL框架,基于veRL(Volcano Engine Reinforcement Learning for LLMs)构建。veRL是一个通用的LLM RL框架,通过实现VLA特定的交互式轨迹采样和损失计算,支持端到端的在线基于规则的RL。
为了进一步支持VLA模型的可扩展RL,本方法扩展了veRL,实现了并行多环境渲染以加速采样,并将其适配为一个集成的训练-推理-渲染框架。
开源地址:https://github.com/PRIME-RL/SimpleVLA-RL
