清华联手上海 AI Lab 发布开源 SimpleVLA-RL 框架
清华联手上海AI Lab组建的PRIME-RL团队发布SimpleVLA-RL,这是一个基于强化学习扩展Vision-Language-Action模型训练的轻量框架。
项目受DeepSeek-R1启发,仅用0/1规则奖励即可在仿真环境中完成在线RL,显著提升长时规划能力并超越监督微调基线。该框架利用强化学习扩展视觉-语言-动作模型的训练,有效提升了模型的长时规划能力。
据介绍,SimpleVLA-RL是一个专为VLA模型设计的高效RL框架,基于veRL(Volcano Engine Reinforcement Learning for LLMs)构建。veRL是一个通用的LLM RL框架,通过实现VLA特定的交互式轨迹采样和损失计算,支持端到端的在线基于规则的RL。
为了进一步支持VLA模型的可扩展RL,本方法扩展了veRL,实现了并行多环境渲染以加速采样,并将其适配为一个集成的训练-推理-渲染框架。
开源地址:https://github.com/PRIME-RL/SimpleVLA-RL

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
阿里上榜全球创新人才最佳雇主:AI 原生应用 Accio 备受关注
全球知名商业媒体《快公司》发布2025年度“创新人才最佳雇主”榜单,阿里巴巴成排名最高的中国科技公司。 《快公司》“创新人才最佳雇主”榜旨在表彰重视员工创新并为团队创造前瞻性工作环境的企业。《快公司》称,阿里此次上榜缘于对AI原生应用Accio的创新探索。 据悉,Accio是全球首个贸易领域的AI原生应用,由出海平台阿里国际站推出,能帮中小企业自动化地完成全球采购流程,被称为“第一个会做生意的AI Agent”。上线9个月来,Accio的海外企业用户数快速突破200万,创新性的体验深受中小企业欢迎。
-
下一篇
TinyLisp — 99 行 C 代码实现的完整 Lisp 解释器
TinyLisp 是用 99 行 C 代码实现的完整 Lisp 解释器,包含了 21 个内置函数、垃圾回收机制和 REPL 交互环境,甚至还能在1980年代的掌上电脑上运行,只需一行命令即可编译运行。 主要特性 支持函数式编程、闭包、宏等高级特性 内置简单垃圾回收机制和 REPL 环境 配有详细技术文章解释实现原理 多个优化版本适应不同性能需求 能在 Sharp PC-G850 等古董设备上运行
相关文章
文章评论
共有0条评论来说两句吧...