清华联手上海 AI Lab 发布开源 SimpleVLA-RL 框架-低调大师

清华联手上海 AI Lab 发布开源 SimpleVLA-RL 框架

2025-09-16 101

清华联手上海AI Lab组建的PRIME-RL团队发布SimpleVLA-RL，这是一个基于强化学习扩展Vision-Language-Action模型训练的轻量框架。

项目受DeepSeek-R1启发，仅用0/1规则奖励即可在仿真环境中完成在线RL，显著提升长时规划能力并超越监督微调基线。该框架利用强化学习扩展视觉-语言-动作模型的训练，有效提升了模型的长时规划能力。

据介绍，SimpleVLA-RL是一个专为VLA模型设计的高效RL框架，基于veRL（Volcano Engine Reinforcement Learning for LLMs）构建。veRL是一个通用的LLM RL框架，通过实现VLA特定的交互式轨迹采样和损失计算，支持端到端的在线基于规则的RL。

为了进一步支持VLA模型的可扩展RL，本方法扩展了veRL，实现了并行多环境渲染以加速采样，并将其适配为一个集成的训练-推理-渲染框架。

开源地址：https://github.com/PRIME-RL/SimpleVLA-RL

微信关注我们

原文链接：https://www.oschina.net/news/372593

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

阿里上榜全球创新人才最佳雇主：AI 原生应用 Accio 备受关注

全球知名商业媒体《快公司》发布2025年度“创新人才最佳雇主”榜单，阿里巴巴成排名最高的中国科技公司。《快公司》“创新人才最佳雇主”榜旨在表彰重视员工创新并为团队创造前瞻性工作环境的企业。《快公司》称，阿里此次上榜缘于对AI原生应用Accio的创新探索。据悉，Accio是全球首个贸易领域的AI原生应用，由出海平台阿里国际站推出，能帮中小企业自动化地完成全球采购流程，被称为“第一个会做生意的AI Agent”。上线9个月来，Accio的海外企业用户数快速突破200万，创新性的体验深受中小企业欢迎。

2025-09-16

77

TinyLisp 是用 99 行 C 代码实现的完整 Lisp 解释器，包含了 21 个内置函数、垃圾回收机制和 REPL 交互环境，甚至还能在1980年代的掌上电脑上运行，只需一行命令即可编译运行。主要特性支持函数式编程、闭包、宏等高级特性内置简单垃圾回收机制和 REPL 环境配有详细技术文章解释实现原理多个优化版本适应不同性能需求能在 Sharp PC-G850 等古董设备上运行

2025-09-16

94

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。