3A 大作！阿里 ROLL 团队从基建->算法->机理，推动 RL4LLM 全栈协同优化-低调大师

3A 大作！阿里 ROLL 团队从基建->算法->机理，推动 RL4LLM 全栈协同优化

2025-12-11 26

近期，阿里巴巴 ROLL 团队（淘天未来生活实验室与阿里巴巴智能引擎团队）联合上海交通大学、香港科技大学推出「3A」协同优化框架 ——Async 架构（Asynchronous Training）、Asymmetric PPO（AsyPPO）与 Attention 机制（Attention-based Reasoning Rhythm），「3A」彼此间并非孤立的技术堆砌，而是深度耦合，致力于共同推动「强化学习用于大语言模型（RL4LLM）」迈向高效、精细与可解释的新范式

ROLL Flash – Accelerating RLVR and Agentic Training with Asynchrony

🔗 论文链接：https://arxiv.org/abs/2510.11345

随着强化学习（RL）在数学推理、代码生成、智能体决策等任务中展现出强大潜力，RL后训练已成为提升LLM高级能力的关键环节。然而，当前大多数RL训练系统仍受限于低资源利用率与差扩展性——尤其在面对长尾响应、环境交互延迟等现实挑战时，GPU大量时间处于空闲状态，训练效率严重受限。

为解决这一瓶颈，我们推出了 ROLL Flash：一个原生支持异步RL训练的高性能系统，基于两大核心设计原则Fine-grained Parallelism 与 Rollout–Train Decoupling。通过彻底打破传统同步训练中的等待壁垒，ROLL Flash 实现了生成、环境交互、奖励计算与模型训练的全流水线高效重叠。

🎉 实验结果令人振奋：

• 在 RLVR 任务（如数学推理）中，最高提速 2.24×，在 Agentic 任务（如 ALFWorld、SWE）中，最高提速 2.72×

• 即使在百卡规模下，仍保持近线性吞吐扩展。 8倍的GPU资源可以得到7.6x的效率提升

• 引入异步比（Asynchronous Ratio）机制，在保证样本新鲜度的同时最大化资源利用率。并在证明在多数场景可以用极小的异步代价获得全量的性能提升。

• 集成多种 off-policy 算法（如 Decoupled PPO、TOPR、CISPO），验证异步训练可媲美同步训练的最终性能

🧩关键技术创新：

• Queue Scheduling：每个任务独立调度，无缝接入闲置的GPU，彻底消除批处理中的“拖后腿”效应

• Prompt Replication：将多候选生成拆分为独立任务，分散至不同 GPU 并行执行，显著缓解长尾延迟

• Environment-Level Async Rollout：在智能体与环境交互时，GPU 立即转去处理其他轨迹，避免空等

• Redundant Environment Rollout：通过冗余环境组对抗 fail-slow/fail-stop 问题，提升训练鲁棒性

🔧 实际影响：

ROLL Flash 不仅是一个系统优化工具，更是一种训练范式的升级。它让大规模 RL 训练从“等待式流水线”迈向“持续生产–消费”的高效引擎。无论你是做数学推理、代码生成，还是构建真实世界交互的 LLM 智能体，ROLL Flash 都能帮你更快、更稳、更省地训练更强模型。

Asymmetric Proximal Policy Optimization：mini-critics boost LLM reasoning

📖论文链接：https://arxiv.org/abs/2510.01656

我们重新思考了面向大语言模型（LLM）的 PPO 算法，并发现：

1.critic是策略稳定训练的天然保障。

2.要训练出更聪明的推理智能体，根本不需要一个巨型评论家，价值估计能力 ≠ 参数量大小。

3.critic还可以引导策略损失的重优化。

基于上述发现我们提出 AsyPPO以解锁轻量化PPO的优化效力，推动critic-based RL算法在LLM 后训练场景的落地：

-训练更稳定：鲁棒的state-wise价值估计天然可以纠正优势计算偏差导致的训练崩溃，确保训练阶段的渐进收益

-轻量化部署：可减少一个标准节点的高性能服务器，单步训练速度可提升缩短20秒。

💡创新点 1 (多样化的微型评论家聚合)：引入非重叠的提示级数据划分。仅需两个评论家即可实现可靠的偏差校正，且计算开销最小。

💡创新点 2(不确定性感知的策略损失重构)：我们发现评论家之间的统一性和分歧性重构策略损失从而进一步提升策略的学习效率和有效探索：🔹 当评论家意见一致时：屏蔽优势值 → 避免对噪声样本过拟合🔹 当评论家意见分歧时：将这些状态从熵正则项中剔除 → 防止无意义的噪声探索。

Attention Illuminates LLM Reasoning: The Preplan-and-Anchor Rhythm Enables Fine-Grained Policy Optimization

📖论文链接：https://huggingface.co/papers/2510.13554

🔥核心内容概括：

🔹 重新定义Attention的角色：Attention不仅是语言模型计算的副产品，更是揭示推理内在逻辑的结构化蓝图。通过分析注意力模式，我们能更清晰捕捉模型在信息整合、序列生成中的“思维轨迹”，为很大程度仍是黑盒的推理过程提供可解释的框架，帮助更透明解读模型的每一步决策。

🔹 RL算法革新：通过精准对齐优化目标与模型内生的推理节奏，我们将传统的序列级奖励在token级别的均匀分配转化为具备推理结构感知的动态奖励分配。此机制动态识别并强化关键推理步骤，推动大模型优化进入更透明、更精细、更高效的优化范式。

🧠 注意力揭示的关键推理模式

🔹局部语块化：局部注意力呈现出典型的近对角线锯齿状分布，反映出模型以“语块”为单元进行密集的内部构建。在语块交界处，模型执行长程上下文检索（通常伴随较高的token entropy），而后续生成往往受此引导。

🔹全局锚点规划：全局注意力标识出稀疏但关键的核心锚点词元，这些锚点对其后文具有广泛的全局影响力，频繁被后续token回溯参考。实验表明，扰动这些锚点会显著改变后续推理路径。

🔹预规划-锚定耦合机制：局部前瞻信号与全局锚点信号之间存在稳定的时序耦合，共同构成反复出现的推理节律：模型首先生成一个引导性Token作为“预规划”，随后锚定一个核心语义节点，从而系统性地组织后续推理流程。

⚙️ RL算法革新：从均匀奖励到结构感知的信用分配

传统的sequence-level奖励在token粒度上均匀分配，忽略了推理结构中的关键节点。我们提出基于注意力节律的信用动态再分配机制，将优化过程与模型内生的推理结构对齐，具体实现三种策略：

🔹 预规划引导策略：强化引导局部语块构建的Token，提升长程上下文参考能力；

🔹 锚点增强策略：重点优化具有全局影响力的语义锚点，增强推理的规划性；

🔹 耦合对齐策略：加强预规划与锚点在时序上的协同，促进推理流程的结构化。

未来团队将继续深耕 RL for LLM 的系统与算法协同创新，打造易用、高效、可扩展的开源生态，为社区提供坚实基础设施。请Star、试用、贡献代码，一起推动 LLM 强化学习走向实用化与规模化！🌟

项目地址：https://github.com/alibaba/ROLL

微信关注我们

原文链接：https://www.oschina.net/news/389184

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

OpenTeleDB 数据库线上征文活动仍在火热进行中！

2025年11月，天翼云 OpenTeleDB 正式开源，为如今数据库在高并发场景下的性能瓶颈、复杂运维带来的效率损耗，提供了全新的破局思路—— 原生兼容主流数据库协议，降低迁移门槛极致的性能优化突破高并发瓶颈轻量化运维设计大幅降低人力成本... 此前，开源中国发起的《从初识到实战 | OpenTeleDB 数据库线上征文》活动一经启动，收到了来自于很多一线数据库运维人员的热烈投稿，通过本地部署、实战心得、技术调优等方式，呈现出 OpenTeleDB 在不同环境、业务场景下的选型思考与能力描述。为承接更多数据库开发者对于 OpenTeleDB 的体验热情，本次活动将延长投稿时间，挖掘更多优秀稿件，希望看到更多真实下载、部署后的使用心得，一同探索 OpenTeleDB 的创新之道。以下为 OpenTeleDB 的相关链接： OpenTeleDB 数据库开源社区：https://openteledb.ctyun.cn/open/index OpenTeleDB 代码仓：https://gitee.com/teledb/openteledb 征文主题：「从初识到实战 | OpenT...

2025-12-11

20

比尔·盖茨近日在接受CNBC采访时指出，当前估值过高的一些人工智能公司很可能在未来的“超级竞争”中面临失败，并提醒投资者注意可能出现的行业泡沫。他表示：“人工智能无疑是当前最重要的事物，但这并不意味着所有高估值公司都能胜出。竞争将异常激烈。” 比尔·盖茨进一步解释道，“当前AI领域确实存在估值泡沫，部分公司的估值难以持续，未来会出现回调。然而，人工智能作为一项深刻重塑世界的技术，其长远影响力毋庸置疑。” 目前，不少人工智能企业的估值已显著高于行业常规水平。例如，Palantir与特斯拉的市盈率均超过200倍，而标普500指数成分股的平均市盈率仅为25倍左右。随着市场对泡沫破裂的担忧情绪上升，11月全球股市普遍出现回落。盖茨对此评论称：“其中相当一部分公司的估值并不合理。” 尽管如此，盖茨依然坚信人工智能将从根本上推动社会进步。他强调：“这项技术是否具有深远而真实的影响力？它能否为医疗、教育、农业等领域带来实质性的改善？答案毫无疑问是肯定的，这一点毋庸置疑。”

2025-12-11

45

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。