3A 大作!阿里 ROLL 团队从基建->算法->机理,推动 RL4LLM 全栈协同优化
近期,阿里巴巴 ROLL 团队(淘天未来生活实验室与阿里巴巴智能引擎团队)联合上海交通大学、香港科技大学推出「3A」协同优化框架 ——Async 架构(Asynchronous Training)、Asymmetric PPO(AsyPPO)与 Attention 机制(Attention-based Reasoning Rhythm),「3A」彼此间并非孤立的技术堆砌,而是深度耦合,致力于共同推动「强化学习用于大语言模型(RL4LLM)」迈向高效、精细与可解释的新范式
ROLL Flash – Accelerating RLVR and Agentic Training with Asynchrony
🔗 论文链接:https://arxiv.org/abs/2510.11345
随着强化学习(RL)在数学推理、代码生成、智能体决策等任务中展现出强大潜力,RL后训练已成为提升LLM高级能力的关键环节。然而,当前大多数RL训练系统仍受限于低资源利用率与差扩展性——尤其在面对长尾响应、环境交互延迟等现实挑战时,GPU大量时间处于空闲状态,训练效率严重受限。
为解决这一瓶颈,我们推出了 ROLL Flash:一个原生支持异步RL训练的高性能系统,基于两大核心设计原则Fine-grained Parallelism 与 Rollout–Train Decoupling。通过彻底打破传统同步训练中的等待壁垒,ROLL Flash 实现了生成、环境交互、奖励计算与模型训练的全流水线高效重叠。
🎉 实验结果令人振奋:
• 在 RLVR 任务(如数学推理)中,最高提速 2.24×,在 Agentic 任务(如 ALFWorld、SWE)中,最高提速 2.72×
• 即使在百卡规模下,仍保持近线性吞吐扩展。 8倍的GPU资源可以得到7.6x的效率提升
• 引入异步比(Asynchronous Ratio)机制,在保证样本新鲜度的同时最大化资源利用率。并在证明在多数场景可以用极小的异步代价获得全量的性能提升。
• 集成多种 off-policy 算法(如 Decoupled PPO、TOPR、CISPO),验证异步训练可媲美同步训练的最终性能
🧩关键技术创新:
• Queue Scheduling:每个任务独立调度,无缝接入闲置的GPU,彻底消除批处理中的“拖后腿”效应
• Prompt Replication:将多候选生成拆分为独立任务,分散至不同 GPU 并行执行,显著缓解长尾延迟
• Environment-Level Async Rollout:在智能体与环境交互时,GPU 立即转去处理其他轨迹,避免空等
• Redundant Environment Rollout:通过冗余环境组对抗 fail-slow/fail-stop 问题,提升训练鲁棒性
🔧 实际影响:
ROLL Flash 不仅是一个系统优化工具,更是一种训练范式的升级。它让大规模 RL 训练从“等待式流水线”迈向“持续生产–消费”的高效引擎。无论你是做数学推理、代码生成,还是构建真实世界交互的 LLM 智能体,ROLL Flash 都能帮你更快、更稳、更省地训练更强模型。
Asymmetric Proximal Policy Optimization:mini-critics boost LLM reasoning
📖论文链接:https://arxiv.org/abs/2510.01656
我们重新思考了面向大语言模型(LLM)的 PPO 算法,并发现:
1.critic是策略稳定训练的天然保障。
2.要训练出更聪明的推理智能体,根本不需要一个巨型评论家,价值估计能力 ≠ 参数量大小。
3.critic还可以引导策略损失的重优化。
基于上述发现我们提出 AsyPPO以解锁轻量化PPO的优化效力,推动critic-based RL算法在LLM 后训练场景的落地:
-训练更稳定:鲁棒的state-wise价值估计天然可以纠正优势计算偏差导致的训练崩溃,确保训练阶段的渐进收益
-轻量化部署:可减少一个标准节点的高性能服务器,单步训练速度可提升缩短20秒。
💡创新点 1 (多样化的微型评论家聚合):引入非重叠的提示级数据划分。仅需两个评论家即可实现可靠的偏差校正,且计算开销最小。
💡创新点 2(不确定性感知的策略损失重构):我们发现评论家之间的统一性和分歧性重构策略损失从而进一步提升策略的学习效率和有效探索:🔹 当评论家意见一致时:屏蔽优势值 → 避免对噪声样本过拟合🔹 当评论家意见分歧时:将这些状态从熵正则项中剔除 → 防止无意义的噪声探索。
Attention Illuminates LLM Reasoning: The Preplan-and-Anchor Rhythm Enables Fine-Grained Policy Optimization
📖论文链接:https://huggingface.co/papers/2510.13554
🔥核心内容概括:
🔹 重新定义Attention的角色:Attention不仅是语言模型计算的副产品,更是揭示推理内在逻辑的结构化蓝图。通过分析注意力模式,我们能更清晰捕捉模型在信息整合、序列生成中的“思维轨迹”,为很大程度仍是黑盒的推理过程提供可解释的框架,帮助更透明解读模型的每一步决策。
🔹 RL算法革新:通过精准对齐优化目标与模型内生的推理节奏,我们将传统的序列级奖励在token级别的均匀分配转化为具备推理结构感知的动态奖励分配。此机制动态识别并强化关键推理步骤,推动大模型优化进入更透明、更精细、更高效的优化范式。
🧠 注意力揭示的关键推理模式
🔹局部语块化:局部注意力呈现出典型的近对角线锯齿状分布,反映出模型以“语块”为单元进行密集的内部构建。在语块交界处,模型执行长程上下文检索(通常伴随较高的token entropy),而后续生成往往受此引导。
🔹全局锚点规划:全局注意力标识出稀疏但关键的核心锚点词元,这些锚点对其后文具有广泛的全局影响力,频繁被后续token回溯参考。实验表明,扰动这些锚点会显著改变后续推理路径。
🔹预规划-锚定耦合机制:局部前瞻信号与全局锚点信号之间存在稳定的时序耦合,共同构成反复出现的推理节律:模型首先生成一个引导性Token作为“预规划”,随后锚定一个核心语义节点,从而系统性地组织后续推理流程。
⚙️ RL算法革新:从均匀奖励到结构感知的信用分配
传统的sequence-level奖励在token粒度上均匀分配,忽略了推理结构中的关键节点。我们提出基于注意力节律的信用动态再分配机制,将优化过程与模型内生的推理结构对齐,具体实现三种策略:
🔹 预规划引导策略:强化引导局部语块构建的Token,提升长程上下文参考能力;
🔹 锚点增强策略:重点优化具有全局影响力的语义锚点,增强推理的规划性;
🔹 耦合对齐策略:加强预规划与锚点在时序上的协同,促进推理流程的结构化。
未来团队将继续深耕 RL for LLM 的系统与算法协同创新,打造易用、高效、可扩展的开源生态,为社区提供坚实基础设施。请Star、试用、贡献代码,一起推动 LLM 强化学习走向实用化与规模化!🌟