阿里通义提出 SAPO:一种稳定且高性能的 LLM 强化学习方法
阿里通义 Qwen 团队提出了名为 Soft Adaptive Policy Optimization(SAPO)的新型强化学习方法,旨在解决大语言模型强化学习中策略优化的不稳定问题。
https://arxiv.org/abs/2511.20347
据介绍,现有方法如 GRPO(token-level clipping)和 GSPO(sequence-level clipping)采用硬剪切(hard clipping):当重要性比率超出范围时,梯度直接被截断。尽管能避免灾难性更新,但有两个固有缺点:
- 学习信号丢失:被剪切区间外的所有梯度全部丢弃。对于 GSPO,只要有少数 token 异常,可能导致整个序列的梯度都被抛弃。
- 难以取得较好平衡:剪切范围太窄 → 大量样本没有梯度;太宽 → off‑policy 梯度噪声破坏稳定性。这在 MoE 模型里尤为明显。
因此,GRPO 和 GSPO 常常难以兼顾稳定性、样本效率和收敛效果。为解决这些问题,Qwen 团队提出Soft Adaptive Policy Optimization(SAPO),一种稳定且性能更优的大语言模型强化学习方法。SAPO 使用平滑、温度控制的门控函数替代硬剪切,在保持稳定性的同时保留更多有效梯度。其特点包括:
- 连续信任域(无硬剪切不连续性)
- 序列级一致性(类似 GSPO,但不丢弃整段序列)
- token 级自适应性(弱化异常 token)
- 非对称温度设计(正负 tokens 差异化处理)
这些设计让 SAPO 能够达到稳定且有效的学习。
SAPO 在不同规模的 dense 和 MoE 模型上均有提升。为了进行比较,团队在数学、编码、逻辑和多模态任务的混合上训练 Qwen3-VL-30B-A3B 的一个 checkpoint。评估基准包括:
- AIME25(数学推理)
- LiveCodeBench v6 (代码生成)
- ZebraLogic(逻辑推理)
- MathVision(多模态数学推理)
结果:SAPO 在相同算力预算下优于 GSPO / GRPO‑R2。
详细介绍查看:https://qwen.ai/blog?id=sapo

