阿里通义提出 SAPO:一种稳定且高性能的 LLM 强化学习方法
阿里通义 Qwen 团队提出了名为 Soft Adaptive Policy Optimization(SAPO)的新型强化学习方法,旨在解决大语言模型强化学习中策略优化的不稳定问题。 https://arxiv.org/abs/2511.20347 据介绍,现有方法如 GRPO(token-level clipping)和 GSPO(sequence-level clipping)采用硬剪切(hard clipping):当重要性比率超出范围时,梯度直接被截断。尽管能避免灾难性更新,但有两个固有缺点: 学习信号丢失:被剪切区间外的所有梯度全部丢弃。对于 GSPO,只要有少数 token 异常,可能导致整个序列的梯度都被抛弃。 难以取得较好平衡:剪切范围太窄 → 大量样本没有梯度;太宽 → off‑policy 梯度噪声破坏稳定性。这在 MoE 模型里尤为明显。 因此,GRPO 和 GSPO 常常难以兼顾稳定性、样本效率和收敛效果。为解决这些问题,Qwen 团队提出Soft Adaptive Policy Optimization(SAPO),一种稳定且性能更优的大语言模型强化学习方法...

