阿里通义开源超长上下文与记忆管理模型 QwenLong-L1.5
阿里巴巴通义Qwen团队发布了最新的开源 QwenLong-L1.5 模型 ,主打超长上下文推理和记忆管理能力,构建于 Qwen3-30B-A3B-Thinking 模型之上,并增强记忆机制以处理超出其物理上下文窗口(256K)的任务。
QwenLong-L1.5三项核心创新:
1. 数据合成管线:开发了新的合成流程,专注于创建需要多跳溯源和全局分布式证据推理的挑战性任务,而非简单的“大海捞针”任务。
2. 强化学习策略:引入了任务平衡采样(Task-balanced sampling)和自适应熵控策略优化(AEPO)等 RL 策略,以稳定长上下文训练。
3. 记忆管理框架:透过多阶段融合强化学习,在单次推理256 K 上下文窗口外,结合记忆更新机制处理更长任务在领先的长上下文基准测试中,QwenLong-L1.5 比其基线模型 Qwen3-30B-A3B-Thinking 平均高出 9.9 分,性能可与 GPT-5 和 Gemini-2.5-Pro 等顶级模型媲美。
开源地址:https://github.com/Tongyi-Zhiwen/Qwen-Doc/tree/main/QwenLong-L1.5
