阿里通义发布下一代基础模型架构 Qwen3-Next
阿里通义Qwen团队发布了下一代基础模型架构Qwen3-Next,并开源了基于该架构的Qwen3-Next-80B-A3B系列模型。
据介绍,该结构相比Qwen3的MoE模型结构,进行了以下核心改进:
- 混合注意力机制
- 高稀疏度MoE结构
- 一系列训练稳定友好的优化
- 以及提升推理效率的多token预测机制
Qwen3-Next被称为其下一代(Qwen3.5)模型的预览,旨在提升大模型在长上下文和大规模总参数下的训练与推理效率。该架构被认为是未来大模型发展的两大趋势——上下文长度扩展(Context Length Scaling)和总参数扩展(Total Parameter Scaling)的体现。
“Gated DeltaNet + Gated Attention”的模型架构:
Qwen3-Next-80B-A3B-Base模型拥有800亿参数,激活参数仅30亿,实现了与Qwen3-32B dense模型相近甚至略好的性能,而训练成本仅为Qwen3-32B的十分之一不到。
快速体验:https://chat.qwen.ai
GitHub:https://github.com/QwenLM/Qwen3-Next
HuggingFace:https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d
ModelScope 魔搭:https://modelscope.cn/collections/Qwen3-9743180bdc6b48
阿里云百炼:https://bailian.console.aliyun.com 搜索Qwen3-Next



