您现在的位置是:首页 > 文章详情

阿里通义发布下一代基础模型架构 Qwen3-Next

日期:2025-09-12点击:2

阿里通义Qwen团队发布了下一代基础模型架构Qwen3-Next,并开源了基于该架构的Qwen3-Next-80B-A3B系列模型。

据介绍,该结构相比Qwen3的MoE模型结构,进行了以下核心改进:

  • 混合注意力机制
  • 高稀疏度MoE结构
  • 一系列训练稳定友好的优化
  • 以及提升推理效率的多token预测机制

Qwen3-Next被称为其下一代(Qwen3.5)模型的预览,旨在提升大模型在长上下文和大规模总参数下的训练与推理效率。该架构被认为是未来大模型发展的两大趋势——上下文长度扩展(Context Length Scaling)和总参数扩展(Total Parameter Scaling)的体现。

“Gated DeltaNet + Gated Attention”的模型架构:

Qwen3-Next-80B-A3B-Base模型拥有800亿参数,激活参数仅30亿,实现了与Qwen3-32B dense模型相近甚至略好的性能,而训练成本仅为Qwen3-32B的十分之一不到。

快速体验:https://chat.qwen.ai
GitHub:https://github.com/QwenLM/Qwen3-Next
HuggingFace:https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d
ModelScope 魔搭:https://modelscope.cn/collections/Qwen3-9743180bdc6b48
阿里云百炼:https://bailian.console.aliyun.com 搜索Qwen3-Next

原文链接:https://www.oschina.net/news/371713
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章