阿里发布 Qwen3 模型:思考与速度兼具的开源新标杆
阿里巴巴旗下通义千问团队于2025年4月29日正式发布了最新一代大语言模型Qwen3系列,标志着开源人工智能领域的又一重大突破。此次发布包括多款模型,从0.6B参数的轻量级版本到235B总参数的旗舰MoE模型不等,全部采用Apache 2.0许可证开源。
核心亮点
Qwen3系列最大的创新在于引入「思考模式」与「非思考模式」的混合设计。在思考模式下,模型会进行深入的逐步推理;而非思考模式则提供快速响应。这种设计允许用户根据实际需求灵活调整「思考预算」,在复杂任务上投入更多计算资源,简单任务则快速完成。
旗舰模型Qwen3-235B-A22B拥有2350亿总参数,但仅激活约220亿参数,在代码、数学和通用能力上与DeepSeek-R1、OpenAI的o1、o3-mini、Grok-3和Gemini-2.5-Pro等顶级模型相比表现极具竞争力。
更令人惊讶的是体量更小的Qwen3-30B-A3B模型,它仅激活30亿参数(是QwQ-32B的10%),却能提供更强的性能。甚至4B参数的小模型也能匹敌此前Qwen2.5-72B-Instruct的表现水平。
技术特色
Qwen3模型支持119种语言和方言,预训练数据量达到约36万亿个token,几乎是Qwen2.5的两倍。训练过程分为三个阶段,包括基础预训练、知识密集型数据强化和长上下文扩展。
在后训练阶段,模型经历了四个关键步骤:长思维链冷启动、长思维链强化学习、思维模式融合以及通用强化学习,这使得最终模型能够同时具备深度推理和快速响应的能力。
社区反响
Hacker News社区对这一发布反响热烈。用户们普遍认为这是开源模型领域的一次重大突破,尤其对Qwen团队在发布前就与各大框架和社区协作的态度表示赞赏。
一位用户评论:「他们提前数周就为qwen3支持修补了所有主要的LLM框架,如llama.cpp、transformers、vllm、sglang、ollama等,并在同一时间在各平台上发布模型权重。就像一次全球电影首映。不能低估这种细节和努力水平。」
Qwen3-30B-A3B模型因其平衡的性能和资源消耗比受到特别关注,被认为可能是本地部署代码助手的理想选择。有用户评论:「到目前为止,我发现开源权重模型要么不如专有对手那么好,要么在本地运行太慢。这(Qwen 3)看起来是一个很好的平衡。」
与竞争对手的比较
此次发布时机引人注目,恰好发生在Meta的LlamaCon大会前夕,多位用户将Qwen3与即将发布的Llama系列新模型进行了比较,认为阿里的这次发布展示了更成熟的开源策略。
有用户指出:「这比Llama 4更令人信服!」另一位评论:「这是LlamaCon周最大的公告!」
还有用户分享了性能体验:「在聊天中尝试了一个小型编码任务,大模型(235B)产生了相当令人印象深刻的答案。它甚至不需要『使用堆』这样的提示,自己就能理解问题所需的算法。」
技术部署与实用性
Qwen3系列模型已在Hugging Face、ModelScope和Kaggle等平台开放使用。官方推荐使用SGLang和vLLM进行部署,而本地使用则可选择Ollama、LMStudio、MLX、llama.cpp和KTransformers等工具。
一个值得注意的特点是,Qwen3内置对MCP(机器控制协议)的支持,这是开源模型过去普遍欠缺的Agent能力,使其能更好地与环境交互和使用工具。
预训练创新
Qwen团队采用了创新的方法扩充训练数据。他们不仅从网络收集数据,还利用Qwen2.5-VL从PDF文档中提取文本,并用Qwen2.5提升内容质量。此外,他们还使用Qwen2.5-Math和Qwen2.5-Coder这两个专家模型合成了大量数学和代码领域的数据,包括教科书、问答对和代码片段等。
行业意义
Qwen3的发布代表着开源AI领域的一次质的飞跃。模型设计上融合了思考与速度的平衡,在技术能力上达到了与封闭商业模型竞争的水平,而开源许可则确保了研究者和开发者能自由使用和改进这些模型。
Hacker News用户总结道:「我们真的正接近这样一个点:本地模型已足够强大,能处理大多数人需要完成的几乎所有任务。」
Qwen3系列的成功发布,不仅展示了阿里巴巴在AI领域的技术实力,也为全球AI开源社区注入了新的活力,可能会加速开源模型在更多应用场景中的部署与创新。如官方所言,Qwen3将「思深,行速」的理念带入了AI实践,为下一代人工智能的发展指明了方向。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
广告服务商已尝试在 AI 回复中植入广告
早在1999年,Google就被誉为“纯粹的搜索引擎”,承诺提供简洁、无广告的体验,没有“门户垃圾”,这与当时那些杂乱无章的搜索网站截然不同(见下图)。 这项服务最初诞生于斯坦福大学,名为BackRub,由拉里·佩奇和谢尔盖·布林创立,最初他们回避广告,认为广告可能存在利益冲突,降低搜索质量。 图片来源:u/Plenty_Objective8392 多年来,Google彻底改变了其商业模式。尽管最初反对广告,但为了将其迅速流行的搜索引擎货币化,Google于2000年推出了AdWords,并迅速发展成为按点击付费的巨头。最初只是简单的侧边文字广告,后来发展成为深度融入搜索结果页面的广告,使Google成为一家以广告为主要收入来源的广告巨头,有时甚至让用户觉得搜索结果页面“充斥着广告”。 随后,ChatGPT 在 2022 年底火爆上线。这款对话式人工智能提供直接答案而非链接列表,对Google基于链接的广告模式构成了重大挑战。ChatGPT 的威胁足以在Google内部引发明显的紧迫感, 据报道,这触发了内部警报,并加快了将自己的生成式人工智能推向公众的时间表。只需看看Google首席...
- 下一篇
Qwen3 正式发布!模力方舟首发上线体验,昇腾算力全面适配
2025年4月29日,Qwen家族新成员Qwen3正式发布,包含多种模型版本。 1. 模型类型与参数 MoE 模型:有Qwen3-235B-A22B(总参数2350亿,激活参数220亿)和Qwen3-30B-A3B(总参数300亿,激活参数30亿)。 密集模型:包括Qwen3-32B、14B、8B、4B、1.7B、0.6B,均为Apache 2.0开源协议。 2. 上下文长度:密集模型中,0.6B、1.7B、4B为32K,8B及以上为128K;MoE模型均为128K。 模力方舟上的昇腾算力已为您准备好首批0.6B、8B、30B三款模型,其中 30B 为 Mixture-of-Experts(MoE)模型,覆盖从轻量部署到高性能推理的多元应用需求,助力开发者轻松拥抱新一代大模型能力。 在线体验:https://ai.gitee.com/serverless-api?model=Qwen3-30B-A3B 全面升级的 Qwen3 模型性能表现 1. 基准测试结果 Qwen3-235B-A22B:在ArenaHard(95.6)、AIME'24(85.7)、LiveCodeBench v5(...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7安装Docker,走上虚拟化容器引擎之路
- SpringBoot2全家桶,快速入门学习开发网站教程
- MySQL8.0.19开启GTID主从同步CentOS8
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS8编译安装MySQL8.0.19
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- 设置Eclipse缩进为4个空格,增强代码规范
- SpringBoot2整合Thymeleaf,官方推荐html解决方案