Qwen3 技术报告发布，详细介绍模型架构、训练方法与评估结果-低调大师

Qwen3 技术报告发布，详细介绍模型架构、训练方法与评估结果

2025-05-14 890

阿里巴巴正式发布了Qwen3系列大型语言模型的技术报告。报告详细阐述了Qwen3的模型架构、训练方法、数据处理、可扩展性以及全面的评估结果。

https://github.com/QwenLM/Qwen3/blob/main/Qwen3_Technical_Report.pdf

Qwen3系列包括Qwen3-0.5B、Qwen3-1.8B、Qwen3-4B、Qwen3-7B、Qwen3-14B、Qwen3-32B、Qwen3-72B等多种参数规模的模型，其中部分模型已开源。

报告指出，Qwen3的预训练分为三个阶段：

通用阶段（S1）在超过30万亿token上训练，序列长度4096，构建通用知识基础；
推理阶段（S2）在约5万亿更高质量的STEM、代码、推理和合成数据上进一步训练，序列长度4096，提升推理能力；
长文本阶段（S3）在数千亿长文本数据上训练，将上下文长度从4096扩展到32768，并采用了ABF、YARN和DCA（Dual Chunk Attention）等技术，实现了推理时4倍序列长度的扩展。

Qwen3模型在多项基准测试中表现出色，包括自然语言理解、代码生成、数学推理和多语言能力。

例如，Qwen3-72B在MMLU、GSM8K、HumanEval等多个权威评测中取得了领先成绩。报告还强调了Qwen3在多模态能力、Agent能力以及与外部工具和API集成方面的进展。

此外，Qwen Chat在最新更新中上线了“深度研究”（Deep Research）功能，用户提出问题后，Qwen会引导用户明确研究方向，并在后台生成详细报告。

微信关注我们

原文链接：https://www.oschina.net/news/349800/qwen3-technical-report

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

WizardLM 团队加入腾讯混元

前微软北京AI研究团队WizardLM的核心成员Can Xu在社交媒体上宣布，他与WizardLM团队已离开微软，并加入了腾讯混元（Tencent Hunyuan）团队。他们将继续致力于推动大型语言模型（LLM）的训练技术发展，并构建更优质的AI模型。 Can Xu提及，腾讯最新的Hunyuan-Turbos模型在lmarena.ai（原lmsys.org）的排行榜上取得了显著进展，整体排名第八，并在硬核、编码、数学等多个关键类别中位列前十，这标志着新团队在新征程中的良好开端。 WizardLM团队以其在指令遵循和复杂推理方面的模型微调技术而闻名，其WizardLM和WizardCoder系列模型在开源社区具有广泛影响力。此次加入腾讯，预计将增强腾讯在自研大模型领域的实力。推荐阅读腾讯重构混元大模型研发体系，加大 AI 投入腾讯混元自研深度思考模型「T1」发布腾讯混元新一代快思考模型 Turbo S 发布前微软亚研院视觉专家胡瀚加入腾讯，负责混元多模态大模型

2025-05-14

281

2025年5月13日，美国商务部工业与安全局（BIS）宣布正式撤销拜登政府时期制定的《人工智能扩散规则》（AI Diffusion Rule），并计划进一步强化对全球范围内半导体出口的监管。该规则原计划于2025年5月15日生效，意在限制美国人工智能技术的扩散，防止其被潜在对手滥用。然而，商务部表示，该政策将抑制美国创新、加重企业合规负担，并可能破坏与多国的外交关系。（来源：WSJ）商务部工业与安全事务副部长杰弗里·凯斯勒（Jeffery Kessler）表示：“特朗普政府将采取大胆、包容的战略，与全球可信赖国家共同推动美国AI技术发展，同时防止技术流向对手国家。我们拒绝拜登政府将其不成熟、适得其反的AI政策强加给美国人民。” 与此同时，BIS还宣布三项配套出口管控措施：发布指导意见，明确在全球范围内使用华为昇腾 Ascend 芯片构成违反美国出口管制；警告相关方，若允许美国产AI芯片被用于训练或运行中国AI模型，可能将面临严重后果；向美国企业发布供应链防护指南，防止技术被非法转移至受限实体。官方称，这些举措将有助于美国在AI创新和技术主导权方面维持全球领先地位。此外，美...

2025-05-14

437

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。