Qwen3 技术报告发布,详细介绍模型架构、训练方法与评估结果
阿里巴巴正式发布了Qwen3系列大型语言模型的技术报告。报告详细阐述了Qwen3的模型架构、训练方法、数据处理、可扩展性以及全面的评估结果。
https://github.com/QwenLM/Qwen3/blob/main/Qwen3_Technical_Report.pdf
Qwen3系列包括Qwen3-0.5B、Qwen3-1.8B、Qwen3-4B、Qwen3-7B、Qwen3-14B、Qwen3-32B、Qwen3-72B等多种参数规模的模型,其中部分模型已开源。
报告指出,Qwen3的预训练分为三个阶段:
- 通用阶段(S1)在超过30万亿token上训练,序列长度4096,构建通用知识基础;
- 推理阶段(S2)在约5万亿更高质量的STEM、代码、推理和合成数据上进一步训练,序列长度4096,提升推理能力;
- 长文本阶段(S3)在数千亿长文本数据上训练,将上下文长度从4096扩展到32768,并采用了ABF、YARN和DCA(Dual Chunk Attention)等技术,实现了推理时4倍序列长度的扩展。
Qwen3模型在多项基准测试中表现出色,包括自然语言理解、代码生成、数学推理和多语言能力。
例如,Qwen3-72B在MMLU、GSM8K、HumanEval等多个权威评测中取得了领先成绩。报告还强调了Qwen3在多模态能力、Agent能力以及与外部工具和API集成方面的进展。
此外,Qwen Chat在最新更新中上线了“深度研究”(Deep Research)功能,用户提出问题后,Qwen会引导用户明确研究方向,并在后台生成详细报告。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
WizardLM 团队加入腾讯混元
前微软北京AI研究团队WizardLM的核心成员Can Xu在社交媒体上宣布,他与WizardLM团队已离开微软,并加入了腾讯混元(Tencent Hunyuan)团队。他们将继续致力于推动大型语言模型(LLM)的训练技术发展,并构建更优质的AI模型。 Can Xu提及,腾讯最新的Hunyuan-Turbos模型在lmarena.ai(原lmsys.org)的排行榜上取得了显著进展,整体排名第八,并在硬核、编码、数学等多个关键类别中位列前十,这标志着新团队在新征程中的良好开端。 WizardLM团队以其在指令遵循和复杂推理方面的模型微调技术而闻名,其WizardLM和WizardCoder系列模型在开源社区具有广泛影响力。此次加入腾讯,预计将增强腾讯在自研大模型领域的实力。 推荐阅读 腾讯重构混元大模型研发体系,加大 AI 投入 腾讯混元自研深度思考模型「T1」发布 腾讯混元新一代快思考模型 Turbo S 发布 前微软亚研院视觉专家胡瀚加入腾讯,负责混元多模态大模型
- 下一篇
美国调整 AI 政策,撤销扩散限制以强化对华芯片出口管制
2025年5月13日,美国商务部工业与安全局(BIS)宣布正式撤销拜登政府时期制定的《人工智能扩散规则》(AI Diffusion Rule),并计划进一步强化对全球范围内半导体出口的监管。 该规则原计划于2025年5月15日生效,意在限制美国人工智能技术的扩散,防止其被潜在对手滥用。然而,商务部表示,该政策将抑制美国创新、加重企业合规负担,并可能破坏与多国的外交关系。(来源:WSJ) 商务部工业与安全事务副部长杰弗里·凯斯勒(Jeffery Kessler)表示:“特朗普政府将采取大胆、包容的战略,与全球可信赖国家共同推动美国AI技术发展,同时防止技术流向对手国家。我们拒绝拜登政府将其不成熟、适得其反的AI政策强加给美国人民。” 与此同时,BIS还宣布三项配套出口管控措施: 发布指导意见,明确在全球范围内使用华为昇腾 Ascend 芯片构成违反美国出口管制; 警告相关方,若允许美国产AI芯片被用于训练或运行中国AI模型,可能将面临严重后果; 向美国企业发布供应链防护指南,防止技术被非法转移至受限实体。 官方称,这些举措将有助于美国在AI创新和技术主导权方面维持全球领先地位。 此外,美...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Red5直播服务器,属于Java语言的直播服务器
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- SpringBoot2整合Redis,开启缓存,提高访问速度
- CentOS关闭SELinux安全模块
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS8编译安装MySQL8.0.19