Qwen3 技术报告发布,详细介绍模型架构、训练方法与评估结果
阿里巴巴正式发布了Qwen3系列大型语言模型的技术报告。报告详细阐述了Qwen3的模型架构、训练方法、数据处理、可扩展性以及全面的评估结果。 https://github.com/QwenLM/Qwen3/blob/main/Qwen3_Technical_Report.pdf Qwen3系列包括Qwen3-0.5B、Qwen3-1.8B、Qwen3-4B、Qwen3-7B、Qwen3-14B、Qwen3-32B、Qwen3-72B等多种参数规模的模型,其中部分模型已开源。 报告指出,Qwen3的预训练分为三个阶段: 通用阶段(S1)在超过30万亿token上训练,序列长度4096,构建通用知识基础; 推理阶段(S2)在约5万亿更高质量的STEM、代码、推理和合成数据上进一步训练,序列长度4096,提升推理能力; 长文本阶段(S3)在数千亿长文本数据上训练,将上下文长度从4096扩展到32768,并采用了ABF、YARN和DCA(Dual Chunk Attention)等技术,实现了推理时4倍序列长度的扩展。 Qwen3模型在多项基准测试中表现出色,包括自然语言理解、代码生成、数学推...
