您现在的位置是：首页 > 文章详情

上海 AI 实验室开源 XTuner V1 训练引擎

日期：2025-09-09点击：75收藏

上海人工智能实验室（上海AI实验室）宣布开源书生大模型新一代训练引擎 XTuner V1。

根据介绍，XTuner V1 是伴随上海AI实验室“通专融合”技术路线的持续演进，以及书生大模型研发实践而成长起来的新一代训练引擎。相较于传统的 3D 并行训练引擎，XTuner V1 不仅能应对更加复杂的训练场景，还具备更快的训练速度，尤其在超大规模稀疏混合专家（MoE）模型训练中优势显著。

XTuner V1 基于 PyTorch FSDP 进行开发，并针对 FSDP 通信量大的固有缺陷，进行了系列优化，可支持 1T 参数量级 MoE 模型训练，并首次在 200B 以上量级的混合专家模型上，实现训练吞吐超越传统的 3D 并行训练方案。

针对当前主流的 MoE 后训练需求，XTuner V1 不使用序列并行就能实现 200B 量级 MoE 模型单次 forward-backward 可处理 64k 序列长度，更适合当下流行的强化学习训练场景；对专家并行依赖小，长序列训练时受专家不均衡影响小，200B 量级 MoE 无需专家并行，600B MoE 只需节点内专家并行，更适合现代 MoE Dropless 训练模式；大规模长短序列混训场景提速 2 倍以上，数据并行负载均衡，大幅减小因需序列长度不均衡导致的计算空泡。

同时，为了进一步挖掘 XTuner V1 训练方案的上限，研究团队与华为昇腾技术团队在 Ascend A3 NPU 超节点上进行联合优化，充分利用超节点硬件特性，实现了更高的 MFU（Model FLOPS Utilization，模型浮点运算利用率）。

在理论算力落后 NVIDIA H800 近 20% 的情况下，最终实现训练吞吐超过 H800 近 5%，MFU 反超 20% 以上，该项研究成果技术报告也将于近期发布。