上海 AI 实验室开源 XTuner V1 训练引擎
上海人工智能实验室(上海AI实验室)宣布开源书生大模型新一代训练引擎 XTuner V1。
根据介绍,XTuner V1 是伴随上海AI实验室“通专融合”技术路线的持续演进,以及书生大模型研发实践而成长起来的新一代训练引擎。相较于传统的 3D 并行训练引擎,XTuner V1 不仅能应对更加复杂的训练场景,还具备更快的训练速度,尤其在超大规模稀疏混合专家(MoE)模型训练中优势显著。
XTuner V1 基于 PyTorch FSDP 进行开发,并针对 FSDP 通信量大的固有缺陷,进行了系列优化,可支持 1T 参数量级 MoE 模型训练,并首次在 200B 以上量级的混合专家模型上,实现训练吞吐超越传统的 3D 并行训练方案。
针对当前主流的 MoE 后训练需求,XTuner V1 不使用序列并行就能实现 200B 量级 MoE 模型单次 forward-backward 可处理 64k 序列长度,更适合当下流行的强化学习训练场景;对专家并行依赖小,长序列训练时受专家不均衡影响小,200B 量级 MoE 无需专家并行,600B MoE 只需节点内专家并行,更适合现代 MoE Dropless 训练模式;大规模长短序列混训场景提速 2 倍以上,数据并行负载均衡,大幅减小因需序列长度不均衡导致的计算空泡。
同时,为了进一步挖掘 XTuner V1 训练方案的上限,研究团队与华为昇腾技术团队在 Ascend A3 NPU 超节点上进行联合优化,充分利用超节点硬件特性,实现了更高的 MFU(Model FLOPS Utilization,模型浮点运算利用率)。
在理论算力落后 NVIDIA H800 近 20% 的情况下,最终实现训练吞吐超过 H800 近 5%,MFU 反超 20% 以上,该项研究成果技术报告也将于近期发布。
除了训练框架,书生大模型研发中使用的 AIOps 工具 DeepTrace 与 ClusterX 也将一并开源,为大规模分布式训练提供全方位保障。

