上海 AI 实验室开源 XTuner V1 训练引擎
上海人工智能实验室(上海AI实验室)宣布开源书生大模型新一代训练引擎 XTuner V1。 根据介绍,XTuner V1 是伴随上海AI实验室“通专融合”技术路线的持续演进,以及书生大模型研发实践而成长起来的新一代训练引擎。相较于传统的 3D 并行训练引擎,XTuner V1 不仅能应对更加复杂的训练场景,还具备更快的训练速度,尤其在超大规模稀疏混合专家(MoE)模型训练中优势显著。 XTuner V1 基于 PyTorch FSDP 进行开发,并针对 FSDP 通信量大的固有缺陷,进行了系列优化,可支持 1T 参数量级 MoE 模型训练,并首次在 200B 以上量级的混合专家模型上,实现训练吞吐超越传统的 3D 并行训练方案。 针对当前主流的 MoE 后训练需求,XTuner V1 不使用序列并行就能实现 200B 量级 MoE 模型单次 forward-backward 可处理 64k 序列长度,更适合当下流行的强化学习训练场景;对专家并行依赖小,长序列训练时受专家不均衡影响小,200B 量级 MoE 无需专家并行,600B MoE 只需节点内专家并行,更适合现代 MoE Drop...
