您现在的位置是:首页 > 文章详情

上海 AI 实验室开源 XTuner V1 训练引擎

日期:2025-09-09点击:18

上海人工智能实验室(上海AI实验室)宣布开源书生大模型新一代训练引擎 XTuner V1。

根据介绍,XTuner V1 是伴随上海AI实验室“通专融合”技术路线的持续演进,以及书生大模型研发实践而成长起来的新一代训练引擎。相较于传统的 3D 并行训练引擎,XTuner V1 不仅能应对更加复杂的训练场景,还具备更快的训练速度,尤其在超大规模稀疏混合专家(MoE)模型训练中优势显著。

XTuner V1 基于 PyTorch FSDP 进行开发,并针对 FSDP 通信量大的固有缺陷,进行了系列优化,可支持 1T 参数量级 MoE 模型训练,并首次在 200B 以上量级的混合专家模型上,实现训练吞吐超越传统的 3D 并行训练方案。

针对当前主流的 MoE 后训练需求,XTuner V1 不使用序列并行就能实现 200B 量级 MoE 模型单次 forward-backward 可处理 64k 序列长度,更适合当下流行的强化学习训练场景;对专家并行依赖小,长序列训练时受专家不均衡影响小,200B 量级 MoE 无需专家并行,600B MoE 只需节点内专家并行,更适合现代 MoE Dropless 训练模式;大规模长短序列混训场景提速 2 倍以上,数据并行负载均衡,大幅减小因需序列长度不均衡导致的计算空泡。

同时,为了进一步挖掘 XTuner V1 训练方案的上限,研究团队与华为昇腾技术团队在 Ascend A3 NPU 超节点上进行联合优化,充分利用超节点硬件特性,实现了更高的 MFU(Model FLOPS Utilization,模型浮点运算利用率)。

在理论算力落后 NVIDIA H800 近 20% 的情况下,最终实现训练吞吐超过 H800 近 5%,MFU 反超 20% 以上,该项研究成果技术报告也将于近期发布。

除了训练框架,书生大模型研发中使用的 AIOps 工具 DeepTrace 与 ClusterX 也将一并开源,为大规模分布式训练提供全方位保障。

原文链接:https://www.oschina.net/news/371074
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章