【在线回放】NVIDIA GTC 2024 大会 | 如何降低 AI 工程成本？蚂蚁从训练到推理的全栈实践-低调大师

【在线回放】NVIDIA GTC 2024 大会 | 如何降低 AI 工程成本？蚂蚁从训练到推理的全栈实践

2024-03-27 284

本文内容来源于蚂蚁集团 AI Infra部门负责人张科，在 GTC 2024 大会 China AI Day 线上专场的演讲。在演讲中张科分享了 AI 工程当前的现状和主要挑战，以及蚂蚁集团在 AI 工程领域的实践经验和开源项目，也欢迎 AI 工程领域的同行们共同参与开源项目的共建与共享。

张科于 2009 年中国科学院硕士毕业加入微软，主要工作有必应搜索引擎排序系统重构和广告主平台研发，开源深度学习模型标准 ONNX 以及推理引擎 ONNX Runtime 的主要作者之一。2020 年回国后加入蚂蚁，负责蚂蚁 AI 基础设施建设。

扫描上方图片二维码或点击【阅读原文】，观看视频，并可下载讲义。

AI工程现状与挑战

下图趋势展示了当今 AI 工程的现状：模型参数规模呈指数级增长，动辄达万亿规模，甚至更高，与此相伴的是对算力的需求急剧攀升，其需求是万卡乃至几十万卡，EFLOPS 级别的计算能力。值得庆幸的是，在 AI 工程层面，开源生态蓬勃发展，有诸如 DeepSpeed、NVIDIA Megatron-LM, TensorRT-LLM 等开源框架可供业界借鉴与使用。

当前 AI 工程面临多重挑战：

首先，成本问题是首要痛点，无论是训练还是推理成本，尤其是 AI 训练的试验成本亟需降低。正如我们不希望核试验频繁操作，AI 模型训练同样期望降低试错成本，追求试验效率的最大化。此外，鉴于训练是一个长期且复杂的分布式系统运作过程，我们迫切要求训练过程高效且稳定，分布式系统的可靠性至关重要。

另一方面，面对众多开源框架和技术选项，AI 工程师在技术选型上面临巨大挑战，包括需要考虑开源技术与自研技术的权衡、如何在琳琅满目的开源资源中选择适合自身需求的技术路径等，同时，这也意味着企业在人力投入上需要深思熟虑，既要看准技术趋势，又要确保资源的有效利用。

蚂蚁 AI 工程实践

蚂蚁集团在 AI 基础设施建设中践行全栈战略，涵盖应用层、平台产品层、引擎框架和异构 AI 集群。本文将详细介绍这四个层面：首先，聚焦于我们发布的智能分布式训练服务 DLRover，其次，探讨我们在分布式推理场景中的实践经验，再者，介绍我们在显存优化与数据传输方面的工作成果 GLake；最后会分享我们在工程智能领域的具体工作，特别是模型优化器的基础算法研发。

其中，DLRover、GLake 以及模型优化器均已开源，欢迎 Star 关注：

DLRover：https://github.com/intelligent-machine-learning/dlrover
GLake：https://github.com/intelligent-machine-learning/glake

大规模分布式智能训练服务 DLRover

DLRover 是我们推出的专注于大规模分布式训练的智能服务。面对大模型分布式训练的反复迭代流程，DLRover 致力于解耦模型定义、训练逻辑与训练优化，以便算法工程师专注于核心的模型研发工作，同时赋予工程研发人员进行优化定制的能力。

DLRover 的设计初衷包括三个方面：

首先，实现自动并行，针对大规模分布式训练的并行调优，力求使各种并行策略高效协同，以达到最优效率。
其次，提供自动资源配置功能，减轻算法研发人员与硬件和工程参数交互的负担，让他们无需关心非专业硬件和工程参数设置，专注核心的算法研发。
最后是提升大规模分布式训练的稳定性，确保数千乃至数万个分布式节点在长达数月的运行过程中，始终保持长期稳定且高效的运行状态。

总结来说，DLRover 的核心目标还是在于提升整个系统的效率，包括资源、性能、人效。其关键特性表现为：

深度解耦：分离算法研发与训练框架的依赖关系，并减少训练角色及调度系统的耦合度，使算法工程师可以聚焦于算法创新，而非底层技术细节；
资源调度：采用中心化决策机制，具备全局资源视角，实时掌握大规模分布式训练任务以及集群整体资源使用状况，从而作出更优的资源调度决策；
引擎优化：DLRover 整合了多种分布式优化策略，并可以自动生成最优决策组合；
AI for Sys：通过构建模型来智能决策最优策略组合，通过超参数调优训练性能，资源利用率，以及模型结构与效果，从而在训练过程达成综合性的优化任务。

DLRover 的核心架构包括三个部件：

完整的服务模块；
引擎优化扩展库；
面向 AI 工程设计的优化，从自动化到智能化过程的算法库，服务于 AI for Sys 部分；

在整个训练服务流程中，DLRover 兼顾离线和在线训练需求，涵盖资源的动态弹性伸缩、容错机制、资源配置管理，以及对动态数据的高效分发与恢复。其中，动态数据的高效分发和恢复，会和容错机制、大模型训练稳定性提升模块、异构加速器提效和稳定性模块，配合使用。在引擎优化层面，DLRover 重点关注训练框架优化，以及 TensorFlow 的优化扩展，因为 TensorFlow 在大模型时代前，其应用较为广泛，尤其是搜推场景。为此，我们开发了 TensorFlow 优化扩展库 TFPlus，以及 PyTorch 优化扩展库 ATorch。这两个库均作为扩展组件，需与相应的 TensorFlow 或 PyTorch 版本配套使用，而非独立运行。至于 AI for Sys 部分，我们专注于自动化到智能化的转化，主要体现在自研优化器和在线学习算法库上。该算法库涵盖了处理数据延迟反馈、处理在线学习中数据漂移等问题。

在蚂蚁集团内部，DLRover 智能训练服务的实际应用展现出显著的效果。

首先，其智能化程度已达到让算法用户无需手动配置任何与硬件相关的资源参数，诸如 CPU 数量、内存大小、GPU 数量及显存分配等，全部交由系统自动处理。

得益于 DLRover 集成的容错机制和弹性伸缩功能，训练工作的成功率实现了大幅提升，下图数据显示已达到 96%，实际最新数据更为出色。尤为值得一提的是，DLRover 的智能化配置相较于人工手动配置，在训练速度上展现出了明显优势，有效地缩短了训练周期。

此外，如下图右下角第五点，在大模型训练方面，DLRover 的表现同样引人注目。

面对千亿参数模型及千卡规模的并行训练场景，DLRover 能够实现高达 60% 以上的高性能指标 (HFU)，并且这一数据仍在持续进步。而在稳定性方面，DLRover 确保了极高的有效训练时长占比，即仅计算模型真实起作用的时间，剔除无效及异常停机时间，目前可达到 97% 以上，最优情况下甚至能达到 99.4%，显示了卓越的训练稳定性。同时，我们也与 NVIDIA 合作，在 FP8 低精度训练上取得了一定的进展。

如下图所示，DLRover 的 TFPlus 扩展库通过引入 GPU 同步训练机制，尤其在稀疏模型训练场景下，性能提升效果十分显著。在TFPlus扩展库中，我们特地开发了 hybrid embedding 优化技术，针对稀疏 embedding 占用存储空间大且访问热度不均的特点，创造性地将 SSD 等存储介质融入其中，构建了一套分层的 embedding 存储方案。这套方案使得即便是处理万亿级别的大规模模型预训练任务，训练速度也能保持高效而不受任何影响。同时，内存使用量大幅削减，节省率高达 80% 以上，堪称是一项极为出色的优化工作。

分布式推理引擎

在 AI 推理引擎部分，下图展示的是一张详细的推理工程栈架构图，其中的组件包括前端、图优化、运行时及算子优化等，本文重点阐述蚂蚁集团在推理引擎建设中的技术选型和实践成果。

首先，我们采用 ONNX 路线，统一支持LLM和搜推模型的极致推理优化。考虑到公司内部涉及多种训练框架如 TensorFlow 和 PyTorch，作为企业内的 AI 工程中台部门，需要兼顾各类模型的推理需求。因此，分布式推理、流式推理以及 Continuous Batching 和 LookAhead 等核心特性被纳入推理引擎设计中。其中，Continuous Batching 和 LookAhead 就是预先做 decoding，可以依据实际情况动态组合，以实现最佳性能。例如，在较高 Batching 情况下，LookAhead 的重要性相对减弱。此外，我们还实践了高性能算子，包括 FlashAttention、Flash Decoding 以及量化技术等，不断提升推理效率。就目前可以分享的成果显示，在百亿参数模型上，利用两张 NVIDIA A10 Tensor Core GPU 并行推理，我们能够实现每秒处理超过 560 个 tokens 的吞吐量，首次响应延迟控制在 200 毫秒以内。并且这个数据并非最新成果，但展现出令人满意的多卡加速比和推理性能。

训练推理显存和传输优化 GLake

在显存优化与传输优化方面，我们开发了名为 GLake 的服务，并已有一篇论文《GMLake》被 ASPLOS24 收录。GLake 旨在实现显存池化、层次化管理和碎片优化，充分利用一台物理机内部多张 GPU 卡之间的高速互联，实现多路并发和提升数据传输速率。

经实践验证，GLake 在大模型训练场景下表现卓越，吞吐量提升了近四倍，使得 batch size 可大幅度增大，同时数据传输速率提高了 3 到 12 倍。相较于 PyTorch 和 DeepSpeed，采用 GLake 进行大模型做调优（fine-tuing）时，吞吐量也能提升大约一倍。值得关注的是，GLake 作为一个通用的加速库，能很好地与现有开源框架和工程项目协同，例如 DeepSpeed、NVIDIA Megatron-LM，vLLM 等。

模型优化器三部曲

最后，本文会介绍蚂蚁集团在工程智能领域的探索，特别是针对大模型训练的优化策略。这项工作最初起源于对普通模型训练过程的深入研究，包括如何通过工程与算法相结合的方式，优化资源利用、提升模型泛化能力和加速收敛进程。为此，我们推出三种优化器，并且每种优化器都有一篇对应学术论文可供参考。

第一个优化器是 Group Optimizer，这是一种无损压缩技术，旨在节省资源。通过该优化器，模型能够实现 80% 以上的压缩率，且不影响模型性能，广泛适用于各类在线学习场景。
第二个优化器 WSAM 聚焦于提升模型泛化能力。我们知道，深度神经网络的泛化性能与其极值点的平坦程度密切相关。WSAM 通过将平坦度作为正则化项，以优化训练极值点的平坦度，从而有效提升模型的泛化能力。在某个落地营销场景，通过采用 WSAM 优化器，我们成功将整体 GMV 提升了近 30%。
最后着重介绍用于加速收敛的优化器 AGD，之所以如此重视，是因为它与大模型训练的效率提升紧密相关。这款优化器旨在缩短模型训练时长，快速收敛至理想状态，同时保持良好的模型性能。其内在数学原理借鉴了拟二阶优化器的思想，以实现更高效的收敛速度。

在实际验证过程中，我们通过对 GPT-2 模型进行实验，收集数据来检验该优化器的效果。实验结果显示，在 GPT-2 模型上，该优化器能使收敛速度提升 1.5 倍。

开源共建&共享

在大模型技术迅速演进的时代，技术创新与工程实践的进步可谓瞬息万变，令每一位从业者应接不暇。我们认为，AI 领域的核心之一在于分享精神与共赢心态。随着算法的不断突破，必然伴随着工程层面的优秀实践涌现。在这个行业中，特别是在工程领域，很少有绝对保密或持久领先的秘诀。因此，倡导开源共建与共享显得尤为重要。我们鼓励所有从业人士，不论是产业界的实践者还是学术界的科研人员，积极参与进来，共同推动AI工程和AI基础设施建设的发展。通过分享各自宝贵的实践经验与研究成果，大家能够共同探讨、相互启发，共同提升整个行业的技术水平。

目前蚂蚁 AI Infra 团队已经开源了 2 个项目，帮助解决大模型训练过程中的工程问题，欢迎 Star 关注：

DLRover，致力于通过提升深度学习训练过程的智能性，来解决整个系统的提效问题：

https://github.com/intelligent-machine-learning/dlrover

GLake， 一个工作在底层（虚拟与物理显存管理）与系统层（包括多卡、多通道、多任务）的加速库以及相关工具集，旨在对 GPU 显存+传输进行一体优化：

https://github.com/intelligent-machine-learning/glake

点击观看视频下载讲义

微信关注我们

原文链接：https://my.oschina.net/u/7032067/blog/11049309

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

PolarDB-X 的 XPlan 索引选择

前言对于数据库来说，正确的选择索引是基本的要求，选错索引轻则导致查询缓慢，重则导致数据库整体不可用。PolarDB-X存在多种不同的索引，局部索引、全局索引、列存索引、归档表索引。局部索引就是单机数据库上常用的索引，目的是避免全表扫描。全局索引是分布式数据库为了避免全分片扫描，冗余一份数据，采用与主表不同分区键的索引表。列存索引是主表的列存副本，提供HTAP能力。归档表索引是归档表上的列布隆过滤器，为归档表提供一定的TP查询能力。本文主要介绍一种CN上的局部索引算法：XPlan索引选择。什么是XPlan PolarDB-X包含计算节点(CN)和数据节点(DN)，CN负责SQL解析、优化和执行，DN节负责数据的持久化，CN与DN之间通过RPC通信。DN 100%兼容Mysql，也是作为PolarDB-X标准版进行售卖的。 CN与DN之间RPC通信的内容其实就是标准的SQL，CN会将解析优化好的语法树转成SQL传给DN重新解析、优化。对比起来，将CN的语法树直接传给DN执行听起来就更优[1]。但这样其实不一定好，主要原因是作为存算分离的架构，数据都在DN上，DN可以直接在数...

2024-03-27

260

1.产品介绍银河麒麟服务器迁移运维管理平台是基于国产银河麒麟高级服务器操作系统开发的服务器操作系统迁移和运维管理平台，通过直观清晰易理解的Web界面，帮助系统管理员在大规模、集群式服务器主机管理场景中完成高效运维管理工作，打造配置管理、漏洞修复、SP升级、CentOS迁移等多种核心运维场景解决方案。其易用性强、运行稳定，支持高可用与分布式部署方案，实现关键操作全流程闭环管理，能够在坚实的基础之上提升服务器操作系统的可靠性、稳定性、易用性。银河麒麟服务器迁移运维管理平台基于信创软硬件技术，支持鲲鹏、飞腾、海光等主流CPU架构，兼容中标麒麟高级服务器操作系统V7.0、银河麒麟高级服务器操作系统V10等主流操作系统版本，支持在物理机，虚拟机和云环境中部署与配置。平台聚焦主机管理、系统配置、补丁升级、系统监控、CentOS迁移五个领域，实现了大规模主机管理、运维脚本执行、精细化的系统配置管理、精准化智能化的补丁管理与漏洞修复、系统SP升级包推送、可视化系统监控、一键式系统迁移等功能，对主机迁移、监控、配置、补丁进行全流程闭环管理，有效地解决了批量主机迁移难度高、配置管理困难、补丁包安装繁琐...

2024-03-27

409

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。