蚂蚁 ASystem 团队开源 NCCL 功能扩展库:AMem NCCL-Plugin
蚂蚁 ASystem 团队宣布开源其强化学习系统的关键组件:AMem NCCL-Plugin,用于解决 RL 训练中的显存瓶颈和通信连接的耗时难题,以实现高性能计算。 NCCL 是 NVIDIA Collective Communications Library(英伟达集合通信库)的缩写,它是多 GPU 和多节点分布式深度学习的核心通信库,提供了包括 AllReduce、AlltoAll等多种高效集体通信操作。 据介绍,AMem NCCL-Plugin 是蚂蚁 ASystem 团队自研的NCCL 功能扩展库,主要提供了 ncclPause() 和 ncclResume() 两个显存管理 API,旨在解决 RL 流程中,通信库 NCCL 分配的显存无法被高效卸载的这一难题。 通过轻量级插件方式,在保留 NCCL 通信连接的情况下,实现对训推引擎 NCCL 显存的透明卸载(offload)与恢复(reload)注1,这些优势特点已在Ring-1T 万亿参数推理模型的强化学习训练中得到了验证。 AMem NCCL-plugin总体架构图 AMem NCCL-Plugin 的优势体现在如下两个...
