DeepEP —— 开源 EP 通信库
DeepEP 是专为Mixture-of-Experts (MoE)和 expert parallelism (EP)定制的通信库。它提供高吞吐量和低延迟的all-to-allGPU 内核,也就是所谓的 MoE 调度和组合。该库还支持低精度操作,包括 FP8。 为了与 DeepSeek-V3论文中提出的 group-limited gating algorithm 保持一致,DeepEP 提供了一组针对非对称域带宽转发(例如将数据从 NVLink 域转发到 RDMA 域)进行优化的内核。这些内核提供高吞吐量,使其适合训练和推理预填充任务。此外,它们还支持 SM (Streaming Multiprocessors)数量控制。 对于延迟敏感的推理解码,DeepEP 包含一组具有纯 RDMA 的低延迟内核,以最大限度地减少延迟。该库还引入了一种 hook-based 通信计算重叠方法,该方法不占用任何 SM 资源。 要求 Hopper GPU(以后可能支持更多架构或设备) Python 3.8 及以上版本 CUDA 12.3 及以上版本 PyTorch 2.1 及以上版本 用于节点内通信的...

