DeepEP —— 开源 EP 通信库
DeepEP 是专为 Mixture-of-Experts (MoE) 和 expert parallelism (EP) 定制的通信库。它提供高吞吐量和低延迟的 all-to-all GPU 内核,也就是所谓的 MoE 调度和组合。该库还支持低精度操作,包括 FP8。
为了与 DeepSeek-V3 论文中提出的 group-limited gating algorithm 保持一致,DeepEP 提供了一组针对非对称域带宽转发(例如将数据从 NVLink 域转发到 RDMA 域)进行优化的内核。这些内核提供高吞吐量,使其适合训练和推理预填充任务。此外,它们还支持 SM (Streaming Multiprocessors) 数量控制。
对于延迟敏感的推理解码,DeepEP 包含一组具有纯 RDMA 的低延迟内核,以最大限度地减少延迟。该库还引入了一种 hook-based 通信计算重叠方法,该方法不占用任何 SM 资源。
要求
- Hopper GPU(以后可能支持更多架构或设备)
- Python 3.8 及以上版本
- CUDA 12.3 及以上版本
- PyTorch 2.1 及以上版本
- 用于节点内通信的 NVLink
- 用于节点内通信的 RDMA 网络