腾讯开源|分布式深度学习训练工具 PatrickStar
PatrickStar 是一款分布式深度学习训练工具,它的设计目标是支持以 GPT、Bert 为代表的超大预训练模型训练。在性能表现上远超目前业界 DeepSpeed 效果。它可以显著降低 PTM 的使用成本,使我们在更少的 GPU 硬件上训练之前用其他框架 OOM 的模型。比如,在8x V100,240GB 内存的计算节点上,派大星成功训练了 120 亿参数模型,单 GPU 的计算效率仍高达在 47 Tflops。 PatrickStar 通过使用 CPU-GPU 异构内存空间来存储模型数据,从而降低对 GPU 的显存需求。不同于现有的异构训练方案在 CPU 和 GPU 之间静态划分模型数据,PatrickStar 以 Chunk (块)的形式更灵活地管理模型数据,这些 Chunk 动态分布在异构内存空间中,在训练过程中高效地移动,来满足当前计算的需求,从而使模型尺寸突破 GPU 的显存大小限制。 PatrickStar 和业界其他优秀数据并行方案兼容,比如,PatrickStar 使用零冗余优化器方式并行扩展到多个 GPU,并实现了理论最低的通信带宽需求和更高效的带宽利用率。派大星...

