阿里云高性能AI服务 -- 基于Docker和EGS一键创建高性能Tensorflow分布式训练
一. 概述
Tensorflow是目前使用最为广泛的深度学习框架之一,但是目前搭建分布式多机多卡训练比较困难,而且Tensorflow原生的分布式的性能很差,特别在云计算虚拟化环境下并行的挑战更大。
为了解决这个问题,我们创建了一个容器镜像:registry.cn-beijing.aliyuncs.com/ai_beijing/deep_learning:vx.x.x,目前包含了Tensorflow很新版本v1.6.0-rc0以及NVidia工具系列很新的版本:CUDA v9.0, cuDNN v7.0.5, NCCL v2.1;分布式训练上引入了horovod v0.11.2 + NCCL v2.1作为高性能Tensorflow分布式运行的框架,Horovod是基于MPI的Tensorflow分布式框架,因此也加入了Tensorfl