利用Docker和阿里云容器服务轻松搭建分布式TensorFlow训练集群(上)
本系列将利用Docker技术在阿里云HPC和容器服务上,帮助您上手TensorFlow的机器学习方案
- 第一篇:打造TensorFlow的实验环境
- 第二篇:轻松搭建TensorFlow Serving集群
- 第三篇:打通TensorFlow持续训练链路
- 第四篇:利用Neural Style的TensorFlow实现,像梵高一样作画
- 第五篇:轻松搭建分布式TensorFlow训练集群(上)
本文是该系列中的第五篇文章, 将为您介绍如何在本机以及HPC和阿里云容器服务上快速部署和使用分布式TensorFlow训练集群。
简介
由于在现实世界里,单机训练大型神经网络的速度非常缓慢,这就需要运行分布式TensorFlow集群并行化的训练模型。
分布式TensorFlow集群由两种类型的服务器组成,一种是参数服务器,一种是计算服务器,它们通过高性能的gRPC库作