构建Tensorflow RDMA的Docker镜像
RDMA是一个远程通讯技术,它通过Kernel bypass等方式降低数据传输中的延迟和CPU消耗。
在分布式训练中,由于多个Worker之间或者Worker和Paramater Server 之间需要大量传输模型变量。当GPU到达一定数量后,受制于网络带宽以及TCP协议的延迟,通讯往往会成为计算性能的瓶颈,而在分布式训练中使用RDMA技术能够非常明显地提高训练速度。
Tensorflow
Tensorflow是谷歌开源的深度学习框架,它有丰富的平台支持和API,也可以非常轻松地构建分布式模型训练。
Tensorflow 在实现里支持RDMA作为其分布式场景的通讯协议,但是官方镜像默认没有支持RDMA。需要重新构建tensorflow,并开启RDMA相关的构建参数。 Tensorflow 对 RDMA的支持和实现协议参见文档: htt
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
阿里云Kubernetes容器服务上体验Knative
概述 Knative Serving是一种可缩放至零、请求驱动的计算运行环境,构建在 Kubernetes 和 Istio 之上,支持为 serverless 应用、函数提供部署与服务。Knative Serving的目标是为Kubernetes提供扩展功能,用于部署和运行无服务器工作负载。 下面讲述一下在阿里云Kubernetes容器服务基础之上,如何快速搭建一套Knative Serving环境并进行自动扩容的体验。 搭建Knative Serving 1.准备Kubernetes环境 阿里云容器服务Kubernetes 1.11.5目前已经上线,可以通过容器服务管理控制台非常方便地快速创建 Kubernetes 集群。具体过程可以参考创建Kubernetes集群。 2.部署Istio Knative serving运行需要基于Istio,
- 下一篇
安装NVIDIA docker plugin
GPU云主机集成CUDA & NVIDIA DOCKER镜像方案 一、预安装前置条件1、系统和内核版本支持2、 CUDA的GPU支持二、NVIDIA驱动环境安装 1、安装CUDA Toolkit2、设置cuda环境变量3、安装 docker-18.06.14、安装NVIDIA docker plugin三、 驱动环境检视1、 cuda驱动环境检视2、 cuda设备用例查询3、docker插件安装环境检视4、NVIDIA docker plugin用例测试四、NGC测试1、 运行tensorflow容器2、用例功能测试五、GPU云主机产品新增CUDA和NVIDIA-DOCKER自定义镜像功能1、产品交互形态2、CUDA自定义镜像制作方案3、NVIDIA DOCKER自定义镜像制作方案 一、 预安装前置条件1、 系统和内核版本支持 cat /etc/*release uname -a 2、CUDA的GPU支持 lspci | grep -i nvidia 二、 环境集成安装1、安装CUDA Toolkitrpm -i cuda-repo-rhel7-9-1-local-9.1.85...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- 设置Eclipse缩进为4个空格,增强代码规范
- SpringBoot2整合Redis,开启缓存,提高访问速度
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- MySQL8.0.19开启GTID主从同步CentOS8
- Hadoop3单机部署,实现最简伪集群
- CentOS8编译安装MySQL8.0.19
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- SpringBoot2整合Thymeleaf,官方推荐html解决方案