每日一博 | ElasticDL:同时提升集群利用率和研发效率的分布式深度学习框架
本文同步发布在 TensorFlow 微信公众号、知乎 SQLFlow 专栏,获得作者授权在开源中国发布,原作者为蚂蚁集团 齐俊、王益 ElasticDL 是一个基于 TensorFlow 2.x 和 Kubernetes 的开源的分布式深度学习编程框架。2019 年秋天的 Google Developer Day 活动中来自蚂蚁金服的 ElasticDL 团队展示了 ElasticDL 的第一个开源版本。本文更新这大半年来 ElasticDL 项目的进展,尤其是性能优化和业务落地。 相关报道资料: ElasticDL: 基于 TensorFlow 2.0 和 Kubernetes 的弹性分布式深度学习 - Google Developer Days 2019 ElasticDL GitHub repo ElasticDL 的首要设计意图是简化分布式编程。它允许用户只提供用 TensorFlow 2.0 API 描述的模型,而不需要用户写分布式训练过程代码。用户的模型定义只要能在本地调通,即可在分布式环境下用大规模数据训练模型,从而提升研发效率。 同时,ElasticDL 提供的弹性调...
