Kubeflow实战系列:阿里云上小试TFJob
介绍
本系列将介绍如何在阿里云容器服务上运行Kubeflow方案, 本文介绍如何使用TfJob运行模型训练。
- 第一篇:阿里云上使用JupyterHub
- 第二篇:阿里云上小试TFJob
- 第三篇:利用TFJob运行分布式TensorFlow
- 第四篇:利用TFJob导出分布式TensorFlow模型
- 第五篇:利用TensorFlow Serving进行模型预测
TFJob简介
模型训练是机器学习最主要的实践场景,尤其以使用机器学习框架TensorFlow进行模型训练最为流行,但是随着机器学习的平台由单机变成集群,这个问题变得复杂了。GPU的调度和绑定,涉及到分布式训练的编排和集群规约属性的配置(cluster spec)也成了数据科学家们巨大的负担。
为了解决这一问题,一个新的资源类型TFJob,即TensorFlow Job被定义出来了。通过这个资源类