像Google一样构建机器学习系统2 - 开发你的机器学习工作流
本系列将利用阿里云容器服务,帮助您上手Kubeflow Pipelines.
- 第一篇:在阿里云上搭建Kubeflow Pipelines
- 第二篇:开发你的机器学习工作流
- 第三篇:利用MPIJob运行ResNet101
按照上篇文章搭建了一套Kubeflow Pipelines之后,我们一起小试牛刀,用一个真实的案例,学习如何开发一套基于Kubeflow Pipelines的机器学习工作流。
准备工作
机器学习工作流是一个任务驱动的流程,同时也是数据驱动的流程,这里涉及到数据的导入和准备,模型训练Checkpoint的导出评估,到最终模型的导出。这就需要分布式存储作为传输的媒介,这里使用NAS作为分布式存储。
- 创建分布式存储,这里以NAS为例。这里
NFS_SERVER_IP需要替换成真实NAS服务器地址
1.创建阿里云NAS服务,可以参考文档
2.需