Meson:支持Netflix的机器学习工作流
Netflix的目标是能预测顾客之所想观看的电影,也即推荐预测。为了做到这一点,每天会运行大量机器学习工作流,而为了支撑创建这么多机器学习工作流和有效利用资源,Netflix的工程师开发了Meson。 Meson是一个通用的工作流和调度框架,它可以跨异质性系统进行ML管道管理、执行工作流。Meson维护构建、训练和验证个性化算法(视频推荐等)的ML管道的生命周期。 Meson的主要目标之一是提高算法实验的速度、稳定性和可重复性,同时允许工程师使用他们自己选择的技术。 机器学习管道的强大面孔 Netflix当前几种生成机器学习管道的关键角色是Spark, MLlib, Python, R和Docker。 下面来了解下一个典型的视频推荐的机器学习管道,以及它们在Meson中是如何表示和处理的。 工作流涉及到如下几点: 选择用户集:通过Hive查询来选择用户集来做人群行为分析; 清晰/预处理数据:使用Python脚本创建两个用户集来确保并行路径;并行路径:一个路径使用Spark构建和分析全局模型,并保存到HDFS作为临时存储。另外一个使用R来构建区域模型。区域的数量是基于人群选择分析而动态变...
