Apache Spark机器学习.1.6 机器学习工作流和Spark pipeline
1.6 机器学习工作流和Spark pipeline
在本节中,我们介绍机器学习工作流和Spark pipeline,然后讨论Spark pipeline作为机器学习计算工作流的优秀工具是如何发挥作用的。
学习完本节,读者将掌握这两个重要概念,并且为编程和实现机器学习工作流的Spark pipeline做好准备。
机器学习的工作流步骤
几乎所有的机器学习项目均涉及数据清洗、特征挖掘、模型估计、模型评估,然后是结果解释,这些都可以组织为循序渐进的工作流。这些工作流有时称为分析过程。
有些人甚至定义机器学习是将数据转化为可执行的洞察结果的工作流,有些人会在工作流中增加对业务的理解或问题的定义,以作为他们工作的出发点。
在数据挖掘领域,跨行业数据挖掘标准过程(CRISP-DM)是一个被广泛接受和采用的标准流程。许多标准机器学习的工作流都只是CRIS