Apache Spark机器学习.1.7 机器学习工作流示例
1.7 机器学习工作流示例
为了进一步了解学习机器学习的工作流,在这里让我们学习一些例子。
本书后续章节会研究风险建模、欺诈检测、客户视图、流失预测和产品推荐。对于诸如此类的项目,目标往往是确定某些问题的原因,或者建立一个因果模型。下面是使用工作流建立一个因果模型的一个例子。
1.检查数据结构,以确保更好地理解数据:
数据是横截面数据吗?是隐含着时间信息的合并数据吗?
是否使用了分类变量?
2.检查缺失值:
不知道或者忘记了一个答案可能会被记录为一个中立或特殊的类别
一些变量可能有很多缺失值
根据需要重新记录一些变量
3.进行一些描述性研究,开始讲故事:
使用比较方法和交叉列表
检查一些关键变量的变异性(标准差和方差)
4.ind变量(外生变量)的选择组:
作为问题原因的候选
5.基本描述性统计:
所有变量的均值、标准差和频率
6.测量工作:
研究一些测量值的规模(