Apache Spark机器学习.1.7 机器学习工作流示例
1.7 机器学习工作流示例 为了进一步了解学习机器学习的工作流,在这里让我们学习一些例子。 本书后续章节会研究风险建模、欺诈检测、客户视图、流失预测和产品推荐。对于诸如此类的项目,目标往往是确定某些问题的原因,或者建立一个因果模型。下面是使用工作流建立一个因果模型的一个例子。 1.检查数据结构,以确保更好地理解数据: 数据是横截面数据吗?是隐含着时间信息的合并数据吗? 是否使用了分类变量? 2.检查缺失值: 不知道或者忘记了一个答案可能会被记录为一个中立或特殊的类别 一些变量可能有很多缺失值 根据需要重新记录一些变量 3.进行一些描述性研究,开始讲故事: 使用比较方法和交叉列表 检查一些关键变量的变异性(标准差和方差) 4.ind变量(外生变量)的选择组: 作为问题原因的候选 5.基本描述性统计: 所有变量的均值、标准差和频率 6.测量工作: 研究一些测量值的规模(