Apache Spark机器学习.2.1 访问和加载数据集
摘要
Spark机器学习的数据准备
机器学习从业者和数据科学家时常耗费70%或80%的时间为机器学习项目准备数据。数据准备可能是很艰辛的工作,但是它影响到接下来的各方面工作,因此是非常必要和极其重要的。所以,在本章中,我们将讨论机器学习中所有必要的数据准备方面的内容,通常包括数据获取、数据清洗、数据集连接,再到特征开发,从而让我们为基于Spark平台构建机器学习模型准备好数据集。具体而言,我们将讨论前面提到的以下6个数据准备任务,然后在针对复用性和自动化的讨论中结束本章:
访问和加载数据集
开放可用的机器学习数据集
将数据集加载到Spark
使用Spark进行数据探索和可视化
数据清洗
处理数据缺失与不完整
基于Spark的数据清洗
数据清洗变得容易
一致性匹配
处理一致性问题
基于Spark的数据匹配
获得更好的数据匹配效果
数据重组
数据重组任务
基于Spar