您现在的位置是:首页 > 文章详情

Apache Spark机器学习.2.1 访问和加载数据集

日期:2017-05-01点击:466

摘要

Spark机器学习的数据准备

机器学习从业者和数据科学家时常耗费70%或80%的时间为机器学习项目准备数据。数据准备可能是很艰辛的工作,但是它影响到接下来的各方面工作,因此是非常必要和极其重要的。所以,在本章中,我们将讨论机器学习中所有必要的数据准备方面的内容,通常包括数据获取、数据清洗、数据集连接,再到特征开发,从而让我们为基于Spark平台构建机器学习模型准备好数据集。具体而言,我们将讨论前面提到的以下6个数据准备任务,然后在针对复用性和自动化的讨论中结束本章:

访问和加载数据集

开放可用的机器学习数据集

将数据集加载到Spark

使用Spark进行数据探索和可视化

数据清洗

处理数据缺失与不完整

基于Spark的数据清洗

数据清洗变得容易

一致性匹配

处理一致性问题

基于Spark的数据匹配

获得更好的数据匹配效果

数据重组

数据重组任务

基于Spar

原文链接:https://yq.aliyun.com/articles/84525
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章