您现在的位置是:首页 > 文章详情

Apache Spark机器学习.2.2 数据清洗

日期:2017-05-01点击:521

2.2 数据清洗


在本节中,我们将回顾一些Spark平台上的数据清洗方法,重点关注数据不完备性。然后,我们将讨论一些Spark数据清洗方面的特殊特征,以及一些基于Spark平台更加容易的数据清洗解决方案。

学习完本节,我们将能够完成数据清洗,并为机器学习准备好数据集。

2.2.1 处理数据不完备性

对于机器学习,数据越多越好。然而,通常数据越多,“脏数据”也会越多——这意味着会有更多的数据清洗工作。

数据质量控制可能会有许多问题需要处理,有些问题可能很简单,如数据输入错误或者数据复制。原则上,解决他们的方法是类似的——例如,利用数据逻辑来实现探索和获取项目的本质知识,利用分析逻辑来纠正他们。为此,在本节中,我们将重点关注缺失值处理,以便说明在这个主题上Spark的使用方法。数据清洗涵盖了数据的准确性、完整性、独特性、时效性和一致性。

虽然听起

原文链接:https://yq.aliyun.com/articles/84530
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章