spark | 手把手教你用spark进行数据预处理-低调大师

spark | 手把手教你用spark进行数据预处理

2020-07-02 812

云栖号资讯：【点击查看更多行业资讯】
在这里您可以找到不同行业的第一手的上云资讯，还在等什么，快来！

过滤去重

在机器学习和数据分析当中，对于数据的了解和熟悉都是最基础的。所谓巧妇难为无米之炊，如果说把用数据构建一个模型或者是支撑一个复杂的上层业务比喻成做饭的话。那么数据并不是“米”，充其量最多只能算是未脱壳的稻。要想把它做成好吃的料理，必须要对原生的稻谷进行处理。

但是处理也并不能乱处理，很多人做数据处理就是闷头一套三板斧。去空值、标准化还有one-hot，这一套流程非常熟悉。以至于在做的时候都不会想，做这些处理的意义是什么。我们做数据处理也是有的放矢的，针对不同的情况采取不同的策略。所以说到这里，你应该已经明白了，首要任务还是需要先对数据有个基本的了解，做到心中有数。

那么怎么做到心中有数呢？我们先来看一个具体的例子，假设现在我们有了这么一批数据：

df = spark.createDataFrame([
(1, 144.5, 5.9, 33, 'M'),
(2, 167.2, 5.4, 45, 'M'),
(3, 124.1, 5.2, 23, 'F'),
(4, 144.5, 5.9, 33, 'M'),
(5, 133.2, 5.7, 54, 'F'),
(3, 124.1, 5.2, 23, 'F'),
(5, 129.2, 5.3, 42, 'M'),
], ['id', 'weight', 'height', 'age', 'gender'])

这批数据粗略看起来没什么问题，但实际上藏着好几个坑。

首先，id为3的数据有两条，不仅如此，这两条数据的特征也完全一样。其次，id为1和4的数据特征也完全相同，只是id不同。除此之外，id为5的数据也有两条，但是它们的特征都不同。显然这不是同一条数据，应该是记录的时候出现的错误。

那么对于这样一份数据，我们怎么发现它们当中的问题，又怎么修正呢？

我们先从最简单开始，先来找找完全一样的数据。我们通过count方法可以求出整个数据集当中的条数，通过distinct().count()可以获得去重之后的数据数量。这两个结合一起使用，就可以看出是否存在数据完全重复的情况。

可以看出来，直接count是7条，如果加上distinct的话是6条，也就是说出现了数据的完全重复。那么我们可以知道，我们需要做一下去重，去除掉完全重复的行，要去除也非常简单，dataframe当中自带了dropDuplicates方法，我们直接调用即可：

很明显，刚才两条完全一样id为3的数据少了一条，被drop掉了。

接下来，我们继续分析，怎么判断是否存在id不同但是其他数据相同的情况呢？

其实也是一样使用distinct.count，只不过我们需要把count distinct运算的范畴去除掉id。我们可以通过columns获取dataframe当中的列名，我们遍历一下列名，过滤掉id即可。

这里我们依然还是套用的distinct.count只不过我们在使用之前通过select限制了使用范围，只针对除了id之外的列进行去重的计算。

不仅distinct如此，dropDuplicate同样可以限制作用的范围。使用的方法也很简单，我们通过subset这个变量来进行控制，我们传入一个list，表示duplicate的范围。

可以很明显地看到，我们的数据又减少了一条。说明我们去除掉了id不同但是内容一样的情况，最后还剩下id相同，但是内容不同的情况。这种情况一般是由于记录的时候发生了错误，比如并发没有处理好，导致两条不同的信息采用了同一个id。

这个很简单，因为我们已经经过了整体去重了，所以正常是不应该存在id一样的条目的。所以我们只需要判断id是否有重复就好了。判断的方法也很简单，我们count一下id的数量。

这里我们可以和之前一样通过distinct.count来判断，这里我们介绍一种新的方法，叫做agg。agg是aggregate的缩写，直译过来是聚合的意思。通过agg我们可以对一些列进行聚合计算，比如说sum、min、max这些。在这个问题当中，我们要进行的聚合计算就是count和count distinct，这两个也有现成的函数，我们导入就可以直接用了。

也就是说通过agg我们可以同时对不同的列进行聚合操作，我们发现加上了distinct之后，只剩下了4条，说明存在两条不同的数据id一样的情况。
接下来我们要做的就是给这些数据生成新的id，从而保证每一条数据的id都是unique的。这个也有专门的函数，我们直接调用就好：

monotonically_increasing_id这个方法会生成一个唯一并且递增的id，这样我们就生成了新的id，完成了整个数据的去重过滤。

空值处理

当我们完成了数据的过滤和清洗还没有结束，我们还需要对空值进行处理。因为实际的数据往往不是完美的，可能会存在一些特征没有收集到数据的情况。空值一般是不能直接进入模型的，所以需要我们对空值进行处理。

我们再创建一批数据：

df_miss = spark.createDataFrame([
(1, 143.5, 5.6, 28, 'M', 100000),
(2, 167.2, 5.4, 45, 'M', None),
(3, None , 5.2, None, None, None),
(4, 144.5, 5.9, 33, 'M', None),
(5, 133.2, 5.7, 54, 'F', None),
(6, 124.1, 5.2, None, 'F', None),
(7, 129.2, 5.3, 42, 'M', 76000),
], ['id', 'weight', 'height', 'age', 'gender', 'income'])

这份数据和刚才的相比更加贴近我们真实的情况，比如存在若干行数据大部分列为空，存在一些列大部分行为空。因为现实中的数据往往是分布不均匀的，存在一些特征和样本比较稀疏。比如有些标签或者是行为非常小众，很多用户没有，或者是有些用户行为非常稀疏，只是偶尔使用过产品，所以缺失了大部分特征。

所以我们可能会希望查看一下有哪些样本的缺失比较严重，我们希望得到一个id和缺失特征数量映射的一个pair对。这个操作通过dataframe原生的api比较难实现，我们需要先把dataframe转成rdd然后再通过MapReduce进行：

我们可以看到是3对应的缺失值最多，所以我们可以单独看下这条数据：

我们可能还会向看下各列缺失值的情况，究竟有多少比例缺失了。由于我们需要对每一列进行聚合，所以这里又用到了agg这个方法：

这段代码可能看起来稍稍有一点复杂，因为用到了这个操作。因为当agg这个函数传入一个list之后，可以对多列进行操作。而在这里，我们要对每一列进行统计。由于列数很多，我们手动列举显然是不现实的。所以我们用循环实现，操作符的意思就是将循环展开。count('*')等价于SQL语句当中的count(1)，也就是计算总条数的意思。

从结果当中我们可以看出来，income这个特征缺失得最严重，足足有71%的数据是空缺的。那么显然这个特征对我们的用处很小，因为缺失太严重了，也不存在填充的可能。所以我们把这行去掉：

我们去掉了income之后发现还是存在一些行的缺失非常严重，我们希望设置一个阈值，将超过一定数量特征空缺的行过滤，因为起到的效果也很小。

这个功能不用我们自己开发了，dataframe当中原生的api就支持。

经过这样的处理之后，剩下的缺失就比较少了。这个时候我们就不希望再进行删除了，因为只有个别数据空缺，其他数据还是有效果的，如果删除了会导致数据量不够。所以我们通常的方式是对这些特征进行填充。

缺失值填充是一种非常常见的数据处理方式，填充的方式有好几种。比如可以填充均值，也可以填充中位数或者是众数，还可以另外训练一个模型来根据其他特征来预测。总之手段还是挺多的，我们这里就用最简单的方法，也就是均值来填充。看看spark当中使用均值填充是怎么操作的。

既然要填充，那么显然需要先算出均值。所以我们首先要算出每一个特征的均值。这里性别是要排除的，因为性别是类别特征，不存在均值。所以如果要填充性别的话，就只能填充众数或者是用模型来预测了，不能直接用均值。

均值的计算本身并不复杂，和刚才的一系列操作差不多。但是有一点需要注意，我们这里得到了结果但是却不能直接作为参数传入。因为dataframe中的fillna方法只支持传入一个整数、浮点数、字符串或者是dict。所以我们要把这份数据转化成dict才行。这里的转化稍稍有些麻烦，因为dataframe不能直接转化，我们需要先转成pandas再调用pandas当中的to_dict方法。

我们有了dict类型的均值就可以用来填充了：

总结

在实际的工作或者是kaggle比赛当中，涉及的数据处理和分析的流程远比文章当中介绍到的复杂。但去重、过滤、填充是数据处理当中最基础也是最重要的部分。甚至可以说无论应用场景如何变化，解决问题的方法怎么更新，这些都是不可缺失的部分。

【云栖号在线课堂】每天都有产品技术专家分享！
课程地址：https://yqh.aliyun.com/live

立即加入社群，与专家面对面，及时了解课程最新动态！
【云栖号在线课堂社群】https://c.tb.cn/F3.Z8gvnK

原文发布时间：2020-07-02
本文作者：承志
本文来自：“掘金”，了解相关信息可以关注“掘金”

微信关注我们

原文链接：https://yq.aliyun.com/articles/766652

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Jboot v3.2.7 发布，基于 JFinal 的另一个 SpringCloud 的选择

Jboot 是一个基于 JFinal、JFinal-Undertow、Dubbo、Seata、Sentinel、ShardingSphere、Nacos 等开发的微服务框架，帮助开发者降低微服务开发门槛。同时完美支持在 idea、eclipse 下多 maven 模块，对 java 代码、html、css、js 等资源文件进行热加载。爽爽开发，快乐生活。 Jboot 目前已经开源超过了 3 年的时间，迭代了 100+ 个版本，已经被超过 1000+ 公司在使用。 Jboot 主要有以下特征： 1、基于 JFinal 的 MVC + ORM 快速开发。 2、基于ShardingSphere +Seata 分布式事务和分库分表。 3、基于 Dubbo 或 Motan 的 RPC 实现 4、基于 Sentinel 的分布式限流和降级 5、基于 Apollo 和 Nacos 的分布式配置中心 6、基于 EhCache 和 Redis 的分布式二级缓存 Jboot v3.2.7 更新内容如下：新增：为 JbootJson 新增 camelCaseToLowerCaseAnyway 配置，...

2020-07-03

734

云栖号资讯：【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯，还在等什么，快来！序言经常遇到很多朋友询问，如何学好 Elasticsearch？这个问题本质上很不好回答，但我一直又很想好好回答，所以本文就以我个人的经验视角，跟大家探讨一下如何正确的拥抱 Elasticsearch。若有不当之处，欢迎留言指正。 ES 认知1、ES 是什么Elasticsearch 是什么，不同的人有不同的理解定位，之前写过 Elasticsearch 对比其它数据产品的文章《Elasticsearch 对垒 8 大竞品技术，孰优孰劣？》，看了文章下面的评论，很多人定位它是搜索引擎，我觉得也很片面，下面就谈谈我的认知： 1）Elasticsearch 是搜索引擎Elasticsearch 在搜索引擎数据库领域排名绝对第一，内核基于 Lucene 构建，支持全文搜索是职责所在，提供了丰富友好的 API。个人早期基于 Lucene 构建搜索应用，需要考虑的因素太多，自接触到 Elasticsearch 就再无自主开发搜索应用。普通工程师要想掌控 Lucene 需要一些代价，且很多机制并不完...

2020-07-02

730

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。