《循序渐进学Spark》一2.3 Spark算子
本节书摘来自华章出版社《循序渐进学Spark》一书中的第2章,第2.3节,作者小象学院 杨 磊,更多章节内容可以访问云栖社区“华章计算机”公众号查看。 2.3 Spark算子 本节介绍Spark算子的分类及其功能。 2.3.1 算子简介 Spark应用程序的本质,无非是把需要处理的数据转换为RDD,然后将RDD通过一系列变换(transformation)和操作(action)得到结果,简单来说,这些变换和操作即为算子。 Spark支持的主要算子如图2-4所示。 根据所处理的数据类型及处理阶段的不同,算子大致可以分为如下三类: 1) 处理Value数据类型的Transformation算子;这种变换并不触发提交作业,处理的数据项是Value型的数据。 2) 处理Key-Value数据类型的Transfromation算子;这种变换并不触发提交