《循序渐进学Spark》一2.3 Spark算子
2.3 Spark算子
本节介绍Spark算子的分类及其功能。
2.3.1 算子简介
Spark应用程序的本质,无非是把需要处理的数据转换为RDD,然后将RDD通过一系列变换(transformation)和操作(action)得到结果,简单来说,这些变换和操作即为算子。
Spark支持的主要算子如图2-4所示。
根据所处理的数据类型及处理阶段的不同,算子大致可以分为如下三类:
1) 处理Value数据类型的Transformation算子;这种变换并不触发提交作业,处理的数据项是Value型的数据。
2) 处理Key-Value数据类型的Transfromation算子;这种变换并不触发提交
