初学Spark
什么是Spark? Spark是一个分布式计算引擎,2009年诞生于UC伯克利的AMPLab,2010年开源并于2013年成为Apache顶级项目。 名称 地址 官方网站 https://spark.apache.org/ git地址 https://github.com/apache/spark Spark具有如下特点: 1.快速 DAG框架 Spark采用的是DAG框架,DAG是在MapReduce框架基础上演化而来。 对于一些复杂的数据处理,比如有多个Reduce Stage,MapReduce框架中一个Reduce前面必须要有一个Map(Map-Reduce-Map-Reduce...),不能多个Reduce级联处理,这样会导致处理过程中会增加很多冗余的Map阶段,即使Map不做任何数据处理(读取HDFS数据直接输出),但是这个过程耗费了很