初学Spark
什么是Spark?
Spark是一个分布式计算引擎,2009年诞生于UC伯克利的AMPLab,2010年开源并于2013年成为Apache顶级项目。
| 名称 | 地址 |
|---|---|
| 官方网站 | https://spark.apache.org/ |
| git地址 | https://github.com/apache/spark |
Spark具有如下特点:
1.快速
- DAG框架
Spark采用的是DAG框架,DAG是在MapReduce框架基础上演化而来。
对于一些复杂的数据处理,比如有多个Reduce Stage,MapReduce框架中一个Reduce前面必须要有一个Map(Map-Reduce-Map-Reduce...),不能多个Reduce级联处理,这样会导致处理过程中会增加很多冗余的Map阶段,即使Map不做任何数据处理(读取HDFS数据直接输出),但是这个过程耗费了很