Spark(二) -- Spark简单介绍
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq1010885678/article/details/45648737 spark是什么? spark开源的类Hadoop MapReduce的通用的并行计算框架 spark基于map reduce算法实现的分布式计算 拥有Hadoop MapReduce所具有的优点 但不同于MapReduce的是Job中间输出和结果可以保存在内存中 从而不再需要读写HDFS 从上面的官方解释中我们可以得到的信息时,spark是一套并行计算的框架,并且性能要比hadoop的map-reduce好 那么到底性能比较好是体现在哪里呢 基于内存的处理是spark速度快的原因之一 还有一个很重要的因素就是DAG DAG,有向无循环图 spark的任务可以分为数据转换和获得结果两步 在获得计算结果之前的操作,都是不执行的,而是根据这些步骤画成一张DAG 到真正要结果的时候才会执行这些计算,拿到计算结果 熟悉hadoop mr模型的人都知道,在mr任务中,每次步骤都会读取HDFS,也就是I/O操作,而一般来说,在...