Spark内部原理之运行原理一
原文来源于:Spark内部原理之运行原理一 在大数据领域,只有深挖数据科学领域,走在学术前沿,才能在底层算法和模型方面走在前面,从而占据领先地位。 Spark的这种学术基因,使得它从一开始就在大数据领域建立了一定优势。无论是性能,还是方案的统一性,对比传统的 Hadoop,优势都非常明显。Spark 提供的基于 RDD 的一体化解决方案,将 MapReduce、Streaming、SQL、Machine Learning、Graph Processing 等模型统一到一个平台下,并以一致的API公开,并提供相同的部署方案,使得 Spark 的工程应用领域变得更加广泛。 1. Spark 专业术语定义 1.1 Application:Spark应用程序 指的是用户编写的Spark应用程序,包含了Driver功能代码和分布在集群中多个节点上运行的Executor代码。 Spark应用程序,由一个或多个作业JOB组成,如下图所示。 1.2 Driver:驱动程序 Spark 中的 Driver 即运行上述 Application 的 Main() 函数并且创建 SparkContext,其中...