《Spark大数据处理:技术、应用与性能优化》——1.3 Spark架构
本节书摘来自华章计算机《Spark大数据处理:技术、应用与性能优化》一书中的第1章,第1.3节,作者:高彦杰 更多章节内容可以访问云栖社区“华章计算机”公众号查看。 1.3 Spark架构 从上文介绍可以看出,Spark是整个BDAS的核心。生态系统中的各个组件通过Spark来实现对分布式并行任务处理的程序支持。1.Spark的代码结构图1-3展示了Spark-1.0的代码结构和代码量(不包含Test和Sample代码),读者可以通过代码架构对 Spark的整体组件有一个初步了解,正是这些代码模块构成了Spark架构中的各个组件,同时读者可以通过代码模块的脉络阅读与剖析源码,这对于了解Spark的架构和实现细节都是很有帮助的。下面对图1-3中的各模块进行简要介绍。scheduler:文件夹中含有负责整体的Spark应用、任务调度的代码