《循序渐进学Spark》一第3章
本节书摘来自华章出版社《循序渐进学Spark》一书中的第3章,第3.1节,作者 小象学院 杨 磊,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
第3章
Spark机制原理
本书前面几章分别介绍了Spark的生态系统、Spark运行模式及Spark的核心概念RDD和基本算子操作等重要基础知识。本章重点讲解Spark的主要机制原理,因为这是Spark程序得以高效执行的核心。本章先从Application、job、stage和task等层次阐述Spark的调度逻辑,并且介绍FIFO、FAIR等经典算法,然后对Spark的重要组成模块:I/O与通信控制模块、容错模块及Shuffle模块做了深入的阐述。其中,在Spark I/O模块中,数据以数据块的形式管理,存储在内存、磁盘或者Spark集群中的其他机器上。Spark集群通信机制采用了