《循序渐进学Spark》一 3.3 Spark存储与I/O
本节书摘来自华章出版社《循序渐进学Spark》一书中的第3章,第3.3节,作者 小象学院 杨 磊,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
3.3 Spark存储与I/O
前面已经讲过,RDD是按照partition分区划分的,所以RDD可以看作由一些分布在不同节点上的分区组成。由于partition分区与数据块是一一对应的,所以RDD中保存了partitionID与物理数据块之间的映射。物理数据块并非都保存在磁盘上,也有可能保存在内存中。
3.3.1 Spark存储系统概览
Spark I/O机制可以分为两个层次:
1)通信层:用于Master与Slave之间传递控制指令、状态等信息,通信层在架构上也采用Master-Slave结构。
2)存储层:同于保存数据块到内存、磁盘,或远端复制数据块。
下面介绍几个Spark存储方面的功