深入理解Spark:核心思想与源码分析. 2.3 Spark基本设计思想
2.3 Spark基本设计思想
2.3.1 Spark模块设计
整个Spark主要由以下模块组成:
Spark Core:Spark的核心功能实现,包括:SparkContext的初始化(Driver Application通过SparkContext提交)、部署模式、存储体系、任务提交与执行、计算引擎等。
Spark SQL:提供SQL处理能力,便于熟悉关系型数据库操作的工程师进行交互查询。此外,还为熟悉Hadoop的用户提供Hive SQL处理能力。
Spark Streaming:提供流式计算处理能力,目前支持Kafka、Flume、Twitter、MQTT、ZeroMQ、Kinesis和简单的TCP套接字等数据源。此外,还提供窗口操作。
GraphX:提供图计算处理能力,支持分布式,Pregel提供的API可以解决图计算中的常见问题。