《循序渐进学Spark》一第1章
本节书摘来自华章出版社《循序渐进学Spark》一书中的第1章,第1.1节,作者 小象学院 杨 磊 更多章节内容可以访问云栖社区“华章计算机”公众号查看。 第1章 Spark架构与集群环境 本章首先介绍Spark大数据处理框架的基本概念,然后介绍Spark生态系统的主要组成部分,包括Spark SQL、Spark Streaming、MLlib和GraphX,接着简要描述了Spark的架构,便于读者认识和把握,最后描述了Spark集群环境搭建及Spark开发环境的构建方法。 1.1 Spark概述与架构 随着互联网规模的爆发式增长,不断增加的数据量要求应用程序能够延伸到更大的集群中去计算。与单台机器计算不同,集群计算引发了几个关键问题,如集群计算资源的共享、单点宕机、节点执行缓慢及程序的并行化。针对这几个集群环境的问题,许多大数据处理框