《Spark大数据分析:核心概念、技术及实践》Spark Core
本节书摘来自华章出版社《Spark大数据分析:核心概念、技术及实践》一书中的第1章,第节,作者穆罕默德·古勒(Mohammed Guller)更多章节内容可以访问云栖社区“华章计算机”公众号查看。 Spark Core Spark是大数据领域最活跃的开源项目,甚至比Hadoop还要热门。如第1章所述,它被认为是Hadoop的继任者。Spark的使用率大幅增长。很多组织正在用Spark取代Hadoop。 从概念上看,Spark类似于Hadoop,它们都用于处理大数据。它们都能用商用硬件以很低的成本处理大数据。然而,相比于Hadoop,Spark有很多的优势,这些将在本章进行介绍。 本章主要介绍Spark Core,这也是Spark生态系统的基础。我们首先概述Spark Core,然后介绍Spark的总体架构和应用程序运行时的情况。Spark Core的编程接口也会一并介绍。 3.1 概述 Spark是一个基于内存的用于处理、分析大数据的集群计算框架。它提供了一套简单的编程接口,从而使得应用程序开发者方便使用集群节点的CPU、内存、存储资源来处理大数据。 3.1.1 主要特点 Spark的...