深入理解Spark：核心思想与源码分析. 2.1　初识Spark-低调大师

深入理解Spark：核心思想与源码分析. 2.1　初识Spark

2017-05-01 621

2.1　初识Spark

2.1.1　Hadoop MRv1的局限

Hadoop1.0版本采用的是MRv1版本的MapReduce编程模型。MRv1版本的实现都封装在org.apache.hadoop.mapred包中，MRv1的Map和Reduce是通过接口实现的。MRv1包括三个部分：

运行时环境（JobTracker和TaskTracker）；

编程模型（MapReduce）；

数据处理引擎（Map任务和Reduce任务）。

MRv1存在以下不足：

可扩展性差：在运行时，JobTracker既负责资源管理又负责任务调度，当集群繁忙时，JobTracker很容易成为瓶颈，最终导致它的可扩展性问题。

可用性差：采用了单节点的Master，没有备用Master及选举操作，这导致一旦Master出现故障，整个集群将不可用。

资源利用率低：TaskTra

微信关注我们

原文链接：https://yq.aliyun.com/articles/82138

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

深入理解Spark：核心思想与源码分析. 1.5　小结

1.5　小结本章通过引导大家在Linux操作系统下搭建基本的执行环境，并且介绍spark-shell等脚本的执行，来帮助读者由浅入深地进行Spark源码的学习。由于目前多数开发工作都在Windows系统下进行，并且Eclipse有最广大的用户群，即便是一些开始使用IntelliJ的用户对Eclipse也不陌生，所以在Windows环境下搭建源码阅读环境时，选择这些最常用的工具，能降低读者的学习门槛，并且替大家节省时间。

2017-05-01

641

本节书摘来自华章出版社《Spark大数据分析：核心概念、技术及实践》一书中的第3章，第3.7节，作者[美]　穆罕默德·古勒（MohammedGuller），更多章节内容可以访问云栖社区“华章计算机”公众号查看。 3.7　缓存除了将数据驻留在内存中以外，缓存在RDD中也扮演了另外一个重要的角色。就像之前所说的，创建RDD有两种方式，从存储系统中读取数据或者应用其他现存RDD的转换操作。默认情况下，当一个RDD的操作方法被调用时，Spark会根据它的父RDD来创建这个RDD，这有可能导致父RDD的创建。如此往复，这个过程一直持续到Spark找到根RDD，而后Spark通过从过存储系统读取数据的方式创建根RDD。操作方法被调用一次，上面说的过程就会执行一遍。每次调用操作方法，Spark都会遍历这个调用者RDD的血统树，执行所有的转换操

2017-05-01

723

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。