Spark RDD概念学习系列之为什么会引入RDD？（一）-低调大师

Spark RDD概念学习系列之为什么会引入RDD？（一）

2017-11-13 543

为什么会引入RDD？

我们知道，无论是工业界还是学术界，都已经广泛使用高级集群编程模型来处理日益增长的数据，如MapReduce和Dryad。这些系统将分布式编程简化为自动提供位置感知性调度、容错以及负载均衡，使得大量用户能够在商用集群上分析超大数据集。大多数现有的集群计算系统都是基于非循坏的数据流模型。即从稳定的物理存储（如分布式文件系统）中加载记录，记录被传入由一组稳定性操作构成的DAG(Directed Acyclic Graph，有向无环图)，然后写回稳定存储。DAG数据流图能够在运行时自动实现任务调度和故障恢复。

尽管非循环数据流是一种强大的抽象方法，但仍然有些应用无法使用这种方式描述。这类应用包括：

1）机器学习和图应用中常用的迭代算法（每一步对数据执行相似的函数）；

2）交互式数据挖掘工具（用户反复查询一个数据子集）。

基于数据流的框架并不明确支持工作集，所以需要将数据输出到磁盘，然后在每次查询时重新加载，这会带来较大的开销。针对上述问题，Spark实现了一种分布式的内存抽象，称为RDD(弹性分布式数据集)。

它支持基于工作集的应用，同时具有数据流模型的特点：自动容错，位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用于工作集，这极大地提升了查询速度。

本文转自大数据躺过的坑博客园博客，原文链接：http://www.cnblogs.com/zlslch/p/5717055.html，如需转载请自行联系原作者

微信关注我们

原文链接：https://yq.aliyun.com/articles/371344

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Spark shell的原理深入研究

Spark shell是一个特别适合快速开发Spark原型程序的工具，可以帮助我们熟悉Scala语言。即使你对Scala不熟悉，仍然可以使用这个工具。Spark shell使得用户可以和Spark集群交互，提交查询，这便于调试，也便于初学者使用Spark。感受到Spark shell是如此的方便，因为它很大程度上基于Scala REPL(Scala 交互式shell，即Scala解释器)，并继承了Scala REPL(读取-求值-打印-循环)(Read-Evaluate-Print-Loop)的所有功能。 Sprk Shell虽然强大，但多数时候你还是会运行编译后的代码，而不是使用REPL环境，即API。这里啊，首次使用spark一般都是从执行spark-shell开始的。当在键盘上敲入spark-shell并回车时，我用源码来分析。这里是个知识点。若没有对spark进行安装集群部署，直接将spark的压缩包，解压，然后执行spark-shell，默认是local模式。关于spark的安装部署方式，我这里不多赘述。请移步 Spark运行模式概述而，我...

2017-11-14

615

shuffle是非常重要！一定要深入理解和多实践。缓存，分组，排序，转发，这些都是mr的shuffle。 Soga 我想得到按流量来排序，而且还是倒序，怎么达到实现呢？这就牵扯到排序的的问题默认是根据key来排，我想根据value里的某个排，解决思路:将value里的某个，放到key里去，然后来排下面，开始weekend110的hadoop的自定义排序实现也要修改FlowBean代码本文转自大数据躺过的坑博客园博客，原文链接：http://www.cnblogs.com/zlslch/p/5713701.html，如需转载请自行联系原作者

2017-11-14

598

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。