Spark RDD概念学习系列之RDD的操作（七）-低调大师

Spark RDD概念学习系列之RDD的操作（七）

2017-11-02 707

RDD的操作

　 RDD支持两种操作：转换和动作。

1）转换，即从现有的数据集创建一个新的数据集。

2）动作，即在数据集上进行计算后，返回一个值给Driver程序。

例如，map就是一种转换，它将数据集每一个元素都传递给函数，并返回一个新的分布式数据集表示结果。另一个方面，reduce是一种动作，通过一些函数将所有元素叠加起来，并将最终结果返回Driver（还有一个并行的reduceByKey，能返回一个分布式数据集）。

下图描述了从外部数据源创建RDD，经过多次转换，通过一个动作操作将结果写回外部存储系统的逻辑运行图。整个过程的计算都是在Worker中的Executor中运行。

　　　　　　　　　　　　图 1　 RDD的创建、转换和动作的逻辑计算图

RDD的转换

RDD中的所有转换都是惰性的，也就是说，它们并不会直接计算结果。相反的，它们只是记住这些应用到基础数据集（例如一个文件）上的转换动作。只有当发生一个要求返回结果给Driver的动作时，这些转换才会真正运行。这个设计让Spark更加有效率地运行。例如我们可以实现：通过map创建的一个新数据集，并在reduce中使用，最终只返回reduce的结果给Driver，而不是整个大的新数据集。图2描述了RDD在进行groupByRey时的内部RDD转换的实现逻辑图。图3描述了reduceByKey的实现逻辑图。

　　　　　　　　　　　　　　　　图2　RDD groupByKey的逻辑转换图　　

在groupByKey的操作中，会在MapPartitionsRDD做一次Shuffle，图2中设置的分片数量是3，因此ShuffledRDD会有3个分片，ShuffledRDD实际上仅仅是从上游的任务中读取Shuffle的结果，因此图的箭头是指向上游的MapPartitionsRDD的。关于Shuffle的实现实际上要比图中展示得复杂得多。reduceByKey和groupByKey的实现差不多，它在Shuffle完成之后，需要做一次reduce。

　　　　　　　　　　　　　　　　　　　　图3 RDD reduceByKey 的逻辑转换图

默认情况下，每一个转换过的RDD都会在它执行一个动作时被重新计算。不过也可以使用persist（或者cache）方法，在内存中持久化一个RDD。在这种情况下，Spark将会在集群中保存相关元素，下次查询这个RDD时能更快访问它。也支持在磁盘上持久化数据集，或在集群间复制数据集。

本文转自大数据躺过的坑博客园博客，原文链接：http://www.cnblogs.com/zlslch/p/5723751.html，如需转载请自行联系原作者

微信关注我们

原文链接：https://yq.aliyun.com/articles/371278

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

一脸懵逼学习KafKa集群的安装搭建--（一种高吞吐量的分布式发布订阅消息系统）

1：KafKa的官方网址：http://kafka.apache.org/ 开发流程图，如： 2：KafKa的基础知识： 2.1：kafka是一个分布式的消息缓存系统2.2：kafka集群中的服务器都叫做broker2.3：kafka有两类客户端，一类叫producer（消息生产者），一类叫做consumer（消息消费者），客户端和broker服务器之间采用tcp协议连接2.4：kafka中不同业务系统的消息可以通过topic进行区分，而且每一个消息topic都会被分区，以分担消息读写的负载2.5：每一个分区都可以有多个副本，以防止数据的丢失2.6：某一个分区中的数据如果需要更新，都必须通过该分区所有副本中的leader来更新2.7：消费者可以分组，比如有两个消费者组A和B，共同消费一个topic：order_info,A和B所消费的消息不会重复比如 order_info 中有100个消息，每个消息有一个id,编号从0-99，那么，如果A组消费0-49号，B组就消费50-99号2.8：消费者在具体消费某个topic中的消息时，可以指定起始偏移量 3：KafKa集群的安装搭建，注意区分单...

2017-11-02

694

Spark相比Hadoop MapReduce的特点（1）中间结果输出基于MapReduce的计算引擎通常会将中间结果输出到磁盘上，进行存储和容错。出于任务管道承接的考虑，当一些查询翻译到MapReduce任务时，往往会产生多个Stage，而这些串联的Stage又依赖于底层文件系统（如HDFS）来存储每一个Stage的输出结果。Spark将执行模型抽象为通用的有向无环图执行计划（DAG），这可以将多Stage的任务串联或者并行执行，而无须将Stage中间结果输出到HDFS中。类似的引擎包括Dryad、Tez。（2）数据格式和内存布局由于MapReduce Schema on Read处理方式会引起较大的处理开销。 Spark抽象出分布式内存存储结构弹性分布式数据集RDD，进行数据的存储。 RDD能支持粗粒度写操作，但对于读取操作，RDD可以精确到每条记录，这使得RDD可以用来作为分布式索引。 Spark的特性是能够控制数据在不同节点上的分区，用户可以自定义分区策略，如Hash分区等。 Shark和Spark SQL在Spark的基础之上实现了列存储和列存储...

2017-11-02

671

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。