[Spark]Spark RDD 指南五持久化-低调大师

[Spark]Spark RDD 指南五持久化

2017-06-15 702

1. 概述

Spark中最重要的功能之一是操作时在内存中持久化(缓存)数据集(persisting (or caching) a dataset in memory across operations)。当我们让Spark持久化存储一个RDD时，每个节点都会将其计算的任何分区存储在内存中，并将其重用于该数据集（或从其派生的数据集）的其他行动操作(each node stores any partitions of it that it computes in memory and reuses them in other actions on that dataset (or datasets derived from it))。这样可以使以后的动作操作执行的更快（通常超过10倍）。缓存是迭代算法和快速交互使用的关键工具。

可以使用RDD上的persist()或cache()方法来标记要持久化的RDD(执行persist和cache方法不会持久化RDD)。当RDD第一次在动作操作中计算时，它将持久化(缓存)到节点的内存中。Spark的缓存是可容错的 - 如果RDD的任何分区丢失，它将使用最初创建的转换操作自动重新计算。

2. 存储级别

除此之外，可以使用不同的持久化级别来存储每个持久化的RDD，从而允许你将数据集保留在磁盘上，或者将其以序列化的Java对象存储在内存中(以节省空间)，或者将其复制到所有节点上( to persist the dataset on disk, persist it in memory but as serialized Java objects (to save space), replicate it across nodes)。通过将StorageLevel对象传递给persist()方法来设置持久化级别。 cache()方法使用默认存储级别，即StorageLevel.MEMORY_ONLY。

持久化级别	说明
MEMORY_ONLY	将RDD以非序列化的Java对象存储在JVM中。如果没有足够的内存存储RDD，则某些分区将不会被缓存，每次需要时都会重新计算。这是默认级别。
MEMORY_AND_DISK	将RDD以非序列化的Java对象存储在JVM中。如果数据在内存中放不下，则溢写到磁盘上．需要时则会从磁盘上读取
MEMORY_ONLY_SER (Java and Scala)	将RDD以序列化的Java对象(每个分区一个字节数组)的方式存储．这通常比非序列化对象(deserialized objects)更具空间效率，特别是在使用快速序列化的情况下，但是这种方式读取数据会消耗更多的CPU。
MEMORY_AND_DISK_SER (Java and Scala)	与`MEMORY_ONLY_SER`类似，但如果数据在内存中放不下，则溢写到磁盘上，而不是每次需要重新计算它们。
DISK_ONLY	将RDD分区存储在磁盘上。
MEMORY_ONLY_2, MEMORY_AND_DISK_2等	与上面的储存级别相同，只不过将持久化数据存为两份，备份每个分区存储在两个集群节点上。
OFF_HEAP（实验中）	与`MEMORY_ONLY_SER`类似，但将数据存储在堆内存中。这需要启用堆内存。

备注

在Python中，存储对象将始终使用Pickle库进行序列化，持久化级别默认值就是以序列化后的对象存储在JVM堆空间中，因此选择什么样的序列化级别是无关紧要的。当我们把数据写到磁盘或者堆外存储上时，也总是使用序列化后的数据．Python中的可用存储级别包括MEMORY_ONLY，MEMORY_ONLY_2，MEMORY_AND_DISK，MEMORY_AND_DISK_2，DISK_ONLY和DISK_ONLY_2。

在Shuffle操作中(例如，reduceByKey)，即使用户没有主动对数据进行持久化，Spark也会对一些中间数据进行持久化。这样做是为了避免重新计算整个输入，如果一个节点在Shuffle过程中发生故障。如果要重用，我们仍然建议用户对生成的RDD进行持久性。

3. 选择存储级别

Spark的存储级别旨在提供内存使用率和CPU效率之间的不同权衡。我们建议通过以下过程来选择一个：

如果你的RDD适合于默认存储级别（MEMORY_ONLY），那就保持不动。这是CPU效率最高的选项，允许RDD上的操作尽可能快地运行。
如果不是，请尝试使用MEMORY_ONLY_SER并选择一个快速的序列化库，这种方式更加节省空间，并仍然能够快速访问。（Java和Scala）
不要溢写到磁盘，除非在数据集上的计算操作成本较高，或者需要过滤大量的数据。否则，重新计算分区可能与从磁盘读取分区一样快。
如果要快速故障恢复（例如，使用Spark为Web应用程序提供服务），请使用副本存储级别replicated storage levels。所有存储级别通过重新计算丢失的数据来提供完整的容错能力，但副本数据可让你继续在RDD上运行任务，而无需重新计算丢失的分区。

4. 清除数据

Spark会自动监视每个节点的缓存使用情况，并以最近最少使用（LRU）方式丢弃旧的数据分区。如果您想手动删除RDD，而不是等待它自动从缓存中删除，请使用RDD.unpersist()方法。

原文：http://spark.apache.org/docs/latest/programming-guide.html#rdd-persistence

微信关注我们

原文链接：https://yq.aliyun.com/articles/632154

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Presto 0.179 发布，Facebook 大数据查询引擎

Presto 0.179 已发布，Presto 是 Facebook 开源的数据查询引擎，可对250PB以上的数据进行快速地交互式分析，查询的速度达到商业数据仓库的级别。据称该引擎的性能是 Hive 的 10 倍以上。 Presto 可以查询包括 Hive、Cassandra 甚至是一些商业的数据存储产品。单个 Presto 查询可合并来自多个数据源的数据进行统一分析。更新内容：新增基于文件的全局安全性，可以使用 “etc / access-control.properties” 进行配置和“security.config-file"配置属性。将时区数据库更新到 2017b 版本在服务器日志中修改敏感的配置属性值减少 map / array 聚合函数的内存使用量修复协调器上的内存泄漏修复在处理字典编码数据时可能导致错误结果的问题了解详细更新内容，请查阅发行日志。下载地址： Source code (zip) Source code (tar.gz) 文章转载自开源中国社区[https://www.oschina.net]

2017-06-15

643

1：Vmware虚拟软件里面安装好Ubuntu操作系统之后使用ifconfig命令查看一下ip; 2：使用Xsheel软件远程链接自己的虚拟机，方便操作。输入自己ubuntu操作系统的账号密码之后就链接成功了； 3：修改主机的名称vi /etc/hostname和域名和主机映射对应的关系 vi /etc/hosts，改过之后即生效，自己可以ping一下，我这里ip对应master，比如ping master之后发现可以ping通即可；（centos操作系统修改主机名命令：vi /etc/sysconfig/network，修改内容为HOSTNAME=master） 4:修改过主机名称和主机名与ip对应的关系之后；开始上传jdk，使用filezilla这个工具将jdk文件以及其他文件上传到ubuntu操作系统中; 鼠标左击选中想要上传的文件拖到右边即可，如下所示：上传成功之后可以检查一下，这里默认上传到root目录下面；显示已经上传成功即可； 5：上传之后创建一个文件夹用于存放上传的文件或者压缩包；记住-C是大写，小写的-c会报错，见下面的测试结果；解压缩之后可以进到自己创建...

2017-06-15

873

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。