Spark-神奇的共享变量

2016-04-20 549

一般情况下，当一个传递给 Spark 操作 ( 例如 map 和 reduce) 的函数在远程节点上面运行时，Spark 操作实际上操作的是这个函数所用变量的一个独立副本。这些变量被复制到每台机器上，并且这些变量在远程机器上的所有更新都不会传递回驱动程序。通常跨任务的读写变量是低效的，但是， Spark 还是为两种常见的使用模式提供了两种有限的共享变量：广播变量（ broadcast variable ）和累加器（ accumulator ）。

广播变量

广播变量允许程序员缓存一个只读的变量在每台机器上面，而不是每个任务保存一份拷贝。例如，利用广播变量，我们能够以一种更有效率的方式将一个大数据量输入集合的副本分配给每个节点。（Broadcast variables allow the programmer to keep a read-only variable cached on each machine rather than shipping a copy of it with tasks.They can be used, for example, to give every node a copy of a large input dataset in an efficient manner.）Spark也尝试着利用有效的广播算法去分配广播变量，以减少通信的成本。一个广播变量可以通过调用 SparkContext.broadcast(v) 方法从一个初始变量v中创建。广播变量是v的一个包装变量，它的值可以通过 value 方法访问，下面的代码说明了这个过程：

<span style="font-size:24px;"> scala> val broadcastVar = sc.broadcast(Array(1, 2, 3))
 broadcastVar: spark.Broadcast[Array[Int]] = spark.Broadcast(b5c40191-a864-4c7d-b9bf-d87e1a4e787c)
 scala> broadcastVar.value
 res0: Array[Int] = Array(1, 2, 3)</span>

广播变量创建以后，我们就能够在集群的任何函数中使用它来代替变量 v ，这样我们就不需要再次传递变量v到每个节点上。另外，为了保证所有的节点得到广播变量具有相同的值，对象v不能在广播之后被修改。

累加器

顾名思义，累加器是一种只能通过关联操作进行“加”操作的变量，因此它能够高效的应用于并
行操作中。它们能够用来实现 counters 和 sums 。Spark原生支持数值类型的累加器，开发者可以自己添加支持的类型。如果创建了一个具名的累加器，它可以在spark的UI中显示。这对于理解运行阶段(running stages)的过程有很重要的作用。（注意：这在python中还不被支持）一个累加器可以通过调用 SparkContext.accumulator(v) 方法从一个初始变量 v 中创建。运行在集群上的任务可以通过 add 方法或者使用 += 操作来给它加值。然而，它们无法读取这个值。只有驱动程序可以使用 value 方法来读取累加器的值。如下的代码，展示了如何利用累加器将一个数组里面的所有元素相加：

<span style="font-size:24px;">scala> val accum = sc.accumulator(0, "My Accumulator")
accum: spark.Accumulator[Int] = 0
scala> sc.parallelize(Array(1, 2, 3, 4)).foreach(x => accum += x)
...
10/09/29 18:41:08 INFO SparkContext: Tasks finished in 0.317106 s
scala> accum.value
res2: Int = 10</span>

这个例子利用了内置的整数类型累加器。开发者可以利用子类 AccumulatorParam 创建自己的累加器类型。AccumulatorParam接口有两个方法： zero 方法为你的数据类型提供一个“0 值 ”（zero value）； addInPlace 方法计算两个值的和。例如，假设我们有一个 Vector 类代表数学上的向量，我们能够如下定义累加器：

<span style="font-size:24px;">object VectorAccumulatorParam extends AccumulatorParam[Vector] {
  def zero(initialValue: Vector): Vector = {
    Vector.zeros(initialValue.size)
  }
  def addInPlace(v1: Vector, v2: Vector): Vector = {
    v1 += v2
  }
}
// Then, create an Accumulator of this type:
val vecAccum = sc.accumulator(new Vector(...))(VectorAccumulatorParam)</span>

在scala中，Spark支持用更一般的Accumulable接口来累积数据-结果类型和用于累加的元素类型不一样（例如通过收集的元素建立一个列表）。Spark也支持用 SparkContext.accumulableCollection 方法累加一般的scala集合类型。

从 spark 官方网站查看一些 spark 运行例子。另外， Spark 的 example 目录包含几个 Spark 例子，你能够通过如下方式运行 Java 或者 scala 例子：
./bin/run-example SparkPi
为了优化你的项目， configuration 和 tuning 指南提高了最佳实践的信息保证你保存在内存中的数据是有效的格式是非常重要的事情。

微信关注我们

原文链接：https://yq.aliyun.com/articles/232697

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Spark-rdd的持久化

Spark 最重要的一个功能是它可以通过各种操作（ operations ）持久化（或者缓存）一个集合到内存中。当你持久化一个 RDD 的时候，每一个节点都将参与计算的所有分区数据存储到内存中，并且这些数据可以被这个集合（以及这个集合衍生的其他集合）的动作（ action ）重复利用。这个能力使后续的动作速度更快（通常快 10 倍以上）。对应迭代算法和快速的交互使用来说，缓存是一个关键的工具。你能通过 persist() 或者 cache() 方法持久化一个 rdd 。首先，在 action 中计算得到 rdd ；然后，将其保存在每个节点的内存中。Spark的缓存是一个容错的技术 -如果RDD的任何一个分区丢失，它可以通过原有的转换（ transformations ）操作自动的重复计算并且创建出这个分区。此外，我们可以利用不同的存储级别存储每一个被持久化的RDD。例如，它允许我们持久化集合到磁盘上、将集合作为序列化的 Java 对象持久化到内存...

2016-04-20

714

假如你想创建一个机器学习模型，但却发现你的输入数据集与你的计算机内存不相符？对于多机器的计算集群环境中通常可以使用如Hadoop和Apache Spark分布式计算工具。然而，Apache Spark能够在本地机器独立模式上，甚至在当输入数据集大于你的计算机内存时通过创建模型处理你的数据。 1.输入数据和预期结果在上一篇文章我们讨论了“How To Find Simple And Interesting Multi-Gigabytes Data Set”，本文将使用上文中提及数据集的Posts.xml文件。文件大小是34.6千兆字节，这个xml文件包含stackoverflow.com文章数据作为xml属性：标题 – 文章标题主体 – 文章文本标签 – 文章的标签列表 10+ 更多的xml -我们不需要使用的属性关于stackoverflow.com的Posts.xml完整数据集信息请点击：https://archive.org/details/stackexchange. 另外我创建一个较小版本的这种文件，里面只有10个条目或文章。此文件包含一个小尺寸的原始数据集，这个数据...

2016-04-20

718

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

Spark-神奇的共享变量

广播变量

累加器

Spark-rdd的持久化

基于超出内存可加载范围的数据集的逻辑回归分类器LR分类器

相关文章

发表评论

资源下载

Mario

Spring

Rocky Linux

Sublime Text

欢迎您来访！

Spark-神奇的共享变量

广播 变 量

累加器

Spark-rdd的持久化

基于超出内存可加载范围的数据集的逻辑回归分类器LR分类器

相关文章

发表评论

资源下载

Mario

Spring

Rocky Linux

Sublime Text

欢迎您来访！

广播变量