广播变量(Broadcast)-及生命周期-低调大师

广播变量(Broadcast)-及生命周期

2020-05-12 921

1 Spark中广播变量概念
广播变量是spark中共享变量的其中一种。它可以让程序高效的向所有工作节点发送一个只读的值，以供一个或多个spark操作使用。

2 广播变量使用示例
下面是一段简单的计算逻辑，对比了不使用广播变量和使用广播变量的两种方式：

val pws = Map("Apache Spark" -> "http://spark.apache.org/", "Scala" -> "http://www.scala-lang.org/")
//不使用广播变量（比较低效，需要多次将pws变量发送到各个节点）
val time1=System.currentTimeMillis()
val websites = sc.parallelize(Seq("Apache Spark", "Scala")).map(pws).collect
val time2 =System.currentTimeMillis()
println("websites = " + (time2 - time1))
websites.foreach(println)
//使用广播变量
val pwsB = sc.broadcast(pws)
val time3=System.currentTimeMillis()
val websitesWithBroadcast = sc.parallelize(Seq("Apache Spark", "Scala")).map(pwsB.value).collect
println("websitesWithBroadcast = " + (System.currentTimeMillis() - time3))
websitesWithBroadcast.foreach(println)
输出：
===============广播变量使用示例================
cost = 446ms
websites =
http://spark.apache.org/
http://www.scala-lang.org/
cost = 32ms
websitesWithBroadcast =
http://spark.apache.org/
http://www.scala-lang.org/
可以看出，输出结果是一样的，但是耗时，广播变量明显优于非广播变量模式。

3 广播变量原理
将变量广播到各个执行器：

在spark中，使用SparkContext创建广播变量，使用broadcastmanager和ContextCleaner管理其生命周期。

org.apache.spark.SparkContext#broadcast核心代码:

def broadcastT: ClassTag: Broadcast[T] = {
//调用broadcastManager创建新的广播变量
val bc = env.broadcastManager.newBroadcastT
//注册广播变量到ContextCleaner
cleaner.foreach(_.registerBroadcastForCleanup(bc))
bc
}
也可以手动销毁广播变量org.apache.spark.broadcast.Broadcast#destroy:

def destroy() {
destroy(blocking = true)
}
获取广播变量的值:

/* Get the broadcasted value. /
def value: T = {
assertValid()
getValue()
}

转载地址http://xiajunhust.github.io/2018/12/23/Spark%E5%9F%BA%E7%A1%80%E5%AD%A6%E4%B9%A0%E7%AC%94%E8%AE%B03-%E5%B9%BF%E6%92%AD%E5%8F%98%E9%87%8F/

微信关注我们

原文链接：https://yq.aliyun.com/articles/760031

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

EduYouKe v0.0.1 发布，在线教育点播系统

EduYouKe 在线教育点播系统采用 THINKPHP6 + adminLte + layer 等优秀的开源框架开发，是一款适合个人、小微企业的轻量级网课系统。宽松的开源协议： EduYouKe 采用 MIT 开源许可证，你可以在商业项目中免费使用。

2020-05-13

743

云栖号资讯：【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯，还在等什么，快来！当你踏上数据科学生涯时，是否也曾感到迷茫不安？笔者时常会收到学生发来的职业咨询问题，我发现，很多人在纠结着相同的问题。回想初入行之时自己的状态，如果时间倒流，我会给自己什么样的职业建业呢？我会选择不同的道路吗？ 7年亲身实践得出的经验教训，希望能够给迷茫的你一点帮助。七年前...... 我的职业生涯始于2013年，我在一家研究院实习担任数据科学家，研究分布式机器学习算法，那是Hadoop的时代。那时，大数据是是最流行的词，深度学习和人工智能紧随其后。一切似乎都很好，工作时能够接触到先进技术、软期限、优秀团队……只有一个点让我不满——薪资！实习一年半后，我获得了攻读自然语言处理（NLP）数据科学博士学位的机会，但我拒绝了。事实上，我对NLP不太感兴趣，付出至少四年时间来研究它是不敢想象的。另一个很重要的原因是，当时我身无分文，年纪也不小了，26岁了还无专业经验，这些都使我望而却步。数据科学领域的工作不需要博士学位我从不后悔拒绝读博的决定。在那之后，我从学界跳到了业界。对我来说...

2020-05-12

809

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。