广播变量(Broadcast)-及生命周期
1 Spark中广播变量概念
广播变量是spark中共享变量的其中一种。它可以让程序高效的向所有工作节点发送一个只读的值,以供一个或多个spark操作使用。
2 广播变量使用示例
下面是一段简单的计算逻辑,对比了不使用广播变量和使用广播变量的两种方式:
val pws = Map("Apache Spark" -> "http://spark.apache.org/", "Scala" -> "http://www.scala-lang.org/")
//不使用广播变量(比较低效,需要多次将pws变量发送到各个节点)
val time1=System.currentTimeMillis()
val websites = sc.parallelize(Seq("Apache Spark", "Scala")).map(pws).collect
val time2 =System.currentTimeMillis()
println("websites = " + (time2 - time1))
websites.foreach(println)
//使用广播变量
val pwsB = sc.broadcast(pws)
val time3=System.currentTimeMillis()
val websitesWithBroadcast = sc.parallelize(Seq("Apache Spark", "Scala")).map(pwsB.value).collect
println("websitesWithBroadcast = " + (System.currentTimeMillis() - time3))
websitesWithBroadcast.foreach(println)
输出:
===============广播变量使用示例================
cost = 446ms
websites =
http://spark.apache.org/
http://www.scala-lang.org/
cost = 32ms
websitesWithBroadcast =
http://spark.apache.org/
http://www.scala-lang.org/
可以看出,输出结果是一样的,但是耗时,广播变量明显优于非广播变量模式。
3 广播变量原理
将变量广播到各个执行器:
在spark中,使用SparkContext创建广播变量,使用broadcastmanager和ContextCleaner管理其生命周期。
org.apache.spark.SparkContext#broadcast核心代码:
def broadcastT: ClassTag: Broadcast[T] = {
//调用broadcastManager创建新的广播变量
val bc = env.broadcastManager.newBroadcastT
//注册广播变量到ContextCleaner
cleaner.foreach(_.registerBroadcastForCleanup(bc))
bc
}
也可以手动销毁广播变量org.apache.spark.broadcast.Broadcast#destroy:
def destroy() {
destroy(blocking = true)
}
获取广播变量的值:
/* Get the broadcasted value. /
def value: T = {
assertValid()
getValue()
}
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
EduYouKe v0.0.1 发布,在线教育点播系统
EduYouKe 在线教育点播系统采用 THINKPHP6 + adminLte + layer 等优秀的开源框架开发,是一款适合个人、小微企业的轻量级网课系统。 宽松的开源协议: EduYouKe 采用 MIT 开源许可证,你可以在商业项目中免费使用。
- 下一篇
创业公司值得去么?速来领取过来人的经验教训大礼包
云栖号资讯:【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 当你踏上数据科学生涯时,是否也曾感到迷茫不安?笔者时常会收到学生发来的职业咨询问题,我发现,很多人在纠结着相同的问题。 回想初入行之时自己的状态,如果时间倒流,我会给自己什么样的职业建业呢?我会选择不同的道路吗? 7年亲身实践得出的经验教训,希望能够给迷茫的你一点帮助。 七年前...... 我的职业生涯始于2013年,我在一家研究院实习担任数据科学家,研究分布式机器学习算法,那是Hadoop的时代。那时,大数据是是最流行的词,深度学习和人工智能紧随其后。 一切似乎都很好,工作时能够接触到先进技术、软期限、优秀团队……只有一个点让我不满——薪资! 实习一年半后,我获得了攻读自然语言处理(NLP)数据科学博士学位的机会,但我拒绝了。 事实上,我对NLP不太感兴趣,付出至少四年时间来研究它是不敢想象的。另一个很重要的原因是,当时我身无分文,年纪也不小了,26岁了还无专业经验,这些都使我望而却步。 数据科学领域的工作不需要博士学位 我从不后悔拒绝读博的决定。在那之后,我从学界跳到了业界。对我来说...
相关文章
文章评论
共有0条评论来说两句吧...