spark基本概念(便于自己随时查阅--摘自Spark快速大数据分析)
我的原创地址:https://dongkelun.com/2018/01/23/sparkBasicConcept/
1、 RDD
在Spark 中,我们通过对分布式数据集的操作来表达我们的计算意图,这些计算会自动地在集群上并行进行。这样的数据集被称为弹性分布式数据集(resilient distributed dataset),简称RDD。RDD 是Spark 对分布式数据和计算的基本抽象。
RDD 支持两种操作:转化操作和行动操作。RDD 的转化操作是返回一个新的RDD 的操作,比如map() 和filter(),而行动操作则是向驱动器程序返回结果或把结果写入外部系统的操作,会触发实际的计算,比如count() 和first()。Spark 对待转化操作和行动操作的方式很不一样,因此理解你正在进行的操作的类型是很重要的。如果对于一个特定的函数是属于转化操作还是行动操作感到困惑,你可以看看它的返回值类型:转化操作返回的是RDD,而行动操作返回的是其他的数据类型。
2、 惰性求值
Spark 使用惰性求值,这样就可以把一些操作合并到一起来减少计算数据的步骤。在类似Hadoop MapReduce 的系统中,开发者常常花费大量时间考虑如何把操作组合到一起,以减少MapReduce 的周期数。而在Spark 中,写出一个非常复杂的映射并不见得能比使用很多简单的连续操作获得好很多的性能。因此,用户可以用更小的操作来组织他们的程序,这样也使这些操作更容易管理。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
共赴年终技术盛宴,WOT2016大数据技术峰会议程震撼全曝光!
2016年11月25、26日,为期两天的WOT2016大数据技术峰会将在北京粤财JW万豪酒店召开。40+大数据领域一线实战专家、BAT等企业技术大牛将悉数亮相,围绕机器学习、实时计算、系统架构、NoSQL技术实践等前沿技术话题展开深度分享,展示大数据领域最新实践和最热门的行业应用,倾力打造一场国内年终大数据技术盛宴! 大会期间,会场内外还将展开High翻现场、不同主题的互动游戏。更有诸多参会展商带来酷炫黑科技让你大开眼界。大会购票用户还将有机会参与25日晚英雄汇,与各路英雄豪杰、行业精英把酒言欢! 干货满满、互动多多,海量内容精彩纷程、应接不暇。现在就一睹为快吧! 11月25日上午 【主会场】 搭建大数据平台是一个完整、复杂的体系工程:基础技术平台的搭建、能力模型的组织、平台的模型管理、数据运营的管控、平台的应用建设以及其他配套资源的协调等等环节,无不考验着企业大数据人才的综合能力。 11月25日下午 【系统架构】 提到大数据分析平台,不得不说Hadoop系统,Hadoop到现在也超过10年的历史了,很多东西发生了变化。在Hadoop之外,你了解这些大数据架构选型补充吗? 【机器学习】...
- 下一篇
Spark Sql 连接mysql
版权声明:本文由董可伦首发于https://dongkelun.com,非商业转载请注明作者及原创出处。商业转载请联系作者本人。 https://blog.csdn.net/dkl12/article/details/80246170 我的原创地址:https://dongkelun.com/2018/03/21/sparkMysql/ 1、基本概念和用法(摘自spark官方文档中文版) Spark SQL 还有一个能够使用 JDBC 从其他数据库读取数据的数据源。当使用 JDBC 访问其它数据库时,应该首选 JdbcRDD。这是因为结果是以数据框(DataFrame)返回的,且这样 Spark SQL操作轻松或便于连接其它数据源。因为这种 JDBC 数据源不需要用户提供 ClassTag,所以它也更适合使用 Java 或 Python 操作。(注意,这与允许其它应用使用 Spark SQL 执行查询操作的 Spark SQL JDBC 服务器是不同的)。 使用 JDBC 访问特定数据库时,需要在 spark classpath 上添加对应的 JDBC 驱动配置。例如,为了从 Spar...
相关文章
文章评论
共有0条评论来说两句吧...