hadoop和spark的区别
学习hadoop已经有很长一段时间了,好像是二三月份的时候朋友给了一个国产Hadoop发行版下载地址,因为还是在学习阶段就下载了一个三节点的学习版玩一下。在研究、学习hadoop的朋友可以去找一下看看(发行版DKhadoop,去大快的网站上应该可以下载到的。)
在学习hadoop的时候查询一些资料的时候经常会看到有比较hadoop和spark的,对于初学者来说难免会有点搞不清楚这二者到底有什么大的区别。我记得刚开始接触大数据这方面内容的时候,也就这个问题查阅了一些资料,在《FreeRCH大数据一体化开发框架》的这篇说明文档中有就Hadoop和spark的区别进行了简单的说明,但我觉得解释的也不是特别详细。我把个人认为解释的比较好的一个观点分享给大家:
它主要是从四个方面对Hadoop和spark进行了对比分析:
1ã 目的:首先需要明确一点,hadoophe spark 这二者都是大数据框架,即便如此二者各自存在的目的是不同的。Hadoop是一个分布式的数据基础设施,它是将庞大的数据集分派到由若干台计算机组成的集群中的多个节点进行存储。Spark是一个专门用来对那些分布式存储的大数据进行处理的工具,spark本身并不会进行分布式数据的存储。
2ã 两者的部署:Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。所以使用Hadoop则可以抛开spark,而直接使用Hadoop自身的mapreduce完成数据的处理。Spark是不提供文件管理系统的,但也不是只能依附在Hadoop上,它同样可以选择其他的基于云的数据系统平台,但spark默认的一般选择的还是hadoop。
3、数据处理速度:Spark,拥有Hadoop、 MapReduce所具有能更好地适用于数据挖掘与机器学习等需要迭代的的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,
Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
4、数据安全恢复:Hadoop每次处理的后的数据是写入到磁盘上,所以其天生就能很有弹性的对系统错误进行处理;spark的数据对象存储在分布于数据集群中的叫做弹性分布式数据集中,这些数据对象既可以放在内存,也可以放在磁盘,所以spark同样可以完成数据的安全恢复。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
26项大数据专业认证助你涨薪
当前大数据产业如火如荼,数据科学家、数据分析师和数据工程师的需求量很大,获得这三个领域内的认证将为您的职业生涯带来强大优势。 26项大数据专业认证助你涨薪数据分析管理 在任何成功的企业, 数据和大数据分析都是生命线。获得正确的技术本来就很有挑战,建立合适的团队并用适当的技能来发起大数据项目可能会更加困难。毫不奇怪,这一挑战反映在对大数据技能和认证的不断增长的需求上。如果您正在寻找获得优势的方法,那么获得大数据认证就是一个很好的选择。认证根据行业和供应商特定的基准来衡量您的知识和技能,向雇主证明您能够胜任职位的要求。2018年里,大数据认证的种类迅速扩张,以下是我们对于在美国和印度最受追捧的大数据认证的介绍指南,希望能帮助您确定哪种证书适合您。 大数据认证值得追求吗?很多公司正在寻找具有处理大数据专业知识的和分析师。他们还需要大数据架构师将需求转化为系统,需要数据工程师构建数据管道,需要熟悉Hadoop技术的开发人员,以及系统管理员和管理人员将所有因素联系在一起。这些技能的需求量很大,而且相对缺人。具有适当经验和技能组合的个人可以信心满满要求高薪,这时合适的认证将非常有用。根据科技分析公...
- 下一篇
[转载] Spark Streaming 设计原理
本文转自:https://zhuanlan.zhihu.com/p/47838090. 本站转载已经过作者授权。如需转载,请和原作者联系。 最近两年流式计算又开始逐渐火了起来,说到流式计算主要分两种:continuous-based 和 micro-batch。最近在使用基于 micro-batch 模式的 Spark Streaming,正好结合论文介绍一下。这里说的论文是 2013 年发布的 《Discretized Streams: Fault-Tolerant Streaming Computation at Scale》,虽然是 2013 年发表的论文,但是系统的核心逻辑基本没怎么变化,对于理解 Spark Streaming 的系统设计、工作方式还是很有帮助的。注:Spark 在 2016 年推出了 Structur
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- CentOS关闭SELinux安全模块
- CentOS7设置SWAP分区,小内存服务器的救世主
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- 设置Eclipse缩进为4个空格,增强代码规范
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2全家桶,快速入门学习开发网站教程
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- CentOS8安装Docker,最新的服务器搭配容器使用