云上Hadoop之挑战
引言
在云上云行Hadoop,很多人担心性能。因为一提到虚拟化就会有人想到有成本,往往得出有偏见的结论-在云上运行肯定比物理机器上运行性能差。如果单独把10台物理机虚拟化跑Hadoop,这肯定是有部分性能的开销的。但是如果在公共云上,情况就不是这样了。因为公共云虚拟化的开销最终是由平台方来承担的,其一是平台方采购机器有规模优势,其二平台方可以在保证虚拟机性能的情况超卖部分资源。
平台卖给用户8core32g的虚拟机就保证有这个规格的能力的。
结合云上的弹性优势,企业的总体成本是会下降的。
在云上运行Hadoop对平台方还是面临一些挑战的,下面主要讲述这些挑战及平台方怎么解决的。
云上Hadoop的挑战-Shuffle
Shuffle分为Push模式,Pull模式。Push模式就是直接通过网络发送到下一个节点,比如:storm、flink。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
云上Hadoop之优势
云上Hadoop的优势 如果对E-Mapreduce有兴趣,可以访问E-Mapreduce培训系列之基本介绍这里主要是围绕E-Mapreduce这款云产品展开的。 易用 主要体现在集群的创建、销毁、扩容、缩容等方面,目前一个集群基本4分钟内开启。支持作业的编排、作业执行错误后报警等。hadoop本身提供了基本的软件,目前hue、zeppelin、ooize等虽然提供了网页版本的交互式,任务的编排;但是毕竟不是企业的服务,也没有提供高可用的保证,对于报警,跟组内其它同事的账户也难以集成。emapreduce会提供这方面的服务,不过当前一些还在实现中。 低成本 主要体现在线下购买Hadoop、运维Hadoop集群的高成本。在云上有更好的组合方式,比如把数据放在OSS中,再启动emr集群按需运行。按照客户的业务情况,对于一直hold资源的场景,
- 下一篇
云上Hadoop之部署结构
云上Hadoop的部署结构 在云上部署Hadoop是比较灵活的,可以根据不同的业务目标部署Hadoop集群,笔者总结了在云上的大体部署结构。 经典模式 传统的部署模式如上,线下的机器比较固定,所以一般的节点上会部署Datanode、NodeManager节点。 经典模式2 一般把节点分为:Master Node、Core Node、Task Node。这么部署结构相对灵活,也就是Task Node就部署NodeManager。如果需要添加计算能力,就添加Task Node。且因为Task Node无状态,在缩小集群时也相对简单。(这样就避免了在线下经常出现的,计算与存储不匹配的问题,导致资源浪费) 存储计算分离 在此模式下,数据放在OSS中,可以启动Hadoop集群分析数据。这种模式最大的好处就是Hadoop集群可以用完就释放掉,最大节约成本
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7设置SWAP分区,小内存服务器的救世主
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- 设置Eclipse缩进为4个空格,增强代码规范
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2全家桶,快速入门学习开发网站教程
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- CentOS8安装Docker,最新的服务器搭配容器使用
- Docker安装Oracle12C,快速搭建Oracle学习环境
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题