云上Hadoop之挑战
引言
在云上云行Hadoop,很多人担心性能。因为一提到虚拟化就会有人想到有成本,往往得出有偏见的结论-在云上运行肯定比物理机器上运行性能差。如果单独把10台物理机虚拟化跑Hadoop,这肯定是有部分性能的开销的。但是如果在公共云上,情况就不是这样了。因为公共云虚拟化的开销最终是由平台方来承担的,其一是平台方采购机器有规模优势,其二平台方可以在保证虚拟机性能的情况超卖部分资源。
平台卖给用户8core32g的虚拟机就保证有这个规格的能力的。
结合云上的弹性优势,企业的总体成本是会下降的。
在云上运行Hadoop对平台方还是面临一些挑战的,下面主要讲述这些挑战及平台方怎么解决的。
云上Hadoop的挑战-Shuffle
Shuffle分为Push模式,Pull模式。Push模式就是直接通过网络发送到下一个节点,比如:storm、flink。
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
云上Hadoop之优势
云上Hadoop的优势 如果对E-Mapreduce有兴趣,可以访问E-Mapreduce培训系列之基本介绍这里主要是围绕E-Mapreduce这款云产品展开的。 易用 主要体现在集群的创建、销毁、扩容、缩容等方面,目前一个集群基本4分钟内开启。支持作业的编排、作业执行错误后报警等。hadoop本身提供了基本的软件,目前hue、zeppelin、ooize等虽然提供了网页版本的交互式,任务的编排;但是毕竟不是企业的服务,也没有提供高可用的保证,对于报警,跟组内其它同事的账户也难以集成。emapreduce会提供这方面的服务,不过当前一些还在实现中。 低成本 主要体现在线下购买Hadoop、运维Hadoop集群的高成本。在云上有更好的组合方式,比如把数据放在OSS中,再启动emr集群按需运行。按照客户的业务情况,对于一直hold资源的场景,
- 下一篇
云上Hadoop之部署结构
云上Hadoop的部署结构 在云上部署Hadoop是比较灵活的,可以根据不同的业务目标部署Hadoop集群,笔者总结了在云上的大体部署结构。 经典模式 传统的部署模式如上,线下的机器比较固定,所以一般的节点上会部署Datanode、NodeManager节点。 经典模式2 一般把节点分为:Master Node、Core Node、Task Node。这么部署结构相对灵活,也就是Task Node就部署NodeManager。如果需要添加计算能力,就添加Task Node。且因为Task Node无状态,在缩小集群时也相对简单。(这样就避免了在线下经常出现的,计算与存储不匹配的问题,导致资源浪费) 存储计算分离 在此模式下,数据放在OSS中,可以启动Hadoop集群分析数据。这种模式最大的好处就是Hadoop集群可以用完就释放掉,最大节约成本
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
-
Docker使用Oracle官方镜像安装(12C,18C,19C)
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS8编译安装MySQL8.0.19
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- MySQL8.0.19开启GTID主从同步CentOS8
- CentOS7,8上快速安装Gitea,搭建Git服务器
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
推荐阅读
最新文章
- CentOS关闭SELinux安全模块
- Hadoop3单机部署,实现最简伪集群
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- SpringBoot2全家桶,快速入门学习开发网站教程
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- MySQL8.0.19开启GTID主从同步CentOS8
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2整合Redis,开启缓存,提高访问速度