自建Hive数据仓库跨版本迁移到阿里云E-MapReduce
最佳实践概述
应用场景
客户在IDC或者公有云环境自建Hadoop集群,数据集中保存在HDFS文件系统,同时借助Hive进行常见的ETL任务。客户在决策上云之后,会将自建Hadoop集群的数据迁移到阿里云自建Hadoop或者EMR。
技术架构
本实践方案基于如下图所示的技术架构和主要流程编写操作步骤。
方案优势
- 易用性
您可以简单选择所需ECS机型(CPU、内存)与磁盘,并选择所需的软件,进行自动化部署。 - 经济性
您可以按需创建集群,即离线作业运行结束就可以释放集群,还可以在需要时动态地增加节点。 - 深度整合
E-MapReduce与阿里云其它产品(例如,OSS、MNS、RDS 和 MaxCompute 等)进行了深度整合,支持以这些产品作为Hadoop/Spark计算引擎的输入源或者输出目的地。 - 安全
E-MapReduce整合了阿里云RAM资源
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
如何在系统内直接抓容器的网络报文
排查过很多次pod网络有问题的场景 ,一直没太弄明白,pod内的网络报文怎么抓,今天遇到一个liveness健康检查失败的问题,liveness是kubelet去访问pod(发生get请求)来确认的,那么对应的访问日志在pod内是可以看到的,因此可以尝试抓包排查,但是pod并不能简简单单的使用tcpdump抓包即可,docker/kubectl cp 一个tcpdump进去也不好使,那么,pod内的包怎么抓呢?容器的网络隔离使用的是linux的network namespace ,因此我们到对应的ns里面抓包即可,下面演示1.查看指定 pod 运行在哪个宿主机上拿到宿主机的信息,然后登陆上去 cn-shenzhen.192.168.0.178 # kubectl get pods -o wide NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE busybox-5fc755d7d9-nc8bz 1/1 Running 2 5d5h 172.20.2.21 cn-shenzhen.192.168.0.178 <none>...
- 下一篇
一览机器学习常用的十类算法
云栖号:https://yqh.aliyun.com第一手的上云资讯,不同行业精选的上云企业案例库,基于众多成功案例萃取而成的最佳实践,助力您上云决策! AI技术发展的三大支柱:“算法+大数据+计算能力”,算法是人工智能发展的核心关键之一,很多技术环节和系统功能的实现都依赖于算法的精准度,算法的优劣直接影响了人工智能的发展方向。那么我们当下感受到的人工智能生活服务,运用了哪些AI算法呢?跟随OFweek编辑一起来看看吧。 1.人工神经网络 人工神经网络(ANN)以大脑处理机制作为基础,开发用于建立复杂模式和预测问题的算法。该类型算法在语音、语义、视觉、各类游戏等任务中表现极好,但需要大量数据进行训练,且训练要求很高的硬件配置。 ANN在图像和字符识别中起着重要的作用,手写字符识别在欺诈检测甚至国家安全评估中有很多应用。ANN 的研究为深层神经网络铺平了道路,是「深度学习」的基础,现已在计算机视觉、语音识别、自然语言处理等方向开创了一系列令人激动的创新。 2.决策树 在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。其采用一种树形结构,其中每个内部节点表示...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS关闭SELinux安全模块
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- Mario游戏-低调大师作品
- CentOS6,CentOS7官方镜像安装Oracle11G
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- Windows10,CentOS7,CentOS8安装Nodejs环境
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- CentOS8编译安装MySQL8.0.19
- MySQL8.0.19开启GTID主从同步CentOS8