Hadoop迁移MaxCompute神器之DataX-On-Hadoop使用指南
DataX-On-Hadoop即使用hadoop的任务调度器,将DataX task(Reader->Channel->Writer)调度到hadoop执行集群上执行。这样用户的hadoop数据可以通过MR任务批量上传到MaxCompute、RDS等,不需要用户提前安装和部署DataX软件包,也不需要另外为DataX准备执行集群。但是可以享受到DataX已有的插件逻辑、流控限速、鲁棒重试等等。
1. DataX-On-Hadoop 运行方式
1.1 什么是DataX-On-Hadoop
DataX https://github.com/alibaba/DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、HDFS、Hive、OceanBase、HBase、OTS、MaxCompu
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
centos7安装Cloudera Manager
第一部分:准备工作一,修改hostname $vim /etc/sysconfig/network $source /etc/sysconfig/network 例如: NETWORKING=yes HOSTNAME=spark01 reboot重启服务器 二,关闭selinux查看SELinux状态1,/usr/sbin/sestatus -v #如果SELinux status参数为enable,即开启状态2,getenforce #也可以用这个命令检查关闭SELinux1,临时关闭setenforce 0 2,修改配置文件需要重启机器修改/etc/selinux/config文件将SELINUX=enforcing改成SELINUX=disabled 三,关闭防火墙 sudo systemctl stop firewalld.service && sudo systemctl disable firewalld.service 四,配置hosts vim /etc/hosts 172.16.0.81 spark01 五,安装jdk tar -zxvf [jdk包]...
- 下一篇
Drill storage plugin实现原理分析
Drill Storage Plugin介绍 Drill是一个交互式SQL查询引擎,官方默认支持的数据源有hive、hbase、kafka、kudu、mongo、opentsdb、jdbc等,其中jdbc storage plugin可以覆盖所有支持jdbc协议的数据源,如:mysql、oracle等关系型数据库。所有数据源的接入都是通过drill的storage plugin实现的,理论上Drill通过storage plugin机制可以支持对任何数据源进行异构查询。 Drill作为一个SQL查询引擎,它跟传统数据库有着很多相似之处,主要包括SQL Parser、SQL Validator、Query Optimizer、Data Flow Operators等几部分。如下图所示,SQL Parser阶段会把SQL语句解析为SQL查
相关文章
文章评论
共有0条评论来说两句吧...