Hadoop迁移MaxCompute神器之DataX-On-Hadoop使用指南

2018-09-10 815

DataX-On-Hadoop即使用hadoop的任务调度器，将DataX task(Reader->Channel->Writer)调度到hadoop执行集群上执行。这样用户的hadoop数据可以通过MR任务批量上传到MaxCompute、RDS等，不需要用户提前安装和部署DataX软件包，也不需要另外为DataX准备执行集群。但是可以享受到DataX已有的插件逻辑、流控限速、鲁棒重试等等。

1. DataX-On-Hadoop 运行方式

1.1 什么是DataX-On-Hadoop

DataX https://github.com/alibaba/DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台，实现包括 MySQL、Oracle、HDFS、Hive、OceanBase、HBase、OTS、MaxCompu

微信关注我们

原文链接：https://yq.aliyun.com/articles/638606

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

centos7安装Cloudera Manager

第一部分：准备工作一，修改hostname $vim /etc/sysconfig/network $source /etc/sysconfig/network 例如： NETWORKING=yes HOSTNAME=spark01 reboot重启服务器二，关闭selinux查看SELinux状态1，/usr/sbin/sestatus -v #如果SELinux status参数为enable，即开启状态2，getenforce #也可以用这个命令检查关闭SELinux1，临时关闭setenforce 0 2，修改配置文件需要重启机器修改/etc/selinux/config文件将SELINUX=enforcing改成SELINUX=disabled 三，关闭防火墙 sudo systemctl stop firewalld.service && sudo systemctl disable firewalld.service 四，配置hosts vim /etc/hosts 172.16.0.81 spark01 五，安装jdk tar -zxvf [jdk包]...

2018-09-10

702

Drill Storage Plugin介绍 Drill是一个交互式SQL查询引擎，官方默认支持的数据源有hive、hbase、kafka、kudu、mongo、opentsdb、jdbc等，其中jdbc storage plugin可以覆盖所有支持jdbc协议的数据源，如：mysql、oracle等关系型数据库。所有数据源的接入都是通过drill的storage plugin实现的，理论上Drill通过storage plugin机制可以支持对任何数据源进行异构查询。 Drill作为一个SQL查询引擎，它跟传统数据库有着很多相似之处，主要包括SQL Parser、SQL Validator、Query Optimizer、Data Flow Operators等几部分。如下图所示，SQL Parser阶段会把SQL语句解析为SQL查

2018-09-11

685

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。

Hadoop迁移MaxCompute神器之DataX-On-Hadoop使用指南

1. DataX-On-Hadoop 运行方式

1.1 什么是DataX-On-Hadoop

centos7安装Cloudera Manager

Drill storage plugin实现原理分析

相关文章

发表评论

资源下载

Mario

Nacos

Rocky Linux

WebStorm

欢迎您来访！