阿里云开源离线同步工具DataX3.0介绍

2016-08-23 748

阿里云开源离线同步工具DataX3.0介绍

一. DataX3.0概览

DataX 是一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。

设计理念

为了解决异构数据源同步问题，DataX将复杂的网状的同步链路变成了星型数据链路，DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候，只需要将此数据源对接到DataX，便能跟已有的数据源做到无缝数据同步。

当前使用现状

DataX在阿里巴巴集团内被广泛使用，承担了所有大数据的离线同步业务，并已持续稳定运行了6年之久。目前每天完成同步8w多道作业，每日传输数据量超过300TB。

此前已经开源DataX1.0版本，此次介绍为阿里云开源全新版本D

微信关注我们

原文链接：https://yq.aliyun.com/articles/59373

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

基于Spark和Hive进行的豆瓣电影数据分析

写在前边的话：算是自己做的一个小课题吧，自己搭建平台，自己爬取数据，自己进行数据清洗和分析，自己进行可视化展示，写这篇博客不为别的，只是记录下自己做这个课题的整个过程，大神们勿喷环境说明：hadoop2.7集群，包含Hbase，Hive，Spark，Sqoop，Mahout组件过程：平台部署->数据采集-> 数据存储->数据ETL->数据分析->可视化课题github地址：https://github.com/Thinkgamer/Douban_Movies_Analysi （主要是源代码部分） 1：平台部署看之前的博客：点击阅读 2：数据采集数据来源，豆瓣电影，以Tag采集入口，对应标签采集对应的电影，使用Python3.4.3 + BeautifulSoup4.4.1 + urllib进行数据的采集，本地存储形式为csv格式，代码结构为 -DouBan-Spider #项目根目录 ----download #下载网页源代码模块 --------__init__.py -------down_htm...

2016-08-23

1173

最近几个月一直在做基于storm的流式处理，索性整理下所有的知识点与技术知识。一、数据准备 1、首先，我们需要用户的所有数据，使用MapReduce进行数据处理，生成业务宽表导入hbase与Redis，用于后续实时处理直接从Redis中获取相应数据，减少读写磁盘IO的消耗。二、消息的接入 1、传入的数据是经过二进制处理的，所以使用jetty轻量级服务对传入的报文进行接入解析，同时部署多个服务，使用nginx进行负载均衡。 2、每个服务同时启动多个线程进行消息的接入，通过blockingQueue进行存储，随后进行报文解析，序列化后发送对应主题的kafka. 三、storm处理 1、使用集成的kafkaspout进行消息的接入代替storm的spout，降低工程复杂度，可直接编写bolt进行业务逻辑处理，随后进行数据的一次性过滤bolt，验证消息的正确性并并封装入对象中。 2、通过消息中的相应主键，从Redis中加载该用户的全量数据，以便后续业务处理（存入hbase是以防redis出现问题进而再查询hbase，同时hbase中的rowkey做了散列，数据均匀分布在每个regi...

2016-08-25

574

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。