袋鼠云数据中台专栏V2.0 | 数据中台之数据集成

2019-06-03 687

关于袋鼠云数据中台专栏V2.0

数据中台如何定义？企业数据化与数据中台的关系是什么？数据中台如何支撑企业战略转型？袋鼠云近两年来，先后为国内数十家大型龙头企业提供数据中台咨询与实施落地服务，积累了大量的实战经验，同时也在为客户服务的过程中，不断完善和升华自身的数据中台理论体系和实践方法论。希望通过后续文章的分享，与诸位读者交流，共同加快企业全面数据化进程。本专栏每周更新1-2篇，敬请期待~

数据中台之数据集成

1

在现代企业中，由于使用场景、业务形态、技术选型、开发架构的差异，往往有多个异构的、基于不同的软硬件平台上的信息系统同时运行，这些系统的数据源彼此独立、相互封闭，使得数据难以在系统之间交流、共享和融合，从而形成了「信息孤岛」。随着信息化应用的不断深入，企业内部、企业与外部信息交互的需求日益强烈，急切需要对已有的信息进行整合，联通“信息孤岛”，共享信息。

在企业构建数据数据中台来解决数据互通和共享的要求下，「数据集成」是打通信息系统和数据中台的管道和桥梁，是构成数据中台全、统、通的重要基础。

数据中台全统通

本文所讲的数据集成，主要指的是从不同的数据存放介质将数据同步至数据中台的环节，在某些场景下，也可以称作「数据采集」、「数据同步」、「数据上云」。

2 准备工作

在数据集成实施开发前，我们一般要进行以下调研和准备工作：

数据源分类：见上一期的数据中台之数据源，确定数据源种类，并根据数据及时性要求，确定采集的技术组件

- 网络和环境：确定数据源的网络和环境信息，根据实施集成方案，对现有的网络和环境进行必要的改造和优化

数据内容：调研数据的全量大小、增量大小、分布情况
数据质量：调研数据的增量标记、索引、主键信息等
数据范围：调研需要集成的数据范围，筛选出需要集成到数据中台的相关数据，一般以支撑业务流程或带业务属性的数据为主

3 业务架构

针对采集的业务内容，以及常见的同步分类，我们将数据集成的业务架构整理如下：

数据集成的业务架构

4 集成流程

以下通过几个典型的数据同步场景案例，来介绍数据同步流程。

4.1 关系型数据库离线同步流程

4.2 API类数据同步

4.3 实时类数据同步

5 袋鼠云数栈 DTinsight - 数据同步模块

数据同步模块是在各个存储单元之间执行数据交换的管道。

为了在「DTinsightIDE」进行大规模数据集的挖掘与计算，通常的做法是在任务执行前将数据传输至DTinsightIDE，并在任务执行结束后将计算结果传输至外部存储单元（例如MySQL等应用数据库）。

数据集成的作用如下图所示：

袋鼠云数栈-数据同步模块

袋鼠云数栈-数据同步模块的具有以下特性：

丰富的数据源支持
数据同步模块可对MySQL、Oracle、SQLServer、PostgreSQL、HDFS、Hive、HBase、FTP、ElasticSearch、ODPS、ElasticSearch、Redis、MongoDB等数据源，支持对这些数据源进行读取或写入数据。使用时仅需配置数据源的连接信息（例如填写Oracle数据库的JDBC URL、用户名、密码等信息），再配置对应的数据同步任务即可。
分布式系统架构
数据同步模块在系统架构上采用先进的分布式系统架构（FlinkX[1]），可实现多个节点并发读取、写入数据，可极大的提升数据同步的吞吐量，相比Sqoop、Kettle等开源数据同步方案，数据吞吐能力更高、配套功能。
可视化配置
用户在使用数据同步模块时，可快速通过可视化配置的方式完成同步任务的创建与配置，主要包括同步任务选择源库源表、目标库目标表、配置字段映射、配置同步速度等。
全量/增量同步
从业务系统读取数据的过程中，为了最小化对业务系统的影响，通常需要进行数据的增量同步。在源数据库表中具备数据变更时间字段的情况下，支持对关系型数据库进行增量数据同步，用户仅需输入相应的数据过滤语句即可实现。
同步速度的控制
支持数据同步速度控制，通过设置同步速率上限来调整，此参数需根据硬件配置和数据量来调整，用户根据业务需求选择设定的值。
脏数据管理
支持对脏数据是否需要记录进行配置，可指定脏数据的存储表名、生命周期，同时可配置当脏数据量超过一定数量或一定比例时任务置为失败，提示用户及时排查脏数据问题，并生成分析报告。

关于袋鼠云

袋鼠云是企业数据化整体解决方案提供商，是数据中台架构倡导者、引领者，通过打通数据供应链，构建企业数据化驱动引擎，加速企业数据化进程，让数据成为企业核心竞争力。DTSTACK.COM
数据智能，让未来变成现在

微信关注我们

原文链接：https://yq.aliyun.com/articles/704530

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

钉钉群直播【Structured Steaming的进阶与实践】

直播回看点我时间 6月6日 19：30 讲师关文选，花名云魄，阿里云E-MapReduce 技术专家，开源爱好者。介绍 structured steaming因其低时延和提供的SQL API等特性被越来越多的企业所使用，作为实时计算的首选。本次分享structured steaming的使用，包含spark 2.4 structured streaming的新特性，API原理和使用场景等的介绍。

2019-06-03

771

Apache Kafka 是一个可扩展，高性能，低延迟的平台，允许我们像消息系统一样读取和写入数据。我们可以很容易地在 Java 中使用 Kafka。 Spark Streaming 是 Apache Spark 的一部分，是一个可扩展、高吞吐、容错的实时流处理引擎。虽然是使用 Scala 开发的，但是支持 Java API。 Apache Cassandra 是分布式的 NoSQL 数据库。在这篇文章中，我们将介绍如何通过这三个组件构建一个高扩展、容错的实时数据处理平台。准备在进行下面文章介绍之前，我们需要先创建好 Kafka 的主题以及 Cassandra 的相关表，具体如下：在 Kafka 中创建名为 messages 的主题 $KAFKA_HOME$\bin\windows\kafka-topics.bat --create \

2019-06-03

785

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。