Tapdata 和 Databend 数仓数据同步实战
作者:韩山杰
Databend Cloud 研发工程师
基础架构在云计算时代也发生着翻天地覆的变化,对于业务的支持变成了如何能利用好云资源实现降本增效,同时更好的支撑业务也成为新时代技术人员的挑战。本篇文章通过:借助 Tapdata Cloud 实现从阿里云 RDS 到云原生数仓 Databend 的数据同步,给大家展示一下 Tapdata Cloud 和 Databend Cloud 在数仓领域的实践。
Tapdata Cloud 是由 Tapdata 提供的集数据复制、数据开发为一体的实时数据服务,能够在跨云、跨地域、多类型数据源的场景下,提供毫秒级的实时数据同步服务和数据融合服务。
Databend 是基于 Rust 开发的一个开源、弹性、负载感知的现代云数仓,赋能企业降本增效。在之前的文章中介绍了如何快速部署 Databend。Databend Cloud 是基于 Databend 实现的云上大数据解决方案。
1.体验 Tapdata 到 Databend Cloud 数据迁移
部署架构如下
数据源上部署 Tapdata Agent
Tapdata Agent 从 Tapdata Cloud 上获取任务执行
apdata Agent 获取的数据写入 Databend Cloud
具体操作如下:
1.1.部署 Tapdate Agent
Tapdata Agent 是数据同步、数据异构、数据开发场景中的关键程序。以上场景对数据的流转有着极高的实时性要求,因此,通过下载 Tapdata Agent 并将其部署在你的本地环境,基于低延迟的本地网络,Tapdata Agent 能够发挥最佳性能以确保数据流转的实时性。
可以参考 Agent 下载及安装 [4]。
1.2 数据同步 (From MySQL to Databend )
这里假设用户已经创建阿里云 MySQL RDS 并在 RDS 中存储了一定量的数据,准备把数据同步到 Databend。
1.2.1 创建 MySQL 连接
在 Tapdata Cloud 中创建 MySQL 连接
填写相应的连接参数,连接测试通过后保存。
1.2.2 创建 Databend 连接
在 Beta 数据源中选择 Databend 连接并填写相关连接参数,测试通过后保存。
1.2.3 创建数据复制任务
将 MySQL RDS 数据源和 Databend 数据源拖到画布中连接起来,表示准备从 MySQL 同步数据到 Databend。同步模式选择为 `全量同步`(增量同步的模式正在开发中),启动任务。
开始从 MySQL 同步数据到 Databend,下面展示了同步过程中的信息和数据。
1.2.4 查看结果
首先看一下 MySQL 中的表:
同时我们也可以在 Databend 中查询出已经同步过来的表和数据:
1.3 小结
上面的例子是通过 Tapdata Cloud 跑通一个 MySQL 表以及数据同步到 Databend 。Tapdata 非常强大,能够支持多种异构数据源之间的同步,大家可以到 Tapdata Cloud 上继续探索。
2. Databend 生态介绍
Databend: 是新一代基于对象存储的弹性云数仓产品。地址:https://github.com/datafuselabs/databend
OpenDAL: 是 Databend 中负责和底层存储打交道的一个组件,目前被 Rust 多数据库产品及 Rust sccache 中大量使用,估计不远的将来会成为一个多云对象存储支持最好的产品。地址:https://github.com/datafuselabs/opendal
Openraft: 是 Databend 中负责 Databend Meta 中的集群组件,目前被 SAP 及 许多交易所使用。地址:https://github.com/datafuselabs/openraft
Databend k8s operator: Databend 开源了 helm 基于 k8s 部署的 operator。地址:https://github.com/datafuselabs/helm-charts
文档网站: https://databend.rs/
Databend Cloud: Databend Cloud 是基于 Databend 实现的云 SAAS 的数仓项目,希望把底层的运维及生态全部封状好,对用户提供一站式 SAAS 数仓服务。
目前 Databend Cloud 分为:海外和国内两个版本。
海外版本主要部署在 AWS上,地址:https://databend.com,
国内版本主要部署在阿里云和国内 AWS 上:https://databend.cn , 使用 Databend Cloud 的优势:
基于 Databend 提供云上一站式数仓服务,有相应的安全和降本最佳实践
基于 Databend 存储使用 Parquet 格式,同时支持update, delete, alter table 操作,简化数据维护和 ETL 过程
基于 Databend Cloud 可以打造内部的数据集市
3.使用 Databend 的场景及优势
目前适用场景:
海量日志存储及分析
部分 ES 场景
订单及商品销售情况分析
数据审计场景
使用 Databend 的优势:
基于 Rust + 对象存储 及 k8s 架构,真正实现了存算分离
基于对象存储成本及 Databend 的压缩技术,使存储有 10 倍左右的优化,同时也可以让存储实现按需付费
计算节点无状态,可以让计算实现按需扩缩容
关于 Databend
Databend 是一款开源、弹性、低成本,基于对象存储也可以做实时分析的新式数仓。期待您的关注,一起探索云原生数仓解决方案,打造新一代开源 Data Cloud。
Databend 文档:https://databend.rs/
Wechat:Databend

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
CVE-2022-22947 SpringCloud GateWay SPEL RCE 漏洞分析
漏洞概要 Spring Cloud Gateway 是Spring Cloud 生态中的API网关,包含限流、过滤等API治理功能。 Spring官方在2022年3月1日发布新版本修复了Spring Cloud Gateway中的一处代码注入漏洞。当actuator端点开启或暴露时,可以通过http请求修改路由,路由中包含的恶意filter参数会经过SPEL表达式解析,从而导致远程主机执行任意代码。 影响范围: org.springframework.cloud:spring-cloud-gateway-server@[3.1.0, 3.1.1) org.springframework.cloud:spring-cloud-gateway-server@[2.2.6.RELEASE, 3.0.7) 修复方案: 将组件 org.springframework.cloud:spring-cloud-gateway-server 升级至 3.1.1 及以上版本 将组件 org.springframework.cloud:spring-cloud-gateway-server 升级至 3.0....
- 下一篇
如何使用 Kubernetes 实现应用程序的弹性伸缩
本篇文章利用 KEDA 使用 Prometheus 采集 APISIX 暴露出来的指标作为伸缩器,进而实现基于流量的应用程序弹性伸缩。 作者张晋涛,API7.ai 云原生工程师,Apache APISIX PMC。 原文链接 介绍 通常情况下,每个应用可以承载的压力都是固定的,我们可以通过提前进行压测来了解单应用程序副本的负载能力。如果在业务高峰,或者业务的请求压力增加时候,对应用进行横向扩容可以保证更好的为用户提供服务。 Apache APISIX 是一个高性能的云原生 API 网关,所有发送到上游应用程序的流量都将通过 APISIX,所以我们可以根据 APISIX 提供的流量指标,来判断应用程序是否需要进行弹性伸缩。 本文中将使用 KEDA 作为弹性伸缩的控制组件,用 Prometheus 采集 APISIX 提供的流量指标来进行应用的弹性伸缩。 KEDA 中如何使用 Prometheus 实现伸缩 KEDA 是一个 Kubernetes 中基于事件的自动伸缩组件,可以配置多种伸缩器。本文将使用 Prometheus 作为伸缩器 ,获取 APISIX 暴露出来的 metrics(指...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- SpringBoot2全家桶,快速入门学习开发网站教程
- MySQL8.0.19开启GTID主从同步CentOS8
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- CentOS6,7,8上安装Nginx,支持https2.0的开启