streampark+flink一键整库或多表同步mysql到doris实战
streampark+flink一键整库或多表同步mysql到doris实战,此应用一旦推广起来,那么数据实时异构时,不仅可以减少对数据库的查询压力,还可以减少数据同步时的至少50%的成本,还可以减少30%的存储成本;
streampark搭建
二进制包编译构建
编译构建二进制可执行包,使用自己构建的二进制包构建Docker镜像,需要准备一台Linux的服务或者是虚拟机,可以正常上网即可,在该台机子上需要事先安装Git(拉取源码文件),Maven和java环境(JDK1.8),我采用的是是上传的源码包:incubator-streampark-2.1.0.tar.gz,然后解压源码包:
tar -zxvf incubator-streampark-2.1.0.tar.gz
解压到服务器上,然后进入到解压路径里面
执行:
到此streampark已经搭建完成,可以在web页面验证应用是否可以访问,
登录账号;
是否能创建
flink 搭建
执行:
到此flink特搭建完毕;
web是否可以访问:
上述两个应用搭建成功之后,一定要检查对应的应用的涉及到的端口网络权限是否都开启,如果没有开启的话,那么后续执行的任务的时候,不会成功;
创建同步mysql到doris任务:
此任务是mysql表数据自动同步到doris的任务,首先需要mysql和doris数据库的相关配置都知道,其次是配置任务中的相关jar都有,在同步过程中,doris中对应的mysql表ddl是会自动创建的,不需要人工介入,可以节约同步几十上百张表时人工建表的字段映射的大量时间;
streampark中创建任务
创建完任务,执行启动
服务中指令启动同步任务
在flink目录执行此脚本,
bin/flink run -Dexecution.checkpointing.interval=10s -Dparallelism.default=1 -c org.apache.doris.flink.tools.cdc.CdcTools /opt/streampark_workspace/workspace/100003/streampark-flinkjob_wuhuabiun.jar mysql-sync-database --database jd_carmax --mysql-conf hostname= ..... --mysql-conf port=3306 --mysql-conf username=.... --mysql-conf password=... --mysql-conf database-name=jd_carmax --including-tables ".*" --sink-conf fenodes=....:2004 --sink-conf username=wuhuabin --sink-conf password=.... --sink-conf jdbc-url=jdbc:.... :2000 --sink-conf sink.label-prefix=label --table-conf replication_num=3
执行完之后,在flink ui中能看到对应的任务:
doris数据验证
表ddl验证
登录doris数据库;
mysql表的ddl:
查询doris是否把表ddl都同步成功,
mysql表ddl和doris中的表ddl一致;
表数据量验证
doris表数据量
mysql表数据量:
至此,自运维mysql一键同步到doris的实战到此;
作者:京东零售 吴化斌
来源:京东云开发者社区 转载请注明来源

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
数据质量和数据治理的关系 | 京东云技术团队
很多不太了解的人会认为:数据治理就是干数据清洗的。 近两年,在我们公司,数据治理团队在数据降本方面做的比较多,效果还不错,我们很多人可能以为:数据治理就是做数据清理的。 在京东科技集团数据治理工作组第一次全体会议上,我就讲过数据治理和数据清洗之间的关系: 数据清洗只是指通过识别和纠正数据中的错误、缺失、重复或不一致等问题,确保数据质量的过程。 我的观点是数据质量和数据治理是一体的,没有数据治理,就不可能有良好的数据质量。通过进行数据治理,我们实现了数据质量。怎么会这样?那是什么意思?让我们来了解一下。 1 数据质量管理 更准确地说,数据质量或数据质量管理侧重于确保数据符合我们的数据质量维度。数据质量有很多维度,比如: •完整性:是否填写了所有相关字段? •有效性:所有值都符合吗?地址字段是否在正确的顺序和正确的拼写? •准确性:数据是否反映了现实世界中的人或物体? 米老鼠可能不是一个真正的销售对象。 •一致性:数据是否与理解的模式一致?例如,出生日期的数据格式应为 YYYY/MM/DD/。 •唯一性:是否有重复的记录? •及时性:它是最新的吗? 数据质量确保我们的数据符合这些维度。或者...
- 下一篇
京东广告算法架构体系建设--高性能计算方案最佳实践 | 京东零售广告技术团队
1、前言 推荐领域算法模型的在线推理是一个对高并发、高实时有较强要求的场景。算法最初是基于Wide & Deep相对简单的网络结构进行建模,容易满足高实时、高并发的推理性能要求。但随着广告模型效果优化进入深水区,基于Transformer用户行为序列和Attention的建模逐渐成为主流,这个阶段模型的特点是参数的体量、网络结构复杂度呈指数级增长,算法建模的创新工作往往由于吞吐和耗时的性能算力问题,导致无法落地于在线推理获得效果收益。传统通过扩容资源的方式,其边际效应也在减弱,算力优化存在诸多挑战: 1、高算力需求下的资源成本边际效应问题:集群资源扩容是提升算力的一种传统方案,但算力需求的增加往往需要成倍数的资源增长才能抹平,带来了极强的边际递减效应。 2、复杂算法模型的在线推理算力扩展问题:推理引擎要求低延迟和高吞吐,而随着模型算法复杂度提升,突破计算资源算力上限(存储、计算),推理耗时显著增加,无法满足实时推荐系统的性能要求。 针对上述挑战和问题,广告算法架构在迭代演变的过程中,构建了一系列的优化体系,主要集中在两个方面: 1、架构层面:设计分布式分图异构计算框架,通过模型...
相关文章
文章评论
共有0条评论来说两句吧...