streampark+flink一键整库或多表同步mysql到doris实战-低调大师

streampark+flink一键整库或多表同步mysql到doris实战

2024-01-31 273 89

streampark+flink一键整库或多表同步mysql到doris实战，此应用一旦推广起来，那么数据实时异构时，不仅可以减少对数据库的查询压力，还可以减少数据同步时的至少50%的成本，还可以减少30%的存储成本；

streampark搭建

二进制包编译构建

编译构建二进制可执行包，使用自己构建的二进制包构建Docker镜像，需要准备一台Linux的服务或者是虚拟机，可以正常上网即可，在该台机子上需要事先安装Git(拉取源码文件)，Maven和java环境（JDK1.8），我采用的是是上传的源码包：incubator-streampark-2.1.0.tar.gz，然后解压源码包：

tar -zxvf incubator-streampark-2.1.0.tar.gz

解压到服务器上，然后进入到解压路径里面

执行：

到此streampark已经搭建完成，可以在web页面验证应用是否可以访问，

登录账号；

是否能创建

flink 搭建

执行：

到此flink特搭建完毕；

web是否可以访问：

上述两个应用搭建成功之后，一定要检查对应的应用的涉及到的端口网络权限是否都开启，如果没有开启的话，那么后续执行的任务的时候，不会成功；

创建同步mysql到doris任务：

此任务是mysql表数据自动同步到doris的任务，首先需要mysql和doris数据库的相关配置都知道，其次是配置任务中的相关jar都有，在同步过程中，doris中对应的mysql表ddl是会自动创建的，不需要人工介入，可以节约同步几十上百张表时人工建表的字段映射的大量时间；

streampark中创建任务

创建完任务，执行启动

服务中指令启动同步任务

在flink目录执行此脚本，

bin/flink run -Dexecution.checkpointing.interval=10s -Dparallelism.default=1 -c org.apache.doris.flink.tools.cdc.CdcTools /opt/streampark_workspace/workspace/100003/streampark-flinkjob_wuhuabiun.jar mysql-sync-database --database jd_carmax --mysql-conf hostname= ..... --mysql-conf port=3306 --mysql-conf username=.... --mysql-conf password=... --mysql-conf database-name=jd_carmax --including-tables ".*" --sink-conf fenodes=....:2004 --sink-conf username=wuhuabin --sink-conf password=.... --sink-conf jdbc-url=jdbc:.... :2000 --sink-conf sink.label-prefix=label --table-conf replication_num=3

执行完之后，在flink ui中能看到对应的任务：

doris数据验证

表ddl验证

登录doris数据库;

mysql表的ddl:

查询doris是否把表ddl都同步成功，

mysql表ddl和doris中的表ddl一致；

表数据量验证

doris表数据量

mysql表数据量：

至此，自运维mysql一键同步到doris的实战到此；

作者：京东零售吴化斌

来源：京东云开发者社区转载请注明来源

微信关注我们

原文链接：https://my.oschina.net/u/4090830/blog/10993919

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

2024-01-30 11:55:00

数据质量和数据治理的关系 | 京东云技术团队

很多不太了解的人会认为：数据治理就是干数据清洗的。近两年，在我们公司，数据治理团队在数据降本方面做的比较多，效果还不错，我们很多人可能以为：数据治理就是做数据清理的。在京东科技集团数据治理工作组第一次全体会议上，我就讲过数据治理和数据清洗之间的关系：数据清洗只是指通过识别和纠正数据中的错误、缺失、重复或不一致等问题，确保数据质量的过程。我的观点是数据质量和数据治理是一体的，没有数据治理，就不可能有良好的数据质量。通过进行数据治理，我们实现了数据质量。怎么会这样？那是什么意思？让我们来了解一下。 1 数据质量管理更准确地说，数据质量或数据质量管理侧重于确保数据符合我们的数据质量维度。数据质量有很多维度，比如： •完整性：是否填写了所有相关字段？ •有效性：所有值都符合吗？地址字段是否在正确的顺序和正确的拼写？ •准确性：数据是否反映了现实世界中的人或物体？米老鼠可能不是一个真正的销售对象。 •一致性：数据是否与理解的模式一致？例如，出生日期的数据格式应为 YYYY/MM/DD/。 •唯一性：是否有重复的记录？ •及时性：它是最新的吗？数据质量确保我们的数据符合这些维度。或者...

248

2024-01-31 16:08:00

京东广告算法架构体系建设--高性能计算方案最佳实践 | 京东零售广告技术团队

1、前言推荐领域算法模型的在线推理是一个对高并发、高实时有较强要求的场景。算法最初是基于Wide & Deep相对简单的网络结构进行建模，容易满足高实时、高并发的推理性能要求。但随着广告模型效果优化进入深水区，基于Transformer用户行为序列和Attention的建模逐渐成为主流，这个阶段模型的特点是参数的体量、网络结构复杂度呈指数级增长，算法建模的创新工作往往由于吞吐和耗时的性能算力问题，导致无法落地于在线推理获得效果收益。传统通过扩容资源的方式，其边际效应也在减弱，算力优化存在诸多挑战： 1、高算力需求下的资源成本边际效应问题：集群资源扩容是提升算力的一种传统方案，但算力需求的增加往往需要成倍数的资源增长才能抹平，带来了极强的边际递减效应。 2、复杂算法模型的在线推理算力扩展问题：推理引擎要求低延迟和高吞吐，而随着模型算法复杂度提升，突破计算资源算力上限（存储、计算），推理耗时显著增加，无法满足实时推荐系统的性能要求。针对上述挑战和问题，广告算法架构在迭代演变的过程中，构建了一系列的优化体系，主要集中在两个方面： 1、架构层面：设计分布式分图异构计算框架，通过模型...

281

资源下载

更多资源

优质分享Android(本站安卓app)

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario，低调大师唯一一个Java游戏作品

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Apache Tomcat7、8、9（Java Web服务器）

Tomcat是Apache 软件基金会（Apache Software Foundation）的Jakarta 项目中的一个核心项目，由Apache、Sun 和其他一些公司及个人共同开发而成。因为Tomcat 技术先进、性能稳定，而且免费，因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可，成为目前比较流行的Web 应用服务器。

Eclipse（集成开发环境）

Eclipse 是一个开放源代码的、基于Java的可扩展开发平台。就其本身而言，它只是一个框架和一组服务，用于通过插件组件构建开发环境。幸运的是，Eclipse 附带了一个标准的插件集，包括Java开发工具（Java Development Kit，JDK）。