小白指南:Apache DolphinScheduler 补数据功能实操演示
最近使用 Apache DolphinScheduler 调度任务,不可避免地使用到【补数据】功能,经过不断尝试,终于成功运行了【补数据】功能,以此帖记录。
- 版本说明:3.1.9
补数据功能简介
"补数据" 在 Apache DolphinScheduler 中指的是 补数据(Complement Data) 功能,用于补充执行历史时间段内的工作流实例。
补数据功能概述
补数据是工作流执行的一种特殊模式,让用户可以为过去的时间段批量创建和执行工作流实例<cite />。这在以下场景中特别有用:
- 需要重新处理历史数据
- 系统故障后需要补充缺失的数据处理
- 新增数据处理逻辑后需要回填历史数据
- 定期批量数据处理
补数据配置参数
在工作流启动界面中,补数据功能包含以下配置选项:
-
是否是补数据 (
whether_complement_data): 开关选项,启用补数据模式 -
调度日期 (
schedule_date): 指定需要补数据的时间范围 :- 支持日期选择和手动输入两种方式
- 格式为
yyyy-MM-dd HH:mm:ss,多个日期用逗号分隔 - 限制最多输入100条日期
-
执行方式 (
mode_of_execution):- 串行执行: 按顺序逐个执行补数据任务
- 并行执行: 同时执行多个补数据任务
-
并行度 (
parallelism): 当选择并行执行时,可以设置自定义并行度来控制同时执行的任务数量- 这有助于避免大量补数据任务对服务器造成过大影响
-
执行顺序 (
order_of_execution) :- 按日期升序执行: 从最早的日期开始执行
- 按日期降序执行: 从最近的日期开始执行
使用补数据功能操作步骤
首先是工作流的任务配置,见下图
接着,保存工作流,未设置全局变量。上线工作流。
最后,运行工作流,运行参数见下图
- 选择补数据的日期范围
- 【启动参数】为定义任务时设置的参数dt,value为空即可。
- 点击【确定】后自动运行
验证结果
点击【工作流实例】,查看运行结果。
点击第1个实例进入,查看日志
结果显示,SQL 运行结果为补数据选择的日期,补数据功能正常可用。
Notes
补数据功能是 Apache DolphinScheduler 工作流管理中的重要特性,通过灵活的配置选项(执行方式、并行度、执行顺序等)来满足不同的数据补充需求<cite />。在使用时需要注意合理设置并行度,避免对系统资源造成过大压力。
关注公众号
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
无需改动一行代码!看G行如何利用eBPF,实现全栈可观测性追踪
G行5年来在全栈可观测性建设方面的实践证明,零侵扰采集技术是破解云原生与信创环境下运维难题的关键,其平台通过全栈链路追踪和持续性能剖析,实现了从业务到基础设施的分钟级故障定位,有效保障了系统稳定性与业务连续性。为金融数字化转型中实现自主可控与高效运维提供成功范本。欢迎点击原文「链接」进行阅读。 摘要 应用上云、云原生化是企业全面数字化转型的必要技术基础,G行2020年启动全栈云平台建设,采用云原生集群架构为应用架构服务化改造提供平台支撑,也同步建设了云化系统的全栈可观测性能力: 在技术可控性方面:通过全栈调用链追踪能力,构建性能基线图谱,破解异构环境兼容性验证难题;基于零侵扰采集技术,规避传统插桩方案的安全合规风险,构建覆盖信创技术栈的统一监控范式。 在业务稳定性方面:建立业务指标-技术指标-资源指标三级关联机制,助力实现分钟级故障发现、定位与恢复;通过分布式推理服务链路追踪、剖析等能力,保障应用系统稳定运维。 背景与挑战 2020年以来,《金融行业信息化发展规划(2022-2025)》、《关于银行业保险业数字化转型的指导意见》等文件明确要求金融机构“实现关键核心技术自主可控”,202...
-
下一篇
隐语SecreFlow:如何全面提升MPC多方安全学习的性能?
背景 密态计算能够支持多方联合建模而不泄漏数据价值。该方案是基于蚂蚁密算隐语团队开发的 Secret Sharing - Generalized Linear Model (SS-GLM) 算法完成了联合建模的步骤。 很多业务小伙伴们多次询问我们是否可以进一步提升该算法的性能。 通过分析 SS-GLM 算法的性能,我们发现 exp 算子占用了40%以上的计算时间,高于其他任何单一操作。 根据德摩根定律,如果能够改进 exp 算子,将会带来最大的性能提升。此外,exp 算子广泛应用于机器学习模型中的激活函数,甚至在大型模型如 Transformer 中也有大量的 exp 计算。 过去的方法往往牺牲精度,或者为特定模型提供特定的启发式算子来提高性能。虽然这些方法在少数场景中可以获得显著提升,但其影响力和适用范围较为有限。尽管难度高,改进 exp 算子收益太大了,必须要迎难而上。 通过我们的研究,发现在 exp prime 方向上的算法工作具有理论实现的可能性,并且有潜在的巨大收益。 因此,我们团队决定将其适配到SPU 的 SEMI2K[1] 协议中。 我们实现了新版的 exp 计算方法,称...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- 设置Eclipse缩进为4个空格,增强代码规范
- Windows10,CentOS7,CentOS8安装Nodejs环境
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- SpringBoot2整合Redis,开启缓存,提高访问速度
- MySQL数据库在高并发下的优化方案
- MySQL表碎片整理
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- CentOS6,CentOS7官方镜像安装Oracle11G
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- SpringBoot2整合Thymeleaf,官方推荐html解决方案






微信收款码
支付宝收款码