小白指南：Apache DolphinScheduler 补数据功能实操演示-低调大师

小白指南：Apache DolphinScheduler 补数据功能实操演示

2025-10-29 128

最近使用 Apache DolphinScheduler 调度任务，不可避免地使用到【补数据】功能，经过不断尝试，终于成功运行了【补数据】功能，以此帖记录。

版本说明：3.1.9

补数据功能简介

"补数据" 在 Apache DolphinScheduler 中指的是 补数据(Complement Data) 功能，用于补充执行历史时间段内的工作流实例。

补数据功能概述

补数据是工作流执行的一种特殊模式，让用户可以为过去的时间段批量创建和执行工作流实例<cite />。这在以下场景中特别有用:

需要重新处理历史数据
系统故障后需要补充缺失的数据处理
新增数据处理逻辑后需要回填历史数据
定期批量数据处理

补数据配置参数

在工作流启动界面中，补数据功能包含以下配置选项:

是否是补数据 (whether_complement_data): 开关选项，启用补数据模式
调度日期 (schedule_date): 指定需要补数据的时间范围：
- 支持日期选择和手动输入两种方式
- 格式为 yyyy-MM-dd HH:mm:ss，多个日期用逗号分隔
- 限制最多输入100条日期
执行方式 (mode_of_execution)：
- 串行执行: 按顺序逐个执行补数据任务
- 并行执行: 同时执行多个补数据任务
并行度 (parallelism): 当选择并行执行时，可以设置自定义并行度来控制同时执行的任务数量
- 这有助于避免大量补数据任务对服务器造成过大影响
执行顺序 (order_of_execution) :
- 按日期升序执行: 从最早的日期开始执行
- 按日期降序执行: 从最近的日期开始执行

使用补数据功能操作步骤

首先是工作流的任务配置，见下图

接着，保存工作流，未设置全局变量。上线工作流。

最后，运行工作流，运行参数见下图

选择补数据的日期范围
【启动参数】为定义任务时设置的参数dt，value为空即可。
点击【确定】后自动运行

验证结果

点击【工作流实例】，查看运行结果。

点击第1个实例进入，查看日志

结果显示，SQL 运行结果为补数据选择的日期，补数据功能正常可用。

Notes

补数据功能是 Apache DolphinScheduler 工作流管理中的重要特性,通过灵活的配置选项(执行方式、并行度、执行顺序等)来满足不同的数据补充需求<cite />。在使用时需要注意合理设置并行度,避免对系统资源造成过大压力。

微信关注我们

原文链接：https://my.oschina.net/dailidong/blog/18697756

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

无需改动一行代码！看G行如何利用eBPF，实现全栈可观测性追踪

G行5年来在全栈可观测性建设方面的实践证明，零侵扰采集技术是破解云原生与信创环境下运维难题的关键，其平台通过全栈链路追踪和持续性能剖析，实现了从业务到基础设施的分钟级故障定位，有效保障了系统稳定性与业务连续性。为金融数字化转型中实现自主可控与高效运维提供成功范本。欢迎点击原文「链接」进行阅读。摘要应用上云、云原生化是企业全面数字化转型的必要技术基础，G行2020年启动全栈云平台建设，采用云原生集群架构为应用架构服务化改造提供平台支撑，也同步建设了云化系统的全栈可观测性能力：在技术可控性方面：通过全栈调用链追踪能力，构建性能基线图谱，破解异构环境兼容性验证难题；基于零侵扰采集技术，规避传统插桩方案的安全合规风险，构建覆盖信创技术栈的统一监控范式。在业务稳定性方面：建立业务指标-技术指标-资源指标三级关联机制，助力实现分钟级故障发现、定位与恢复；通过分布式推理服务链路追踪、剖析等能力，保障应用系统稳定运维。背景与挑战 2020年以来，《金融行业信息化发展规划（2022-2025）》、《关于银行业保险业数字化转型的指导意见》等文件明确要求金融机构“实现关键核心技术自主可控”，202...

2025-10-29

156

背景密态计算能够支持多方联合建模而不泄漏数据价值。该方案是基于蚂蚁密算隐语团队开发的 Secret Sharing - Generalized Linear Model (SS-GLM) 算法完成了联合建模的步骤。很多业务小伙伴们多次询问我们是否可以进一步提升该算法的性能。通过分析 SS-GLM 算法的性能，我们发现 exp 算子占用了40%以上的计算时间，高于其他任何单一操作。根据德摩根定律，如果能够改进 exp 算子，将会带来最大的性能提升。此外，exp 算子广泛应用于机器学习模型中的激活函数，甚至在大型模型如 Transformer 中也有大量的 exp 计算。过去的方法往往牺牲精度，或者为特定模型提供特定的启发式算子来提高性能。虽然这些方法在少数场景中可以获得显著提升，但其影响力和适用范围较为有限。尽管难度高，改进 exp 算子收益太大了，必须要迎难而上。通过我们的研究，发现在 exp prime 方向上的算法工作具有理论实现的可能性，并且有潜在的巨大收益。因此，我们团队决定将其适配到SPU 的 SEMI2K[1] 协议中。我们实现了新版的 exp 计算方法，称...

2025-10-29

147

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。