用 SeaTunnel 同步 MySQL 到 Doris：全量增量 + SQL 过滤-低调大师

用 SeaTunnel 同步 MySQL 到 Doris：全量增量 + SQL 过滤

2025-09-25 170

Apache SeaTunnel 能够实现 MySQL 到 Doris 的全量和增量数据同步，同时也支持 SQL 级别的数据过滤。以下是具体实现方式及功能特点：

全量与增量同步支持

1. 全量同步

实现方式：通过 SeaTunnel 的批处理模式（job.mode = "BATCH"），将 MySQL 的历史数据一次性导入 Doris。支持分片读取（如按主键分片）以提升效率，并可通过配置参数优化并行度、批量写入大小等。

source {
  Jdbc {
    query = "SELECT * FROM orders"  -- 全量数据读取
    partition_column = "id"        -- 分片字段
    split.size = 5000              -- 每分片读取行数
  }
}

2. 增量同步

基于时间戳字段：通过WHERE update_time >= '${last_update_time}'动态参数筛选增量数据，需外部系统记录时间点并触发定期任务。
基于 CDC（变更数据捕获）：使用 MySQL CDC 连接器实时捕获 Binlog 变更（如插入、更新、删除），同步至 Doris。支持精确一次语义（Exactly-Once）和流式处理。

source {
  MySQL-CDC {
    startup.mode = "latest"  -- 从最新位点开始同步
    table-names = ["db.table"]
  }
}

SQL 级数据过滤支持

1. 数据源层过滤

在源端 SQL 中定义过滤条件：通过 source 模块的 query 参数直接筛选数据，例如仅同步特定状态或时间范围的数据。

source {
  Jdbc {
    query = """
      SELECT * FROM orders 
      WHERE status = 1 AND create_time &gt; '2025-01-01'
    """
  }
}

转换层过滤 Transform 模块的 SQL 转换：在 transform 阶段通过自定义 SQL 对数据进行清洗、过滤或字段映射。

transform {
  Sql {
    query = "SELECT id, name FROM source WHERE amount &gt; 1000"  -- 过滤金额小于1000的数据
  }
}

关键配置与注意事项

Doris Sink 参数

需配置 Doris FE 节点地址、批量写入参数（batch_size）、数据合并策略（merge_type）等。

sink {
  Doris {
    fenodes = "doris_fe:8030"
    batch_size = 10000
    stream_load_properties = { "merge_type" = "MERGE" }
  }
}

CDC 同步依赖条件

MySQL 需开启 Binlog 并配置ROW模式，用户需具备SELECT, REPLICATION SLAVE权限。

性能调优

全量同步建议分片读取避免单节点压力；增量同步可调整 Flink 或 Zeta 引擎的并行度以提升吞吐量。

与其他工具的对比

SeaTunnel 优势：支持批流一体、SQL 级灵活性、精确一次语义，适合复杂场景；相比之下，DataX 仅支持离线批量，Sqoop 局限于 Hadoop 生态 123。
与 CloudCanal 对比：虽然 CloudCanal 提供可视化界面，但 SeaTunnel 的插件化架构和开源特性更适合自定义开发。

原文链接：https://blog.csdn.net/a772304419/article/details/146341445

微信关注我们

原文链接：https://my.oschina.net/SeaTunnel/blog/18693304

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

React 基础核心概念（8 个）——从入门到能写业务组件（上）| 葡萄城技术团队

React 基础核心概念（8 个）——从入门到能写业务组件（上）前言：为什么要先掌握这些基础概念？对国内开发者来说，React 是开发中后台系统、电商前端、移动端 H5 的“刚需技能”。但很多人刚学就陷入“会写 JSX 却不懂原理”的困境——比如不知道为什么状态更新后页面不刷新，或者写组件时反复遇到“属性透传”的麻烦。这篇整理的 8 个基础概念，是 React 开发的“地基”：从 JSX 语法到最常用的 Hooks，每个都配了国内项目常见的示例（比如商品列表渲染、用户登录状态管理），帮你跳过“照抄代码却不懂逻辑”的坑，真正能独立写业务组件。 1. 什么是 React 中的 JSX？搞懂 React 专属语法定义与作用 JSX（JavaScript XML）是 React 的“模板语法”，允许你在 JS 代码里写类似 HTML 的结构。很多初学者以为它是“HTML 的变体”，其实它最终会被 Babel 编译成React.createElement()函数，生成 React 元素（虚拟 DOM 节点）。国内开发场景中，JSX 是写组件的“标配”——无论是电商的商品卡片，还是后台的...

2025-09-25

200

React 进阶优化概念（6 个）——从能写组件到写好组件（下）前言：为什么需要进阶概念？国内开发者在 React 项目迭代中，常会遇到两个问题： “性能瓶颈”：比如列表渲染卡顿、组件反复重渲染； “复杂状态难管理”：比如购物车多商品操作、表单多字段联动。这篇整理的 6 个进阶概念，就是解决这些问题的“钥匙”：从useRef操作 DOM，到useMemo/useCallback优化性能，再到自定义 Hooks 复用逻辑，每个都针对国内项目高频痛点，帮你从“能写组件”升级到“写好组件”。 1. React 中 useRef 的使用：不止是 DOM 操作核心作用 useRef返回一个“持久化的 ref 对象”，它有两个核心用途：操作 DOM：获取 DOM 元素的引用（如获取输入框焦点、读取元素尺寸）；保存持久化数据：数据更新时不会触发组件重渲染（如保存定时器 ID、上一次的状态值）。国内开发中，useRef常用来解决“无法获取最新状态”的问题（比如定时器中访问过时的 state），或实现“输入框自动聚焦”（表单场景高频需求）。国内项目示例：DOM 操作+持久化数据（双场景实...

2025-09-25

266

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。