一次被大 JSON 教训后的 Apache SeaTunnel 调优笔记
作者 | 肌肉娃子 起因:我以为只是"复制一份配置"这么简单 最开始的想法很朴素: amzn_order 的 Seatunnel CDC → Doris 同步已经跑得挺稳了,那我把这套配置直接"平移"到 amzn_api_logs 上,表名改一改,跑起来就完事。 结果就是: 线上机器内存一路飙到十几 G,Java 进程频繁 OOM,Doris / Trino 全在同一台机器上跟着抖。 更扎心一点:这事本质不是 SeaTunnel 的 bug,而是我自己对数据分片、流式写入和内存模型的理解太粗糙。 这篇就当是一次复盘:从"我以为是流式,不会堆内存"到慢慢意识到------你以为的"流",其实是很多层 buffer 和 batch 堆起来的。 事故现场:一台 60G 机器,快被我榨干了 当时的 top 大概是这样: MiB Mem : 63005.9 total, 2010.6 free, 53676.2 used, 8097.3 buff/cache MiB Swap: 0.0 total, 0.0 free, 0.0 used ... PID VIRT RES %MEM COMMAND...




