超详细 Clickhouse 负载过高问题快速排查思路教程
机器配置 Clickhouse 配置内存大小: 250G Zookeeper 配置内存大小:24G 发现问题 企业相关开发人员通过Grafana监控Clickhouse指标观察到,从12点左右出现了大量的碎片写入,从而引起了相关指标的快速上升。查看云智慧的数字化运维数据平台 DODB (以下简称DODB)概览页也未查看出异常出现源头,而当查看服务器负载情况时,已经上升至900+。 开始排查 检查是否为执行 SQL 太多 当遇到此类问题时,普遍情况下均会猜测是 SQL 执行太多导致。因此,团队开发人员检查了 Clickhouse 的 Process表,以此判断运行中的 SQL 是否过多。与此同时与算法部门的同事进行沟通,最终确认是通过 DODB 写入数据的。随后又查询了一下执行中的 SOL,发现两台机器上运行中的 SOL 不太均衡。 查询 Clickhouse 日志 当查看 Clickhouse 日志时,看到有很多 warn 的日志,但并没有出现有价值的日志。 查询 Zookeeper 日志 当查看 Zookeeper 日志时,发现数据同步有比较大的延迟,超过了1-2s。 排查同步数据延...