再一次生产 CPU 高负载排查实践
前言
前几日早上打开邮箱收到一封监控报警邮件:某某 ip 服务器 CPU 负载较高,请研发尽快排查解决,发送时间正好是凌晨。
其实早在去年我也处理过类似的问题,并记录下来:《一次生产 CPU 100% 排查优化实践》
不过本次问题产生的原因却和上次不太一样,大家可以接着往下看。
问题分析
收到邮件后我马上登陆那台服务器,看了下案发现场还在(负载依然很高)。
于是我便利用这类问题的排查套路定位一遍。
首先利用 top -c
将系统资源使用情况实时显示出来 (-c
参数可以完整显示命令)。
接着输入大写 P
将应用按照 CPU
使用率排序,第一个就是使用率最高的程序。
果不其然就是我们的一个 Java
应用。
这个应用简单来说就是定时跑一些报表使的,每天凌晨会触发任务调度,正常情况下几个小时就会运行完毕。
常规操作第二步自然是得知道这个应用中最耗 CPU
的线程到底再干嘛。
利用 top -Hp pid
然后输入 P
依然可以按照 CPU
使用率将线程排序。
这时我们只需要记住线程的 ID 将其转换为 16 进制存储起来,通过 jstack pid >pid.log
生成日志文件,利用刚才保存的 16 进制进程 ID
去这个线程快照中搜索即可知道消耗 CPU
的线程在干啥了。
如果你嫌麻烦,我也强烈推荐阿里开源的问题定位神器 arthas
来定位问题。
比如上述操作便可精简为一个命令 thread -n 3
即可将最忙碌的三个线程快照打印出来,非常高效。
更多关于 arthas 使用教程请参考官方文档。
由于之前忘记截图了,这里我直接得出结论吧:
最忙绿的线程是一个 GC
线程,也就意味着它在忙着做垃圾回收。
GC 查看
排查到这里,有经验的老司机一定会想到:多半是应用内存使用有问题导致的。
于是我通过 jstat -gcutil pid 200 50
将内存使用、gc 回收状况打印出来(每隔 200ms 打印 50次)。
从图中可以得到以下几个信息:
Eden
区和old
区都快占满了,可见内存回收是有问题的。fgc
回收频次很高,10s 之内发生了 8 次回收((866493-866485)/ (200 *5)
)。- 持续的时间较长,fgc 已经发生了 8W 多次。
内存分析
既然是初步定位是内存问题,所以还是得拿一份内存快照分析才能最终定位到问题。
通过命令 jmap -dump:live,format=b,file=dump.hprof pid
可以导出一份快照文件。
这时就得借助 MAT
这类的分析工具出马了。
问题定位
通过这张图其实很明显可以看出,在内存中存在一个非常大的字符串,而这个字符串正好是被这个定时任务的线程引用着。
大概算了一下这个字符串所占的内存为 258m 左右,就一个字符串来说已经是非常大的对象了。
那这个字符串是咋产生的呢?
其实看上图中的引用关系及字符串的内容不难看出这是一个 insert
的 SQL
语句。
这时不得不赞叹 MAT
这个工具,他还能帮你预测出这个内存快照可能出现问题地方同时给出线程快照。
最终通过这个线程快照找到了具体的业务代码:
他调用一个写入数据库的方法,而这个方法会拼接一个 insert
语句,其中的 values
是循环拼接生成,大概如下:
<insert id="insert" parameterType="java.util.List"> insert into xx (files) values <foreach collection="list" item="item" separator=","> xxx </foreach> </insert>
所以一旦这个 list 非常大时,这个拼接的 SQL 语句也会很长。
通过刚才的内存分析其实可以看出这个 List
也是非常大的,也就导致了最终的这个 insert
语句占用的内存巨大。
优化策略
既然找到问题原因那就好解决了,有两个方向:
- 控制源头
List
的大小,这个List
也是从某张表中获取的数据,可以分页获取;这样后续的insert
语句就会减小。 - 控制批量写入数据的大小,其实本质还是要把这个拼接的
SQL
长度降下来。 - 整个的写入效率需要重新评估。
总结
本次问题从分析到解决花的时间并不长,也还比较典型,其中的过程再总结一下:
- 首先定位消耗
CPU
进程。 - 再定位消耗
CPU
的具体线程。 - 内存问题
dump
出快照进行分析。 - 得出结论,调整代码,测试结果。
最后愿大家都别接到生产告警。
你的点赞与分享是对我最大的支持

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
act-morphia 1.7.2 带来不一样的数据聚合体验
1. 概述 Mongodb 2.2 开始就提供了数据Aggregation Pipeline (聚合管道)用于简单数据分析统计,包括计数(count),求和(sum),均值(average),标准差(stddev) 等. 这个特性相较以前的 Map Reduce 方式提升了很多. 遗憾的是在服务端代码上使用 Aggregation Pipeline 还是需要使用比较繁复的 API, 包括 Spring Data 和 Morphia 提供的 API. 这大多是因为 Aggregation Pipeline 需要兼顾各种情况, 比如嵌入数组的 rewind, 还有对第一次聚合数据进行再聚合等. 在很多常用情况下, 应用只需要简单的分组聚合, 最多对聚合结果数据进行过滤和排序. 这时候我们希望能通过更简单的方式来获得结果. Act-morphia 插件在随 act-starter-1.8.23.2 最新发布的 1.7.2 版本中提供了一组简单易用的 API 来实现常用聚合逻辑. 2. API 简介 Act-Morphia 依托与 Morphia 库 实现了 Act-DB 框架. 下面是 Ac...
- 下一篇
宜信开源|微服务任务调度平台SIA-TASK入手实践
引言 最近宜信开源微服务任务调度平台SIA-TASK,SIA-TASK属于分布式的任务调度平台,使用起来简单方便,非常容易入手,部署搭建好SIA-TASK任务调度平台之后,编写TASK后配置JOB进行调度,进而实现整个调度流程。本文新建了JOB示例,该JOB关联了前后级联的两个TASK,TASKONE(前置TASK)和TASKTWO(后置TASK),主要阐述一个JOB怎样关联配置两个级联TASK,以及该JOB是如何通过SIA-TASK实现任务调度,最终实现对两个TASK执行器的调用。 拓展阅读:宜信开源|宜信开源微服务任务调度平台SIA—TASK 宜信开源|分布式任务调度平台SIA-TASK的架构设计与运行流程 首先,根据部署文档来搭建任务调度平台。 源码地址:https://github.com/siaorg/sia-task 官方文档:https://github.com/siaorg/sia-task/blob/master/README.md 任务调度平台主要由任务编排中心、任务调度中心以及ZK和DB等第三方服务构成,搭建SIA-TASK任务调度平台需要的主要工作包括: 1.M...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- 2048小游戏-低调大师作品
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- SpringBoot2全家桶,快速入门学习开发网站教程
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS6,CentOS7官方镜像安装Oracle11G