重启大法好!线上常见问题排查手册
云栖号资讯:【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 阿里妹导读:本文从线上实际问题和故障的排查出发,分享如何快速定位和恢复线上常见问题和故障,总结了很多实操的方法,希望对大家有用。 一 线上常见问题定位 常见问题 1:CPU 利用率高 CPU 使用率是衡量系统繁忙程度的重要指标,一般情况下单纯的 CPU 高并没有问题,它代表系统正在不断的处理我们的任务,但是如果 CPU 过高,导致任务处理不过来,从而引起 load 高,这个是非常危险需要关注的。 CPU 使用率的安全值没有一个标准值,取决于你的系统是计算密集型还是 IO 密集型,一般计算密集型应用 CPU 使用率偏高 load 偏低,IO 密集型相反。 问题原因及定位: 1 频繁 FullGC/YongGC 查看 gc 日志 jstat -gcutil pid 查看内存使用和 gc 情况 2 代码消耗,如死循环,md5 等内存态操作 1)arthas (已开源:https://github.com/alibaba/arthas) thread -n 5 查看 CPU 使用率最高的前 5 ...
