重启大法好！线上常见问题排查手册-低调大师

重启大法好！线上常见问题排查手册

2020-04-26 798

云栖号资讯：【点击查看更多行业资讯】
在这里您可以找到不同行业的第一手的上云资讯，还在等什么，快来！

阿里妹导读：本文从线上实际问题和故障的排查出发，分享如何快速定位和恢复线上常见问题和故障，总结了很多实操的方法，希望对大家有用。

一线上常见问题定位

常见问题 1：CPU 利用率高

CPU 使用率是衡量系统繁忙程度的重要指标，一般情况下单纯的 CPU 高并没有问题，它代表系统正在不断的处理我们的任务，但是如果 CPU 过高，导致任务处理不过来，从而引起 load 高，这个是非常危险需要关注的。 CPU 使用率的安全值没有一个标准值，取决于你的系统是计算密集型还是 IO 密集型，一般计算密集型应用 CPU 使用率偏高 load 偏低，IO 密集型相反。

问题原因及定位：

1 频繁 FullGC/YongGC

查看 gc 日志

jstat -gcutil pid 查看内存使用和 gc 情况

2 代码消耗，如死循环，md5 等内存态操作

1）arthas （已开源：https://github.com/alibaba/arthas）

thread -n 5 查看 CPU 使用率最高的前 5 个线程（包含堆栈，第二部分有详解）

2）jstack 查找

ps -ef | grep java 找到 Java 进程 id

top -Hp pid 找到使用 CPU 最高的线程

printf ‘0x%x’ tid 线程 id 转化 16 进制

jstack pid | grep tid 找到线程堆栈

ps：输入“1”可查看每个 CPU 的情况，之前有团队遇到单个 CPU 被中间件绑定导致 CPU 飚高的 case。

常见问题 2：load 高

load 指单位时间内活跃进程数，包含运行态（runnable 和 running）和不可中断态（ IO、内核态锁）。关键字是运行态和不可中断态，运行态可以联想到 Java 线程的 6 种状态，如下，线程 new 之后处于 NEW 状态，执行 start 进入 runnable 等待 CPU 调度，因此如果 CPU 很忙会导致 runnable 进程数增加；不可中断态主要包含网络 IO、磁盘 IO 以及内核态的锁，如 synchronized 等。

问题原因及定位：

1 CPU 利用率高，可运行态进程数多

排查方法见常见问题一

2 iowait，等待 IO

vmstat 查看 blocked 进程状况

jstack -l pid | grep BLOCKED 查看阻塞态线程堆栈

3 等待内核态锁，如 synchronized

jstack -l pid | grep BLOCKED 查看阻塞态线程堆栈
profiler dump 线程栈，分析线程持锁情况

常见问题 3：持续 FullGC

在了解 FullGC 原因之前，先花一点时间回顾下 jvm 的内存相关知识：

内存模型

新 new 的对象放在 Eden 区，当 Eden 区满之后进行一次 MinorGC，并将存活的对象放入 S0；

当下一次 Eden 区满的时候，再次进行 MinorGC，并将存活的对象和 S0 的对象放入S1（S0 和 S1 始终有一个是空的）；

依次循环直到 S0 或者 S1 快满的时候将对象放入 old 区，依次，直到 old 区满进行 FullGC。

jdk1.7 之前 Java 类信息、常量池、静态变量存储在 Perm 永久代，类的原数据和静态变量在类加载的时候放入 Perm 区，类卸载的时候清理；在 1.8 中，MetaSpace 代替 Perm 区，使用本地内存，常量池和静态变量放入堆区，一定程度上解决了在运行时生成或加载大量类造成的 FullGC，如反射、代理、groovy 等。

回收器

年轻代常用 ParNew，复制算法，多线程并行；

老年代常用 CMS，标记清除算法（会产生内存碎片），并发收集(收集过程中有用户线程产生对象)。

关键常用参数

CMSInitiatingOccupancyFraction 表示老年代使用率达到多少时进行 FullGC；
UseCMSCompactAtFullCollection 表示在进行 FullGC 之后进行老年代内存整理，避免产生内存碎片。

问题原因及定位：

1 prommotion failed

从S区晋升的对象在老年代也放不下导致 FullGC（fgc 回收无效则抛 OOM）。

1）survivor 区太小，对象过早进入老年代。

jstat -gcutil pid 1000 观察内存运行情况；
jinfo pid 查看 SurvivorRatio 参数；

2）大对象分配，没有足够的内存。

日志查找关键字 “allocating large”；
profiler 查看内存概况大对象分布；

3）old 区存在大量对象。

实例数量前十的类：jmap -histo pid | sort -n -r -k 2 | head -10
实例容量前十的类：jmap -histo pid | sort -n -r -k 3 | head -10
dump 堆，profiler 分析对象占用情况

2 concurrent mode failed

在 CMS GC 过程中业务线程将对象放入老年代（并发收集的特点）内存不足。详细原因：

1）fgc 触发比例过大，导致老年代占用过多，并发收集时用户线程持续产生对象导致达到触发 FGC 比例。

jinfo 查看 CMSInitiatingOccupancyFraction 参数，一般 70~80 即可

2）老年代存在内存碎片。

jinfo 查看 UseCMSCompactAtFullCollection 参数，在 FullGC 后整理内存

常见问题 4：线程池满

Java 线程池以有界队列的线程池为例，当新任务提交时，如果运行的线程少于 corePoolSize，则创建新线程来处理请求。如果正在运行的线程数等于 corePoolSize 时，则新任务被添加到队列中，直到队列满。当队列满了后，会继续开辟新线程来处理任务，但不超过 maximumPoolSize。当任务队列满了并且已开辟了最大线程数，此时又来了新任务，ThreadPoolExecutor 会拒绝服务。

问题原因及定位：

1 下游 RT 高，超时时间不合理

业务监控

sunfire

eagleeye

2 数据库慢 sql 或者数据库死锁

日志关键字 “Deadlock found when trying to get lock”
Jstack 或 zprofiler 查看阻塞态线程

3 Java 代码死锁

jstack –l pid | grep -i –E 'BLOCKED | deadlock'
dump thread 通过 zprofiler 分析阻塞线程和持锁情况

常见问题 5：NoSuchMethodException

问题原因及定位：

1 jar 包冲突

java 在装载一个目录下所有 jar 包时，它加载的顺序完全取决于操作系统。

mvn dependency:tree 分析报错方法所在的 jar 包版本，留下新的
arthas：sc -d ClassName
XX：+TraceClassLoading

2 同类问题

ClassNotFoundException

NoClassDefFoundError

ClassCastException

二常用工具介绍

常用命令

1 tail

-f 跟踪文件

2 grep

-i 忽略大小写
-v 反转查找
-E 扩展正则表达式：grep -E 'pattern1|pattern2' filename

3 pgm

-b 开启并发
-p 指定并发数
-A 开启 askpass

4 awk

-F 指定分隔符：awk -F “|” '{print $1}‘ | sort -r | uniq -c

5 sed

时间段匹配：sed '/2020-03-02 10:00:00/,/2020-03-02 11:00:00/p' filename

arthas

阿里巴巴开源 Java 诊断工具（开源地址：https://github.com/alibaba/arthas），基于 javaAgent 方式，使用 Instrumentation 方式修改字节码方式进行 Java 应用诊断。

基础功能介绍

dashboard：系统实时数据面板, 可查看线程，内存，gc 等信息
thread：jvm 线程堆栈信息，如查看最繁忙的前 n 线程
getstatic：获取静态属性值，如 getstatic className attrName 可用于查看线上开关真实值
sc：查看 jvm 已加载类信息，可用于排查 jar 包冲突
sm：查看 jvm 已加载类的方法信息
jad：反编译 jvm 加载类信息,排查代码逻辑没执行原因
watch：观测方法执行数据，包含出入参，异常等；
watch xxxClass xxxMethod " {params, throwExp} " -e -x 2
watch xxxClass xxxMethod "{params,returnObj}" "params[0].sellerId.equals('189')" -x 2
watch xxxClass xxxMethod sendMsg '@com.taobao.eagleeye.EagleEye@getTraceId()'
trace：方法内部调用时长，并输出每个节点的耗时，用于性能分析
tt：用于记录方法，并做回放

三常见问题恢复

1 线程池满

rpc 框架线程池满
高 RT 接口进行线程数限流
应用内线程池满
重启可短暂缓解，具体还得看问题原因

2 CPU 高，load 高

单机置换或重启，可短暂缓解，恢复看具体原因
集群高且流量大幅增加，扩容，恢复看具体原因

3 下游 RT 高

限流
降级

4 数据库

死锁
kill 进程
慢 sql
sql 限流

线上问题的排查是一个积累的过程，只有了解问题背后的原理才能更快速的定位和恢复，除此之外更需要有一些趁手的工具来辅助排查，从而降低整个团队问题定位和快恢的门槛。

【云栖号在线课堂】每天都有产品技术专家分享！
课程地址：https://yqh.aliyun.com/zhibo

立即加入社群，与专家面对面，及时了解课程最新动态！
【云栖号在线课堂社群】https://c.tb.cn/F3.Z8gvnK

原文发布时间：2020-04-27
本文作者：常海云（奕达）
本文来自：“阿里技术公众号”，了解相关信息可以关注“阿里技术”

微信关注我们

原文链接：https://yq.aliyun.com/articles/757685

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

MDJS：可将 JavaScript 添加到 Markdown，创建交互式文档

云栖号资讯：【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯，还在等什么，快来！ Open Web Components（ @OpenWc ）创建者 Thomas Allmer 发布了 MDJS ，这是一种 Markdown 变体，支持在 Markdown 文档中包含可运行的 JavaScript 代码。MDJS 可以解释为常规的 Markdown 内容，也可以进一步升级为带有为 Web 组件的交互式文档。MDJS 通过三个新结构增强了 Markdown 的代码块语法：script、story、preview-story。以下 Markdown 源代码： ```js script import './my-component.js'; ``` # This is my component <my-component></my-component> 将生成下面的 JavaScript 和 HTML 代码： import './my-component.js'; <h1>This is my component</h1>...

2020-04-26

1117

CUBA Platform 7.2.4 发布，这是一个维护性升级，包含以下重要Bug修复或改进：修正了设计时角色不支持扩展实体的问题修正了DataManager 进行数据提交时 EntityFetcher 可能出现 "unfetched attribute" 异常的问题 CUBA Gradle 插件：修正了 CubaDbScriptsAssembling 任务生成的组件 DB 脚本编号不正确的问题 CUBA Gradle 插件：CreateDb/UpdateDb 任务支持使用应用程序属性文件中定义的属性报表组件：更新 YARG 到 2.2.6 其它多项Bug修复详细修复列表请参阅：已解决问题列表 CUBA Platform 是一款开源且免费的企业级应用开发框架，已有将近10年的发展历史，由俄罗斯的 Haulmont 公司开发。 CUBA Platform 已登陆中国，为中国开发人员提供了中文网站、中文学习资源、中文开发文档以及中文论坛，社区活跃度日益提升。有任何开发问题可访问 CUBA 平台中国官方网站来反馈和交流。

2020-04-27

734

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。