日常Bug排查-系统失去响应-Redis使用不当
日常Bug排查-系统失去响应-Redis使用不当
前言
日常Bug排查系列都是一些简单Bug排查,笔者将在这里介绍一些排查Bug的简单技巧,同时顺便积累素材^_^。
Bug现场
开发反应线上系统出现失去响应的现象,收到业务告警已经频繁MarkAndSweep(Full GC)告警。于是找到笔者进行排查。
看基础监控
首先呢,当然是看我们的监控了,找到对应失去响应的系统的ip,看下我们的基础监控。
机器内存持续上升。因为我们是java系统,堆的大小一开始已经设置了最大值。
--XX:Xms2g -Xmx2g
所以看上去像堆外内存泄露。而FullGC告警只是堆外内存后一些关联堆内对象触发。
看应用监控
第二步,当然就是观察我们的应用监控,这边笔者用的是CAT。观察Cat中对应应用的情况,很容易发现,其ActiveThread呈现不正常的现象,竟然达到了5000+多个,同时和内存上升曲线保持一致。
jstack
java应用中遇到线程数过多的现象,首先我们考虑的是jstack,jstack出来对应的文件后。我们less一下,发现很多线程卡在下面的代码栈上。
"Thread-1234
java.lang.Thread.State: WAITING (parking)
at sun.misc.Unsafe.park
......
at org.apache.commons.pool2.impl.LinkedBlockingQueue.takeFirst
......
at redis.clients.util.Pool.getResource
很明显的,这个代码栈值得是没有获取连接,从而卡住。至于为什么卡这么长时间而不释放,肯定是由于没设置超时时间。那么是否大部分线程都卡在这里呢,这里我们做一下统计。
cat jstack.txt | grep 'prio=' | wc -l
======> 5648
cat jstack.txt | grep 'redis.clients.util.Pool.getResource'
======> 5242
可以看到,一共5648个线程,有5242,也就是92%的线程卡在Redis getResource中。
看下redis情况
netstat -anp | grep 6379
tcp 0 0 1.2.3.4:111 3.4.5.6:6379 ESTABLISHED
......
一共5个,而且连接状态为ESTABLISHED,正常。由此可见他们配置的最大连接数是5(因为别的线程正在得到获取Redis资源)。
Redis连接泄露
那么很自然的想到,Redis连接泄露了,即应用获得Redis连接后没有还回去。这种泄露有下面几种可能:
情况1:
情况2:
情况3:
调用Redis卡住,由于其它机器是好的,故排除这种情况。
如何区分
我们做个简单的推理:
如果是情况1,那么这个RedisConn肯定可以通过内存可达性分析和Thread关联上,而且这个关联关系肯定会关联到某个业务操作实体(例如code stack or 业务bean)。那么我们只要观察其在堆内的关联路线是否和业务相关即可,如果没有任何关联,那么基本断定是情况2了。
可达性分析
我们可以通过jmap dump出应用内存,然后通过MAT(Memory Analysis Tool)来进行可达性分析。
首先找到RedisConn
将dump文件在MAT中打开,然后运行OQL:
select * from redis.clients.jedis.Jedis (RedisConn的实体类)
搜索到一堆Jedis类,然后我们执行
Path To GCRoots->with all references
可以看到如下结果:
redis.clients.jedis.Jedis
|->object
|->item
|->first
|->...
|->java.util.TimerThread
|->internalPool
由此可见,我们的连接仅仅被TimerThread和internalPool(Jedis本身的连接池)持有。所以我们可以判断出大概率是情况2,即忘了归还连接。翻看业务代码:
伪代码
void lock(){
conn = jedis.getResource()
conn.setNx()
// 结束,此处应该有finally{returnResource()}或者采用RedisTemplate
}
最后就是很简单的,业务开发在执行setNx操作后,忘了将连接还回去。导致连接泄露。
如果是情况1如何定位卡住的代码
到此为止,这个问题时解决了。但是如果是情况1的话,我们又该如何分析下去呢?很简单,我们如果找到了jedis被哪个业务线程拥有,直接从heap dump找到其线程号,然后取Jstack中搜索即可知道其卡住的代码栈。
jmap:
redis.clients.jedis.Jedis
|->Thread-123
jstack:
Thread-123 prio=...
at xxx.xxx.xxx.blocked
总结
这是一个很简单的问题,知道套路之后排查起来完全不费事。虽然最后排查出来是个很低级的代码,但是这种分析方法值得借鉴。
关注公众号
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
Kubernetes安装篇(上):基于Minikube方式部署本地环境
一切先从安装开始! 学习一门新的技术,一般先从安装开始,实实在在的安装完,使用它,逐步深入了解。 为了方便大家开发、学习和体验Kubernetes,Kubernetes社区提供了可以在本地部署的minikube,通过minikube方式可以在本地运行Kubernetes。 (Kubernetes的部署方式还有很多,本文是基于本地开发环境的部署方式,学习它足够了。想要部署一套符合生产环境的集群不是一件容易的事,随后其他篇章将会涉及。) 1、Minikube Minikube 是一个可以在本地轻松运行 Kubernetes 的工具。Minikube 会在您的电脑中的虚拟机上运行一个单节点的Kubernetes 集群,以便用户对Kubernetes进行使用或者在之上进行Kubernetes的日常开发。 特征: minikube运行Kubernetes的最新稳定版本,并支持标准的Kubernetes功能,例如: 负载均衡: 使用minikube tunnel 多集群: 使用minikube start -p <name> NodePorts: 使用minikube service ...
-
下一篇
lamp-cloud 3.2.2 发布,Java 微服务中后台快速开发平台
3.2.2版本更新详情: fix(core): 枚举值传""和 null时报错的bug fix(lamp-file): 修复附件下载报错 fix(lamp-generator): 修复代码生成器生成树型页面重复字段的问题 refactor(boot): 优化PoiController,导出和导出预览功能,使得子类更容易重写导出数据 refactor(authority): 完善用户、岗位管理导入、导出功能, 支持下载模板、导出预览、直接导出 refactor: 组织名、岗位名、用户账号唯一性校验 feat(lamp-web-plus): 完善组织、岗位、用户模块页面的CRUD功能,并优化导入、导出组件 feat(lamp-samples): 新增示例项目,提供常见用法的示例。(如: None模式多数据源配置、分布式事务解决方案、缓存使用、数据回显、前后端统一验证等) 《灯灯》中后台快速开发平台 lamp 名字由来 叙事版: 在一个夜黑风高的晚上,小孩吵着要出去玩,于是和程序员老婆一起带小孩出去放风,路上顺便讨论起项目要换个什么名字,在各自想出的名字都被对方一一否决后,大家陷入了沉思...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Docker容器配置,解决镜像无法拉取问题
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- Windows10,CentOS7,CentOS8安装Nodejs环境
- Docker安装Oracle12C,快速搭建Oracle学习环境
- CentOS6,CentOS7官方镜像安装Oracle11G
- SpringBoot2整合Thymeleaf,官方推荐html解决方案






微信收款码
支付宝收款码