日常Bug排查-系统失去响应-Redis使用不当

2021-05-26 521

日常Bug排查-系统失去响应-Redis使用不当

前言

日常Bug排查系列都是一些简单Bug排查，笔者将在这里介绍一些排查Bug的简单技巧，同时顺便积累素材^_^。

Bug现场

开发反应线上系统出现失去响应的现象，收到业务告警已经频繁MarkAndSweep(Full GC)告警。于是找到笔者进行排查。

看基础监控

首先呢，当然是看我们的监控了，找到对应失去响应的系统的ip，看下我们的基础监控。
机器内存持续上升。因为我们是java系统，堆的大小一开始已经设置了最大值。

--XX:Xms2g -Xmx2g

所以看上去像堆外内存泄露。而FullGC告警只是堆外内存后一些关联堆内对象触发。

看应用监控

第二步，当然就是观察我们的应用监控，这边笔者用的是CAT。观察Cat中对应应用的情况，很容易发现，其ActiveThread呈现不正常的现象，竟然达到了5000+多个，同时和内存上升曲线保持一致。

jstack

java应用中遇到线程数过多的现象，首先我们考虑的是jstack，jstack出来对应的文件后。我们less一下，发现很多线程卡在下面的代码栈上。

"Thread-1234
	java.lang.Thread.State: WAITING (parking)
		at sun.misc.Unsafe.park
		......
		at org.apache.commons.pool2.impl.LinkedBlockingQueue.takeFirst
		......
		at redis.clients.util.Pool.getResource

很明显的，这个代码栈值得是没有获取连接，从而卡住。至于为什么卡这么长时间而不释放，肯定是由于没设置超时时间。那么是否大部分线程都卡在这里呢，这里我们做一下统计。

cat jstack.txt | grep 'prio=' | wc -l 
======> 5648
cat jstack.txt | grep 'redis.clients.util.Pool.getResource' 
======> 5242

可以看到，一共5648个线程，有5242，也就是92%的线程卡在Redis getResource中。

看下redis情况

netstat -anp | grep 6379 
tcp 0 0 1.2.3.4:111 3.4.5.6:6379 ESTABLISHED
......

一共5个，而且连接状态为ESTABLISHED，正常。由此可见他们配置的最大连接数是5(因为别的线程正在得到获取Redis资源)。

Redis连接泄露

那么很自然的想到，Redis连接泄露了，即应用获得Redis连接后没有还回去。这种泄露有下面几种可能:
情况1:
情况2:

情况3：
调用Redis卡住，由于其它机器是好的，故排除这种情况。

如何区分

我们做个简单的推理:
如果是情况1，那么这个RedisConn肯定可以通过内存可达性分析和Thread关联上，而且这个关联关系肯定会关联到某个业务操作实体(例如code stack or 业务bean)。那么我们只要观察其在堆内的关联路线是否和业务相关即可,如果没有任何关联，那么基本断定是情况2了。

可达性分析

我们可以通过jmap dump出应用内存，然后通过MAT(Memory Analysis Tool)来进行可达性分析。

首先找到RedisConn

将dump文件在MAT中打开，然后运行OQL:

select * from redis.clients.jedis.Jedis (RedisConn的实体类)

搜索到一堆Jedis类，然后我们执行

Path To GCRoots->with all references

可以看到如下结果:

redis.clients.jedis.Jedis
	|->object 
		|->item
			|->first
				|->...
					|->java.util.TimerThread
				|->internalPool

由此可见，我们的连接仅仅被TimerThread和internalPool(Jedis本身的连接池)持有。所以我们可以判断出大概率是情况2，即忘了归还连接。翻看业务代码:

伪代码
void lock(){
	conn = jedis.getResource()
	conn.setNx()
	// 结束,此处应该有finally{returnResource()}或者采用RedisTemplate
}

最后就是很简单的，业务开发在执行setNx操作后，忘了将连接还回去。导致连接泄露。

如果是情况1如何定位卡住的代码

到此为止，这个问题时解决了。但是如果是情况1的话，我们又该如何分析下去呢？很简单，我们如果找到了jedis被哪个业务线程拥有，直接从heap dump找到其线程号，然后取Jstack中搜索即可知道其卡住的代码栈。

jmap:
redis.clients.jedis.Jedis
	|->Thread-123

jstack:

Thread-123 prio=...
	at xxx.xxx.xxx.blocked

总结

这是一个很简单的问题，知道套路之后排查起来完全不费事。虽然最后排查出来是个很低级的代码，但是这种分析方法值得借鉴。

微信关注我们

原文链接：https://my.oschina.net/alchemystar/blog/5059171

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Kubernetes安装篇（上）：基于Minikube方式部署本地环境

一切先从安装开始！学习一门新的技术，一般先从安装开始，实实在在的安装完，使用它，逐步深入了解。为了方便大家开发、学习和体验Kubernetes，Kubernetes社区提供了可以在本地部署的minikube，通过minikube方式可以在本地运行Kubernetes。（Kubernetes的部署方式还有很多，本文是基于本地开发环境的部署方式，学习它足够了。想要部署一套符合生产环境的集群不是一件容易的事，随后其他篇章将会涉及。） 1、Minikube Minikube 是一个可以在本地轻松运行 Kubernetes 的工具。Minikube 会在您的电脑中的虚拟机上运行一个单节点的Kubernetes 集群，以便用户对Kubernetes进行使用或者在之上进行Kubernetes的日常开发。特征： minikube运行Kubernetes的最新稳定版本，并支持标准的Kubernetes功能，例如：负载均衡：使用minikube tunnel 多集群：使用minikube start -p <name> NodePorts：使用minikube service ...

2021-05-26

812

3.2.2版本更新详情: fix(core): 枚举值传""和 null时报错的bug fix(lamp-file): 修复附件下载报错 fix(lamp-generator): 修复代码生成器生成树型页面重复字段的问题 refactor(boot): 优化PoiController，导出和导出预览功能，使得子类更容易重写导出数据 refactor(authority): 完善用户、岗位管理导入、导出功能，支持下载模板、导出预览、直接导出 refactor: 组织名、岗位名、用户账号唯一性校验 feat(lamp-web-plus): 完善组织、岗位、用户模块页面的CRUD功能，并优化导入、导出组件 feat(lamp-samples): 新增示例项目，提供常见用法的示例。（如： None模式多数据源配置、分布式事务解决方案、缓存使用、数据回显、前后端统一验证等）《灯灯》中后台快速开发平台 lamp 名字由来叙事版：在一个夜黑风高的晚上，小孩吵着要出去玩，于是和程序员老婆一起带小孩出去放风，路上顺便讨论起项目要换个什么名字，在各自想出的名字都被对方一一否决后，大家陷入了沉思...

2021-05-26

710

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。