GaussDB火焰图分析
问题描述
CPU利用率是衡量系统负载和健康度的重要指标之一,系统在运行过程中时常发生CPU利用率高的情况。在分析性能问题时,可通过火焰图查看CPU耗时,了解瓶颈在哪里。
问题现象
部分sql执行速度不符合预期。
告警
- 慢sql告警。
- cpu使用率高告警。
- 数据库整体运行慢。
业务影响
业务性能差。
原因分析
函数存在性能问题。
处理方法
所需工具:stackcollapse-perf.pl、flamegraph.pl。注意权限修改。
-
登录主DN节点,查看耗CPU高的进程,查看进程号。
top
参数说明:- %us (usr/user):用户空间占用CPU的百分比。
- %sy (system):内核空间占用CPU的百分比。
- %ni (nice):改变过优先级的进程占用CPU的百分比。
- %id (idle):空闲CPU百分比。
- %wa (iowait):IO等待占用CPU的百分比(实际CPU并未工作)。
- %hi (hardware interrupts):硬中断(Hardware IRQ)占用CPU的百分比。
- %si (software interrupts):软中断(Software Interrupts)占用CPU的百分比。
- %st (steal):Hypervisor偷取的CPU的百分比。
-
执行perf 命令(performance 的缩写),它是 Linux 系统原生提供的性能分析工具,会返回 CPU 正在执行的函数名以及调用栈(stack)。
通常,它的执行频率是 99Hz(每秒99次),如果99次都返回同一个函数名,那就说明 CPU 这一秒钟都在执行同一个函数,可能存在性能问题。perf record -e cpu-clock -g -p 28591 <主DN进程号> -- sleep 60<持续60s>
Ctrl+c结束执行后,在当前目录下会生成采样数据perf.data(执行时长1分钟即可)。
-
用perf script工具对perf.data进行解析:
perf script -i perf.data &> perf.unfold
-
将perf.unfold中的符号进行折叠:
./stackcollapse-perf.pl perf.unfold &> perf.folded
-
最后生成svg图:
./flamegraph.pl perf.folded > cn.svg
y 轴表示调用栈,每一层都是一个函数。调用栈越深,火焰就越高,顶部就是正在执行的函数,下方都是它的父函数。
x 轴表示抽样数,如果一个函数在 x 轴占据的宽度越宽,就表示它被抽到的次数多,即执行的时间长。注意,x 轴不代表时间,而是所有的调用栈合并后,按字母顺序排列的。
火焰图就是看顶层的哪个函数占据的宽度最大。只要有"平顶"(plateaus),就表示该函数可能存在性能问题。
颜色没有特殊含义,因为火焰图表示的是 CPU 的繁忙程度,所以一般选择暖色调。
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Apache Pulsar 技术系列 - GEO replication 中订阅状态的同步原理
导语 Apache Pulsar 是一个多租户、高性能的服务间消息传输解决方案,支持多租户、低延时、读写分离、跨地域复制(GEO Replication)、快速扩容、灵活容错等特性,GEO Replication 可以原生支持数据和订阅状态在多个集群之间进行复制,GEO 目前在 Apache InLong 内部已经有长期稳定的实践,本文主要讲述 GEO 中的订阅状态的同步。 GEO 简介 GEO Replication 提供了数据在多个集群之间进行复制的能力。 上图描述了三个集群,并且集群之间配置了不同的 GEO Replication 策略,其中 Cluster-A 和 Cluster-B 是双向复制,两个集群中的 Topic 数据都会复制到对端集群,即集群 A 的数据会被复制到集群 B,集群 B 的数据也会被复制到集群 A,A、B 两个集群都有对方的全部数据; Cluster-A 和 Cluster-C 是单向复制:A 集群的数据会被复制到 C 集群,C 集群的数据不会被复制到 A 集群; Cluster-B 和 Cluster-C 没有复制关系:集群 B 和 C 之间不会产生任何...
- 下一篇
源码解析Collections.sort ——从一个逃过单测的 bug 说起 | 京东云技术团队
本文从一个小明写的bug 开始,讲bug的发现、排查定位,并由此展开对涉及的算法进行图解分析和源码分析。 事情挺曲折的,因为小明的代码是有单测的,让小明更加笃定自己写的没问题。所以在排查的时候,也经历了前世的500年,去排查排序后的list改动(主要是小明和同事互相怀疑对方的代码,不多说了)。 本文从问题定位之后开始讲: 前言 小明写了一个自定义排序的代码,简化后如下。聪明的你快来帮小明review一下吧。 代码 背景:有一批休息室,status是状态,其中1表示空闲,8表示使用中,2表示在维修。需要按照1空闲<8使用中<2在维修的顺序进行排序。 例如:输入:[1,8, 2, 2, 8, 1, 8],期望输出:[1, 1, 8, 8, 8, 2, 2]。list不为空,数量小于100。 环境:JDK 8 小明的代码如下: /** * 排序 */ private static int compare(Integer status1, Integer status2) { // 1<8<2 ,按照这样的规则排序 if (status2 != null ...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Windows10,CentOS7,CentOS8安装Nodejs环境
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- CentOS关闭SELinux安全模块
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- SpringBoot2全家桶,快速入门学习开发网站教程
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- CentOS7设置SWAP分区,小内存服务器的救世主