GaussDB火焰图分析

2023-07-26 652

问题描述

CPU利用率是衡量系统负载和健康度的重要指标之一，系统在运行过程中时常发生CPU利用率高的情况。在分析性能问题时，可通过火焰图查看CPU耗时，了解瓶颈在哪里。

问题现象

部分sql执行速度不符合预期。

告警

慢sql告警。
cpu使用率高告警。
数据库整体运行慢。

业务影响

业务性能差。

原因分析

函数存在性能问题。

处理方法

所需工具：stackcollapse-perf.pl、flamegraph.pl。注意权限修改。

登录主DN节点，查看耗CPU高的进程，查看进程号。
```
top
```
参数说明：
- %us (usr/user)：用户空间占用CPU的百分比。
- %sy (system)：内核空间占用CPU的百分比。
- %ni (nice)：改变过优先级的进程占用CPU的百分比。
- %id (idle)：空闲CPU百分比。
- %wa (iowait)：IO等待占用CPU的百分比（实际CPU并未工作）。
- %hi (hardware interrupts)：硬中断（Hardware IRQ）占用CPU的百分比。
- %si (software interrupts)：软中断（Software Interrupts）占用CPU的百分比。
- %st (steal)：Hypervisor偷取的CPU的百分比。
执行perf 命令（performance 的缩写），它是 Linux 系统原生提供的性能分析工具，会返回 CPU 正在执行的函数名以及调用栈（stack）。
通常，它的执行频率是 99Hz（每秒99次），如果99次都返回同一个函数名，那就说明 CPU 这一秒钟都在执行同一个函数，可能存在性能问题。
```
perf record -e cpu-clock -g -p 28591 <主DN进程号> -- sleep 60<持续60s>
```
Ctrl+c结束执行后，在当前目录下会生成采样数据perf.data（执行时长1分钟即可）。
用perf script工具对perf.data进行解析：
```
perf script -i perf.data &> perf.unfold
```

将perf.unfold中的符号进行折叠：

./stackcollapse-perf.pl perf.unfold &> perf.folded

最后生成svg图：
```
./flamegraph.pl perf.folded > cn.svg
```
y 轴表示调用栈，每一层都是一个函数。调用栈越深，火焰就越高，顶部就是正在执行的函数，下方都是它的父函数。
x 轴表示抽样数，如果一个函数在 x 轴占据的宽度越宽，就表示它被抽到的次数多，即执行的时间长。注意，x 轴不代表时间，而是所有的调用栈合并后，按字母顺序排列的。
火焰图就是看顶层的哪个函数占据的宽度最大。只要有"平顶"（plateaus），就表示该函数可能存在性能问题。
颜色没有特殊含义，因为火焰图表示的是 CPU 的繁忙程度，所以一般选择暖色调。

微信关注我们

原文链接：https://my.oschina.net/gaussdb/blog/10090882

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Apache Pulsar 技术系列 - GEO replication 中订阅状态的同步原理

导语 Apache Pulsar 是一个多租户、高性能的服务间消息传输解决方案，支持多租户、低延时、读写分离、跨地域复制（GEO Replication）、快速扩容、灵活容错等特性，GEO Replication 可以原生支持数据和订阅状态在多个集群之间进行复制，GEO 目前在 Apache InLong 内部已经有长期稳定的实践，本文主要讲述 GEO 中的订阅状态的同步。 GEO 简介 GEO Replication 提供了数据在多个集群之间进行复制的能力。上图描述了三个集群，并且集群之间配置了不同的 GEO Replication 策略，其中 Cluster-A 和 Cluster-B 是双向复制，两个集群中的 Topic 数据都会复制到对端集群，即集群 A 的数据会被复制到集群 B，集群 B 的数据也会被复制到集群 A，A、B 两个集群都有对方的全部数据； Cluster-A 和 Cluster-C 是单向复制：A 集群的数据会被复制到 C 集群，C 集群的数据不会被复制到 A 集群； Cluster-B 和 Cluster-C 没有复制关系：集群 B 和 C 之间不会产生任何...

2023-07-25

906

本文从一个小明写的bug 开始，讲bug的发现、排查定位，并由此展开对涉及的算法进行图解分析和源码分析。事情挺曲折的，因为小明的代码是有单测的，让小明更加笃定自己写的没问题。所以在排查的时候，也经历了前世的500年，去排查排序后的list改动（主要是小明和同事互相怀疑对方的代码，不多说了）。本文从问题定位之后开始讲：前言小明写了一个自定义排序的代码，简化后如下。聪明的你快来帮小明review一下吧。代码背景：有一批休息室，status是状态，其中1表示空闲，8表示使用中，2表示在维修。需要按照1空闲<8使用中<2在维修的顺序进行排序。例如：输入：[1,8, 2, 2, 8, 1, 8]，期望输出：[1, 1, 8, 8, 8, 2, 2]。list不为空，数量小于100。环境：JDK 8 小明的代码如下： /** * 排序 */ private static int compare(Integer status1, Integer status2) { // 1<8<2 ，按照这样的规则排序 if (status2 != null ...

2023-07-26

390

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。