您现在的位置是:首页 > 文章详情

GaussDB火焰图分析

日期:2023-07-26点击:70

问题描述

CPU利用率是衡量系统负载和健康度的重要指标之一,系统在运行过程中时常发生CPU利用率高的情况。在分析性能问题时,可通过火焰图查看CPU耗时,了解瓶颈在哪里。

问题现象

部分sql执行速度不符合预期。

告警

  • 慢sql告警。
  • cpu使用率高告警。
  • 数据库整体运行慢。

业务影响

业务性能差。

原因分析

函数存在性能问题。

处理方法

所需工具:stackcollapse-perf.pl、flamegraph.pl。注意权限修改。

  1. 登录主DN节点,查看耗CPU高的进程,查看进程号。

    top


    参数说明:

    • %us (usr/user):用户空间占用CPU的百分比。
    • %sy (system):内核空间占用CPU的百分比。
    • %ni (nice):改变过优先级的进程占用CPU的百分比。
    • %id (idle):空闲CPU百分比。
    • %wa (iowait):IO等待占用CPU的百分比(实际CPU并未工作)。
    • %hi (hardware interrupts):硬中断(Hardware IRQ)占用CPU的百分比。
    • %si (software interrupts):软中断(Software Interrupts)占用CPU的百分比。
    • %st (steal):Hypervisor偷取的CPU的百分比。
  2. 执行perf 命令(performance 的缩写),它是 Linux 系统原生提供的性能分析工具,会返回 CPU 正在执行的函数名以及调用栈(stack)。
    通常,它的执行频率是 99Hz(每秒99次),如果99次都返回同一个函数名,那就说明 CPU 这一秒钟都在执行同一个函数,可能存在性能问题。

    perf record -e cpu-clock -g -p 28591 <主DN进程号> -- sleep 60<持续60s>

    Ctrl+c结束执行后,在当前目录下会生成采样数据perf.data(执行时长1分钟即可)。

  3. 用perf script工具对perf.data进行解析:

    perf script -i perf.data &> perf.unfold
  4. 将perf.unfold中的符号进行折叠:

    ./stackcollapse-perf.pl perf.unfold &> perf.folded
  5. 最后生成svg图:

    ./flamegraph.pl perf.folded > cn.svg


    y 轴表示调用栈,每一层都是一个函数。调用栈越深,火焰就越高,顶部就是正在执行的函数,下方都是它的父函数。
    x 轴表示抽样数,如果一个函数在 x 轴占据的宽度越宽,就表示它被抽到的次数多,即执行的时间长。注意,x 轴不代表时间,而是所有的调用栈合并后,按字母顺序排列的。
    火焰图就是看顶层的哪个函数占据的宽度最大。只要有"平顶"(plateaus),就表示该函数可能存在性能问题。
    颜色没有特殊含义,因为火焰图表示的是 CPU 的繁忙程度,所以一般选择暖色调。

原文链接:https://my.oschina.net/gaussdb/blog/10090882
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章