centos7 lldb 调试netcore应用的内存泄漏和死循环示例(dump文件调试)-低调大师

centos7 lldb 调试netcore应用的内存泄漏和死循环示例(dump文件调试)

2018-07-05 603

写个demo来玩一玩linux平台下使用lldb加载sos来调试netcore应用。
当然，在真实的产线环境中需要分析的数据和难度远远高于demo所示，所以demo的作用也仅仅只能起到介绍工具的作用。
通常正常情况下，分析个几天才能得出一个结论的的结果都还是比较令人开心的！，很多时候分析来分析去也搞不出个所以然，也是很正常的（当然，也是自己学艺不精(^_^)）
在linux平台下的sos调试远没有在windows下面用windbg来得舒服，该有的命令很多都没有。
微软爸爸还要加油努力啊！如果能做到linux下的dmp能在windows下面用windbg之类的工具那就爽翻了,哈哈，当然不可能，臆想一下下拉。

lldb工具的安装，linux下netcore如何生成dump文件，查看下文
centos7使用lldb调试netcore应用转储dump文件

图片有点多，文章有点长,来一个大纲先

准备DEMO程序的代码
生成待调试分析的dump文件
目前linux下sos支持的命令
模拟分析内存泄漏
内存泄漏调试分析结论
内存泄漏分析疑问一
内存泄漏分析疑问二
死循环调试分析
内存泄漏调试分析结论

准备DEMO程序的代码

废话不多说，先上demo程序代码。代码超级简单，模拟内存泄漏就简单的往一个静态list里面每次插入1M的byte[]；死循环则就是一个while(true)；
PS：话说markdown插入代码能不能有收起，展开功能呢。那就爽歪歪拉 @dudu

namespace linxu_dump_lldb.Controllers
{
    class env
    {
        public static bool cpu_flag;
        public static bool setcpu_flag(bool flag) => cpu_flag = flag;
        public static bool getcpu_flag() => cpu_flag;
        public static List<byte[]> memory = new List<byte[]>();
    }
    [Route("api/[controller]/[action]")]
    [ApiController]
    public class ValuesController : ControllerBase
    {
        public string index() =>(GC.GetTotalMemory(false) / 1024.0 / 1024).ToString("0.00M");
        [HttpGet]
        public void begin_cpu()
        {
            env.setcpu_flag(true);
            Task.Run(() => {while (env.getcpu_flag()){}});
        }
        [HttpGet]
        public void begin_memory()
        {
            var size_1m = 1 * 1024 * 1024;
            for (int i = 0; i < 100; i++)  env.memory.Add(new byte[size_1m]);
        }
        [HttpGet]
        public void end_cpu() => env.setcpu_flag(false);
        [HttpGet]
        public void end_memory()
        {
            env.memory.Clear();
            GC.Collect();
        }}}

生成待调试分析的dump文件

生成模拟内存泄漏的dump

请求接口begin_memory来个几次后，然后通过createdump工具生成dump包，执行了4-5次begin_memory，也就是加了大约400-500M的byte[]放到静态变量中

生成死循环的dump包

请求接口begin_cpu开始异步任务进入死循环，然后通过createdump工具生成dump包

目前linux下sos支持的命令

当前dotnet版本2.1.1。如下图所示支持，sos支持的命令，缺少几个比较有用的命令：ProcInfo ，ObjSize ，SyncBlk，其他缺少的赶脚也用不太上。最最重要的是gdb，lldb的调试命令不熟悉，或者说找不到windbg所对应命令还是蛮难受的，需要进一步认真学习才行...

模拟分析内存泄漏

命令走一个，进入lldb。

/usr/local/llvm-3.9.0/bin/lldb dotnet -c /opt/dump_file/memory_dump -o "plugin load /usr/share/dotnet/shared/Microsoft.NETCore.App/2.1.1/libsosplugin.so"

dumpheap -stat 分析先走一波。对堆上面的对象进行统计

大于2kb的对象看一看

图上反馈byte[]数组对象占的内存最大，而且是远超其他类型的，因此可以判定应该是byte[]在代码的某个地方没有释放。进去跟进去即可。
真实情况项目情况很可能是占用内存最大，对象最多的string对象。分析起来真的有时候看运气，凭经验！...(^_^)
dumpheap -mt addr(byte[]数组的MT地址) 过滤看看类型是byte[]的都有那些对象。

看上去特征特别明显，全是大小为1048600的bte[]对象。接下来随便找一个看看具体对象的数据是什么
dumpobj addr(对象地址)；查看对象的基本结构

内存数据看上去全是 00 00 00。可以说是一个默认的byte[]对象。可以在进入查看一下
sos DumpArray -start 0 -length 10 00007fd5febff9d8（对象地址）
查看数据对象，上一张图上我们能看到数组的lenght有1048576个，所以加上-start，-length参数，只查看最前面10个对象。不然刷屏得刷死咯。
在接着使用
sos DumpVC（查看值类型命令） 00007fd611151460（数组元素类型的mt地址） 00007fd5febff9e9（数组元素对象的地址）
a 如下图所示，每个数组元素的类型都是byte，他们的value都是0；

接下来，我们在看看这些个对象的gcroot对象是谁，也就是说这些个对象到底由谁持有
gcroot addr（对象地址）

在挨个看一看，能发现我们的这个list对象lenth有400个，_version=501;这是因为我clear过一次，所以。clear+1，add([100])个数组，所以400+100+1=501；
如果这是时候有一个objsize命令可以使用，我们就能计算出来这个list是一个400M的丑陋大对象。可惜linux下面木有。

那就只能用查看数据的方法看看这个数组的具体详情拉。
sos DumpArray -details(可以把每个对象的基本结构都打印出来)，能看到他的每一个元素都有1M（size:1048600(0x100018) bytes）大小

内存泄漏调试分析结论

上图种gcroot有3个结果。
第一个，用DumpArray查看后发现，应该是一个系统的静态对象，里面存储都是context之类的东西。
第二个，就是我们的问题list对象。即List<byte[]>
第三个，是第二个list对象的items。
所以问题就出在我们这个静态的 list对象上了，那从代码上搜索一下就比较容易发现我们的List<byte[]>在哪里了。

疑问一

上图种是书籍Pro .Net Performance: Optimize Your C# Applications第98页的一个列子，可惜没有搞懂他的这个地址怎么出来的，能直接拉出来堆栈信息...

疑问二

按理来说1M应该等于1048576，那为什么这里显示是1048600呢，多余的24byte是啥玩意呢？
dumpobj查看byte[]对象信息
dumpmt查看byte[]类型的mt信息
x addr（对象地址，x命令是lldb的命令，用户查看地址处的内存数据。可以使用 -c 24指定需要查看多少位数据）

x addr 前16位数据小红框标记，最后8位小红框标记。中间的则是1M的01。01:byte数据，代码直接赋值。

for (int i = 0; i < 100; i++)
{
    var x = new byte[size_1m];
    for (int j = 0; j < x.Length; j++) x[j] = 1;
    env.memory.Add(x);
}

但是这24位数据内存结构为何这么组织，以及具体的含义就不是特别清楚了，有待考证！！！
学艺不精！，准备回家看看C#本质论有没有说到这部分内容...或者哪位大哥可以说清楚一下，不胜感激！！！
google搜索的时候发现 Pro .Net Performance: Optimize Your C# Applications，这本书很屌啊！！！，绝壁值得一看，就是英文不行，求中文版啊!!!，好想吐槽一下国内的垃圾编辑或作者，好的书一本都不翻译，垃圾玩意全翻译过来。
http://codingsight.com/precise-computation-of-clr-object-size/

https://stackoverflow.com/questions/38056513/why-does-windbg-show-system-int32-variables-as-24-bytes

死循环调试分析

clrthreads -live 先看看还在运行的线程有那些。然后通过thread select 线程编号（lldb命令）。来切换到当前线程。线程编号不是列表种的id字段，而是最前面一行的id。lldb 可以通过thread list命令来列举所有线程。

剩下的工作就是体力活动拉，一个一个看，一个一个分析。
比如，我们切换到线程3看一看他当前的堆栈信息
clrstack命令可以查看当前线程在托管代码种的堆栈信息。
dumstack则可以看到非托管代码种的堆栈信息
thread backtrace lldb查看堆栈信息的命令。

线程3，能看到当前栈在非托管代码中（libcoreclr.so!TwoWayPipe::WaitForConnection），看方法名字也能猜到干嘛的，不太像我们的目标。
另外，linux下面
ps -T -p 32728 命令可以查看到进行下线程的基本情况
top -H -p 32728 更happy。
所以在排查高cpu问题的时候能提供许多便利性，反而比内存问题要来得方便很多。（图中的pid等数据不是一致性的。因为在写blog的时候图片是多次截取的。）

所以在dump包的时候可以记录下来高cpu的线程id，然后通过thread select 找到对应的线程编号。在然后直接切换过去看一看就完事拉。
所以 thread select 30
clrstack看一看，嗯！当前线程在 linxu_dump_lldb.Controllers.ValuesController+<>c.b__1_0() [C:\Users\czd89\source\repos\ConsoleApp4\linxu_dump_lldb\Controllers\ValuesController.cs @ 31]。

看一看当前栈上面都有一些上面参数
CLRStack [-a] [-l] [-p]；-p:看参数，-l：看局部变量，-a：=-l+-p；

当然，我们的代码是异步的，也没有捕获任何action里面的变量，所以这里的这个参数，以及参数里面的属性啥都没有。
从dll反编译代码也能和我们lldb看到的东西一一对以上。

内存泄漏调试分析结论

到这里，问题就很明显能看出来了，当然主要还是我们的DEMO是最简单的。还是开篇说过的那句话：通常正常情况下，分析个几天才能得出一个结论的的结果都还是比较令人开心的！，很多时候分析来分析去也搞不出个所以然，也是很正常的（当然，也是自己学艺不精(^_^)，当自勉！）
还能看一看具体方法的汇编代码等信息。

参考资料：
https://docs.microsoft.com/en-us/dotnet/framework/tools/sos-dll-sos-debugging-extension
https://github.com/dotnet/coreclr/blob/master/Documentation/building/debugging-instructions.md
https://lldb.llvm.org/tutorial.html
https://stackoverflow.com/questions/38056513/why-does-windbg-show-system-int32-variables-as-24-bytes
http://codingsight.com/precise-computation-of-clr-object-size/
https://zhuanlan.zhihu.com/p/20838172
https://blog.csdn.net/inuyashaw/article/details/55095545

微信关注我们

原文链接：https://yq.aliyun.com/articles/670985

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

锁-概念：可重入锁、可中断锁、公平锁、读写锁

可重入锁指的是在同一个thread中，获取锁之后再次使用同样的方法或对象中的其他方法可以直接操作，而不需要重新获取锁。它是基于thread粒度的，per-thread。不可重入锁指的是每次使用锁方法时，都需要重新获取锁，即使在同一线程中调用同一方法都需要等待上一个锁的释放。它是基于method粒度的，per-invocation。可重入锁与不可重复锁的例子 //设计一个锁public class Lock{ private boolean isLocked = false; public synchronized void lock() throws InterruptedException{ while(isLocked){ wait(); } isLocked = true; } public synchronized void unlock(){ isLocked = false; notify(); }}// 不可重入锁public class Count{ Lock lock = new Lock(); public void print(){ lock.lock()...

2018-07-05

777

Tutorialzine每个月都会公布一次当月新增的 JS 和 CSS 库。2018 新年之际，该网站整理出了 2017 年最受用户欢迎和喜爱的一些 JS 和 CSS 库，供大家学习和参考。 JavaScript 本地存储库localForage localForage 是一个 JavaScript 库，提升了应用程序的离线体验，通过使用异步的数据存储，提供简单的类似 localStorage 的 API，允许开发者存储多种类型数据。 CSS3 驱动的动画滚动库AOS AOS（Animate on scroll）是小型动画滚动库，可在页面滚动时给元素添加动画效果。CSS3 驱动，效果类似于 WOWJS。响应式邮件标识语言MJML MJML 是一个标识语言，用来减少编写响应式邮件的复杂度。其语义语法在展示丰富邮件内容时更加简单和直观。该项目提供一个开源的引擎用来将 MJML 标识语言转成 HTML。基于浏览器的代码编辑器Monaco-Editor Monaco Editor 是微软开源的基于 VS Code 的代码编辑器，运行在浏览器环境中。编辑器提供代码提示，智能建议等功能。供开发...

2018-07-05

747

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。