eBPF监控工具bcc系列七开发脚本

2018-05-08 1174

bcc开发脚本有两种方式，一种是基于python接口，另一种是基于ruby接口，我们看的是基于python接口的。

本篇的前置条件是系统中已经安装好了bcc。

1. Hello world

输入代码如下：

#!/usr/bin/env python

from bcc import BPF

BPF(text='int kprobe__sys_clone(void *ctx) { bpf_trace_printk("Hello, World!\\n"); return 0; }').trace_print()

执行后只要有进程执行就会输出Hello,World!字符串。

主要代码其实就是一句

BPF(text='int kprobe__sys_clone(void *ctx) { bpf_trace_printk("Hello, World!\\n"); return 0; }').trace_print()

如果是x64系统上4.17 内核版本，,可能需要将kprobe__sys_clone 替换成kprobe____x64_sys_clone。

我们看下语法：

text=’’表示定义了一个BPF内联程序，程序用C实现。

kprobe__sys_clone是通过kprobes的内核动态跟踪，如果代码中以kprobe__ 开始，后面紧接着的是需要跟踪的内核函数例如sys_clone()

void *ctx，可以有参数

bpf_trace_printk()是一个内核的printf函数。不过参数有限最多３个，只能输出字符串，全局共享输出冲突，最好使用BPF_PERF_OUTPUT()

return 0，最后返回０.

.trace_print()是bcc的程序，读取trace_pipe中数据并输出。

这个就是使用python接口实现bcc工具的最简单程序。

可以将kprobe__sys_open改成其他的系统调用例如：kprobe__sys_sync、kprobe__sys_close等等，你想监控的系统调用。是不是很方便？

2. trace_fields()

使用trace_fields可以格式化输出，其结果来自bpf_trace_printk()函数输出，示例代码如下：

#!/usr/bin/env python

from bcc import BPF

# define BPF program

prog = """

int hello(void *ctx) {

bpf_trace_printk("Hello, World!\\n");

return 0;

}

"""

# load BPF program

b = BPF(text=prog)

b.attach_kprobe(event=b.get_syscall_fnname("clone"), fn_name="hello")

# header

print("%-18s %-16s %-6s %s" % ("TIME(s)", "COMM", "PID", "MESSAGE"))

# format output

while 1:

try:

(task, pid, cpu, flags, ts, msg) = b.trace_fields()

except ValueError:

continue

print("%-18.9f %-16s %-6d %s" % (ts, task, pid, msg))

同hello world示例相似，不过此处将C代码prog定义为变量，其中有函数hello()，变量方式在有字符串参数的时候很有用。

本篇中使用attach_kprobe来创建sys_clone的kprobe，当触发时候运行hello程序。可以调用多次attach_kprobe来附加Ｃ程序给多个内核函数。

最后通过trace_fields来返回来自trace_pipe的一组域。当然trace_print适合调试，真正的工具应该使用BPF_PERF_OUTPUT()。

3. 磁盘处理

跟踪磁盘需要相关内核函数，所以对磁盘处理内核函数要有了解，不然无法定义去跟踪那个函数。源码如下，定义了Ｃ函数trace_start、trace_complete,分别附加到内核函数blk_start_request和blk_complete_request。注意的是，blk_start_requst中的函数就是所追踪函数的参数。参数是request结构体指针，用该指针作为hash表的健，可以有效保证唯一性，此外还有进程ID。

#!/usr/bin/python

from __future__ import print_function

from bcc import BPF

REQ_WRITE = 1 # from include/linux/blk_types.h

# load BPF program

b = BPF(text="""

#include <uapi/linux/ptrace.h>

#include <linux/blkdev.h>

BPF_HASH(start, struct request *);

void trace_start(struct pt_regs *ctx, struct request *req) {

// stash start timestamp by request ptr

u64 ts = bpf_ktime_get_ns();

start.update(&req, &ts);

}

void trace_completion(struct pt_regs *ctx, struct request *req) {

u64 *tsp, delta;

tsp = start.lookup(&req);

if (tsp != 0) {

delta = bpf_ktime_get_ns() - *tsp;

bpf_trace_printk("%d %x %d\\n", req->__data_len,

req->cmd_flags, delta / 1000);

start.delete(&req);

}

""")

b.attach_kprobe(event="blk_start_request", fn_name="trace_start")

b.attach_kprobe(event="blk_mq_start_request", fn_name="trace_start")

b.attach_kprobe(event="blk_account_io_completion", fn_name="trace_completion")

# header

print("%-18s %-2s %-7s %8s" % ("TIME(s)", "T", "BYTES", "LAT(ms)"))

# format output

while 1:

(task, pid, cpu, flags, ts, msg) = b.trace_fields()

(bytes_s, bflags_s, us_s) = msg.split()

if int(bflags_s, 16) & REQ_WRITE:

type_s = "W"

elif bytes_s == "0": # see blk_fill_rwbs() for logic

type_s = "M"

else:

type_s = "R"

ms = float(int(us_s, 10)) / 1000

print("%-18.9f %-2s %-7s %8.2f" % (ts, type_s, bytes_s, ms))

可以执行每个请求的处理时间。

4. 直方图

直方图实现示例如下，结束后会将IO请求的大小画成直方图：

#!/usr/bin/python

from bcc import BPF

from time import sleep

# load BPF program

b = BPF(text="""

#include <uapi/linux/ptrace.h>

#include <linux/blkdev.h>

BPF_HISTOGRAM(dist);

int kprobe__blk_account_io_completion(struct pt_regs *ctx, struct request *req)

{

dist.increment(bpf_log2l(req->__data_len / 1024));

return 0;

}

""")

# header

print("Tracing... Hit Ctrl-C to end.")

# trace until Ctrl-C

try:

sleep(99999999)

except KeyboardInterrupt:

print

# output

b["dist"].print_log2_hist("kbytes")

其中，BPF_HISTOGRAM(dist)定义BPF 直方图映射对象，名字叫做dist。

dist.increment()函数会增加直方图中各个值，值由参数指定。

bpf_log2l()将值变成log-2模式。

print_log2_hist(“kbytes”)打印dist直方图，列单位为kbytes。内核到用户层只传输直方图变量数量，保证高效。

5. TRACEPOINT

tracepoint比较稳定，如果可以都建议来替代kprobes。可以使用perf list来列出可用的tracepoints。将BPF程序附加到tracepoints需要内核版本大于4.7。

TRACEPOINT_PROBE(random,urandom_read)是内核的tracepoint　random:urandom_read。其格式位于

/sys/kernel/debug/tracing/events/random/urandom_read/format

跟踪随机读源码：

#!/usr/bin/python

from __future__ import print_function

from bcc import BPF

# load BPF program

b = BPF(text="""

TRACEPOINT_PROBE(random, urandom_read) {

// args is from /sys/kernel/debug/tracing/events/random/urandom_read/format

bpf_trace_printk("%d\\n", args->got_bits);

return 0;

}

""")

# header

print("%-18s %-16s %-6s %s" % ("TIME(s)", "COMM", "PID", "GOTBITS"))

# format output

while 1:

try:

(task, pid, cpu, flags, ts, msg) = b.trace_fields()

except ValueError:

continue

print("%-18.9f %-16s %-6d %s" % (ts, task, pid, msg))

6. 跟踪用户层函数

跟踪用户层函数使用uprobe，对应的bpf函数是attach_uprobe。

例如：b.attach_uprobe(name="c", sym="strlen", fn_name="count")

附加到C库，函数为strlen,对应的处理函数为count。

#!/usr/bin/python

from __future__ import print_function

from bcc import BPF

from time import sleep

# load BPF program

b = BPF(text="""

#include <uapi/linux/ptrace.h>

struct key_t {

char c[80];

};

BPF_HASH(counts, struct key_t);

int count(struct pt_regs *ctx) {

if (!PT_REGS_PARM1(ctx))

return 0;

struct key_t key = {};

u64 zero = 0, *val;

bpf_probe_read(&key.c, sizeof(key.c), (void *)PT_REGS_PARM1(ctx));

val = counts.lookup_or_init(&key, &zero);

(*val)++;

return 0;

};

""")

b.attach_uprobe(name="c", sym="strlen", fn_name="count")

# header

print("Tracing strlen()... Hit Ctrl-C to end.")

# sleep until Ctrl-C

try:

sleep(99999999)

except KeyboardInterrupt:

pass

# print output

print("%10s %s" % ("COUNT", "STRING"))

counts = b.get_table("counts")

for k, v in sorted(counts.items(), key=lambda counts: counts[1].value):

print("%10d \"%s\"" % (v.value, k.c.encode('string-escape')))

7. 使用USDT

USDT在python中有支持。

USDT(pid=int(pid))初始化指定进程的USDT.

u.enable_probe(probe="http__server__request", fn_name="do_trace")

绑定BPF的C函数到http__server__request的USDT probe。

BPF(text=bpf_text, usdt_contexts=[u])

传递USDT对象到BPF中。

8. 相关bpf接口函数

bpf_ktime_get_ns()返回纳秒时间。

BPF_HASH(last)创建BPF映射对象，叫做last。如果没有指定任何参数，所以健值都是无符号64位。

bpf_trace_print输出字符串，类似printf ,在调试中使用个，工具中使用BPF_PERF_OUTPUT().

bpf_get_current_pid_tgid()函数获得pid进程,其中低32位是进程ID,高32位是组id。

BPF_PERF_OUTPUT(events)命名输出频道名字为events.

bpf_get_current_common()函数用当前进程名字填充第一个参数地址。

events.perf_submit()通过ring buffer将事件提交到用户层。

9. 参考：

https://github.com/iovisor/bcc/blob/master/docs/reference_guide.md

bcc Python Developer Tutorial

微信关注我们

原文链接：https://yq.aliyun.com/articles/591412

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

eBPF监控工具bcc系列六工具查询列表

关于trace,argdist,funccount三个工具已有专门篇章介绍。所有脚本位于bcc/tools文件夹中。 execsnoop跟踪新进程创建，跟踪exec函数。 bashreadline打印系统中所有bash上运行的命令,通过跟踪readline()函数实现。 biolatency跟踪块设备IO,记录IO延时分布并输出直方图。 biosnoop跟踪块设备IO,为每个IO打印一行。 biotop是块IO的top命令，查看哪些进程在使用磁盘IO. bitesize显示各个进程的请求块大小的IO分布。 bpflist用于显示哪个BPF程序在运行，并打印打开的探针。 btrfsdist跟踪btrfs文件系统的读、写、打开和同步，并总结延时的直方图。 btrfsslower跟踪btrfs文件操作：reads,writes,opens,syncs 。衡量操作的花费时间，并打印超过阈值的信息。相比btrfsdist，这个是打印超过阈值的信息。 cachestat显示页高速缓存的命中率和丢失率，包括读写命中率 cachetop是cachestat 的top显示功能 capable跟踪内核负责...

2018-05-08

1073

版权声明：本文由董可伦首发于https://dongkelun.com，非商业转载请注明作者及原创出处。商业转载请联系作者本人。 https://blog.csdn.net/dkl12/article/details/80256461 我的原创地址：https://dongkelun.com/2018/04/16/sparkOnYarnConf/ 前言 YARN 是在Hadoop 2.0 中引入的集群管理器，它可以让多种数据处理框架运行在一个共享的资源池上，并且通常安装在与Hadoop 文件系统（简称HDFS）相同的物理节点上。在这样配置的YARN 集群上运行Spark 是很有意义的，它可以让Spark 在存储数据的物理节点上运行，以快速访问HDFS 中的数据。 1、配置 1.1 配置HADOOP_CONF_DIR vim /etc/profile export HADOOP_CONF_DIR=/opt/hadoop-2.7.5/etc/hadoop source /etc/profile 1.2 命令行启动 spark-shell --master yarn 但是在spark2.x里...

2018-05-08

695

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。

eBPF监控工具bcc系列七开发脚本

1. Hello world

2. trace_fields()

3. 磁盘处理

4. 直方图

5. TRACEPOINT

6. 跟踪用户层函数

7. 使用USDT

8. 相关bpf接口函数

9. 参考：

eBPF监控工具bcc系列六工具查询列表

spark on yarn 配置及异常解决

相关文章

发表评论

资源下载

Mario

腾讯云软件源

Rocky Linux

WebStorm

欢迎您来访！