如何生成 Flink 作业的交互式火焰图?
作者:田志声
前言
Flink 是目前最流行的大数据及流式计算框架之一,用户可以使用 Java/Scala/Python 的 DataStream 接口或者标准 SQL 语言来快速实现一个分布式高可用的流式应用,通过内部的 Java JIT、off-heap 内存管理等技术优化性能,并且有完整的 Source、Sink、WebUI、Metrics 等功能集成,让 Flink 几乎成为了流式计算的事实标准。
但是当处理海量数据的时候,很容易出现各种异常和性能瓶颈,这时我们需要优化系统性能时,常常需要分析程序运行行为和性能瓶颈。Profiling 技术是一种在应用运行时收集程序相关信息的动态分析手段,常用的 JVM Profiler 可以从多个方面对程序进行动态分析,如 CPU、Memory、Thread、Classes、GC 等,其中 CPU Profiling 的应用最为广泛。CPU Profiling 经常被用于分析代码的执行热点,如“哪个方法占用 CPU 的执行时间最长”、“每个方法占用 CPU 的比例是多少”等等,通过 CPU Profiling 得到上述相关信息后,研发人员就可以轻松针对热点瓶颈进行分析和性能优化,进而突破性能瓶颈,大幅提升系统的吞吐量。
本文介绍我们在做性能优化常用的火焰图以及为如何集成火焰图到通用的 Flink 作业中。
火焰图介绍
火焰图是《性能之巅》作者以及 DTrace 等一系列 Linux 系统优化工具作者 Brendan Gregg 大神的作品之一,可以非常清晰地展示应用程序的函数调用栈以及函数调用时间占比,基本原理是通过各种 agent 在程序运行时采样并输出日志,使用 FlameGraph 工具把日志提取出来输出可在浏览器交互式查看的 SVG图片。
Uber 开源了 jvm-profiler 项目,介绍如何为 Spark 应用和 Java 应用添加火焰图支持,但是目前 Flink 社区和 jvm-profiler 官网都还没有相关的使用教程。
实际上基于 JVM 的程序都可以使用这个工具,本文将基于 jvm-profiler 来介绍如何生成 Flink 作业的火焰图。
下载和编译 jvm-profiler
git clone git clone https://github.com/uber-common/jvm-profiler.git mvn clean install -DskipTests=true -Dcheckstyle.skip -Dfast -T 8C
编译好了之后,将项目 target 目录下的 jvm-profiler-1.0.0.jar 复制一份到 flink 的 lib 目录下面。
cp target/jvm-profiler-1.0.0.jar /usr/local/flink-1.11.1/lib
下载 FlameGraph
由于 jvm-profiler 支持生成火焰图需要的日志文件,将日志转化成交互式 SVG 图片还是使用 Brendan Gregg 的FlameGraph 工具。
git clone https://github.com/brendangregg/FlameGraph.git
下载项目源码即可,后面会使用 flamegraph.pl 工具来生成图片文件。
配置 Flink
对于 Flink 应用,我们只需要在 TaskManager 中注入打点的 Java agent 即可,这里测试,我就使用本地 standalone 模式,修改 Flink conf 目录下的 flink-conf.yaml 文件,添加一下如下配置:
env.java.opts.taskmanager: "-javaagent:/usr/local/flink-1.11.1/lib/jvm-profiler-1.0.0.jar=sampleInterval=50"
目前最小的采样间隔就是 50 毫秒,然后启动集群和运行一个 Flink 作业:
./bin/start-cluster.sh //运行一个作业 ./bin/flink run ./examples/streaming/StateMachineExample.jar
运行之后可以看到 TaskManager 的 stdout 里面打印如下:
因为已经注入 Java agent,因此在标准输出中会定期添加火焰图所需要的打点数据,然后使用下面的命令提取相关日志,并且使用 jvm-profiler 和 FlameGraph 提供的工具来生成 SVG 图片文件。
//1、提取 stdout 文件中的相关日志 cat log/flink-zhisheng-taskexecutor-0-zhisheng.out | grep "ConsoleOutputReporter - Stacktrace:" | awk '{print substr($0,37)}' > stacktrace.json //2、在 jvm-profiler 目录下执行下面命令 python ./stackcollapse.py -i /usr/local/flink-1.11.1/stacktrace.json > stacktrace.folded //3、在 FlameGraph 目录下执行下面命令生成 SVG 图片 ./flamegraph.pl /Users/zhisheng/Documents/github/jvm-profiler/stacktrace.folded > stacktrace.svg
然后用浏览器打开刚才生成的 SVG 图片就可以看到火焰图信息。
总结
本文主要目的在于教大家如何利用 jvm-profiler 去生成 Flink 作业的运行火焰图,这样可以在遇到性能瓶颈问题的时候会很方便大家去定位问题,关于如何去读懂生成的火焰图,后面可以再分享系列文章。
参考资料
- JVM CPU Profiler技术原理及源码深度解析
- jvm-profile
更多 Flink 技术交流可加入 Apache Flink 社区钉钉交流群:
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
看动画学算法之:linkedList
简介 linkedList应该是一种非常非常简单的数据结构了。节点一个一个的连接起来,就成了linkedList。今天我们使用动画的方法一起来看看linkedList是怎么插入和删除的。 linkedList的构建 linkedList是由一个一个的节点构成的。而每个节点只需要存储要保存的数据和下一个节点的引用即可。 linkedList本身需要一个head节点,所以我们的linkedList可以这样构建: public class LinkedList { Node head; // head 节点 //Node表示的是Linked list中的节点,包含一个data数据和下一个节点的引用 class Node { int data; Node next; //Node的构造函数 Node(int d) { data = d; } } } linkedList的操作 先看一下linkedList怎么插入数据,插入数据有三种方式,头部插入,尾部插入,中间插入。 头部插入 先看一个头部插入的例子: 头部插入的逻辑是什么呢? 新插入的节点作为head节点,然后将原来的head节点指向当前h...
- 下一篇
如何使用标签(TAG RAM)控制对ECS 资源的访问?
问题 如何创建RAM (Resource Access Management)策略以使用标签控制对 云服务器(Elastic Compute Service,ECS)实例的访问? 场景描述 控制对ECS 实例部署的访问,具体操作如下所示 添加标签:向实例中添加特定标签,您希望向用户或组授予对这些实例的访问权限。 创建RAM策略:创建一个 RAM 策略,以授予对任何带该特定标签的实例的访问权限。 授权用户:将该 RAM 策略附加到您希望访问实例的用户或组。 解决方法 向 ECS 实例组添加标签 打开 ECS 控制台,然后向 ECS 实例组添加标签,您希望用户或组能够访问这些实例。如果您还没有标签,请创建一个并加入资源 注意:在为资源添加标签之前,请阅读并了解标签限制。 创建一个 RAM 策略,以授予对带该特定标签的实例的访问权限 创建一个类似于以下的 RAM 策略: 允许控制带标签的实例。包含一个条件语句,如果条件键 ecs:tag/onwer 的值与标签值 lisi.ls@alibab.com 或 zs.zs@alibaba.com 匹配,则该语句允许访问 ECS 资源。允...
相关文章
文章评论
共有0条评论来说两句吧...