如何把一个运行完好的Kafka搞崩
Kafka其实也只是一个JVM进程,要想把一个进程搞崩溃,相信大家的nice idea(骚操作)也不少。本文中只是用了一种很常见的方式来使得Kafka的进程崩溃,通过分析崩溃的原因来让我们可以更合理的使用Kafka。
你可以试着在一台普通的Linux机器上创建10000个分区的主题。比如下面示例中创建一个主题topic-bomb:
执行完成之后你可以检查一下Kafka的进程是否还存在(比如通过jps命令或者ps -aux|grep kafka命令)。一般情况下,你会发现原本运行完好的Kafka服务已经崩溃。此时,你或许会想到,创建这么多个分区,是不是内存不够而引起的进程崩溃,我在启动Kafka的时候将JVM堆设置的大一点是不是就可以解决了。其实不然,创建这点儿分区而引起的内存增加完全不足以让Kafka畏惧。
想要知道真相,我们可以打开Kafka的服务日志文件($KAFKA_HOME/logs/server.log)来一探究竟,你会发现服务日志中出现大量的如下异常:
异常中最关键的信息是:“Too many open flies”,这是一种常见的Linux系统错误,通常意味着文件描述符不足,它一般会发生在创建线程、创建Socket、打开文件这些场景下。在Linux系统中的默认设置下,这个文件描述符的个数不是很高,可以通过ulimit查看:
ulimit是在系统允许的情况下,提供对特定shell可利用的资源的控制。(Provides control over the resources avaliable to the shell and to processes started by it, on systems that allow such control)
-H和-S选项设定指定资源的硬限制和软限制。硬限制设定之后不能再添加,而软限制则可以增加到硬限制规定的值。如果-H和-S选项都没有指定,则软限制和硬限制同时设定。限制值可以是指定资源的数值或者hard、soft、unlimited这些特殊值,其中hard代表当前硬限制, soft代表当前软件限制, unlimited代表不限制。如果不指定限制值, 则打印指定资源的软限制值, 除非指定了-H选项。硬限制是可以在任何时候任何进程中设置 但硬限制只能由超级用户提起。软限制是内核实际执行的限制,任何进程都可以将软限制设置为任意小于等于对进程限制的硬限制的值
我们可以通过测试来验证一下本案例中的Kafka崩溃是否是由于文件描述符的限制而引起的。首先启动Kafka集群,集群中有3个节点,配置一样。挑选其中的一台节点node1做具体分析,通过jps命令我们可以查看到kafka的进程pid的值:
查看当前Kafka进程所占用的文件描述符的个数(注意这个值并不是Kafka第一次启动时就需要占用的文件描述符的个数,示例中的Kafka环境下已经存在了若干主题):
我们再新建一个只有一个分区的主题,并查看Kafka进程所占用的文件描述符的个数:
可以看到增加了一个分区对应的也只增加了一个文件描述符。
之前我们通过ulimit命令可以看到软限制是1024,不妨我们就创建一个具有829(1024-195=829)个分区的主题:
可以看到Kafka进程此时占用了1024个文件描述符,并且运行完好。这时我们还可以联想到硬限制4096这个关键数字,不妨我们再创建一个包含有3071(4096-1024=3072,这里特定少创建1个分区)个分区的主题,示例如下:
Kafka进程依旧完好,文件描述符占用为4095,逼近最高值4096。最后我们再次创建一个只有一个分区的主题:
此时Kafka已经崩溃,查看进程号时已没有相关信息。查看Kafka中的日志,还会发现报错文章开头的异常“java.io.IOException: Too many open files”,表明已到达上限。
如何避免这种异常情况?对于一个高并发高性能的应用来说,1024或者4096的文件描述符限制未免太少,可以适当的调大这个参数。比如使用ulimit -n 65535命令将上限提高到65535,这样足以应对大多数的应用情况,再高也完全没有必要了。
也可以在/etc/security/limits.conf文件中设置,参考如下:
limits.conf文件修改之后需要重启才能生效。limits.conf与ulimit的区别在于前者是针对所有用户的,而且在任何shell都是生效的,即与shell无关,而后者只是针对特定用户的当前shell的设定。在修改最大文件打开数时,最好使用limits.conf文件来修改,通过这个文件,可以定义用户,资源类型,软硬限制等。也可修改/etc/profile文件加上ulimit的设置语句来是的全局生效。
设置之后可以再次执行文中开头的创建10000个分区的主题的命令,试一下,Kafka是否还会再次崩溃?
欢迎工作一到五年的Java工程师朋友们加入Java架构开发:744677563
群内提供免费的Java架构学习资料(里面有高可用、高并发、高性能及分布式、Jvm性能调优、Spring源码,MyBatis,Netty,Redis,Kafka,Mysql,Zookeeper,Tomcat,Docker,Dubbo,Nginx等多个知识点的架构资料)合理利用自己每一分每一秒的时间来学习提升自己,不要再用"没有时间“来掩饰自己思想上的懒惰!趁年轻,使劲拼,给未来的自己一个交代!
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
微服务学习之thrift介绍安装
最近在做一个docker+Kubernetes微服务容器化实战项目,项目中用到了很多不熟悉的组件,也遇到了挺多的问题。项目结构是这样的: 在做信息服务的时候需要安装thrift组件,遇到了点儿问题,特此记录下过程。 首先来说一下thrift: 什么是thrift? 简单来说,是Facebook公布的一款开源跨语言的RPC框架. 什么是RPC框架? RPC全称为Remote Procedure Call,意为远程过程调用,常用的rpc框架有thrift、dubbo、grpc、motan等。 假设有两台服务器A,B。A服务器上部署着一个应用a,B服务器上部署着一个应用b,现在a希望能够调用b应用的某个函数(方法),但是二者不在同一个进程内,不能直接调用,就需要通过网络传输,在AB服务器之间建一条网络传输通道,a把参数传过去,b接收到参数调用自己的方法,得到结果,再通过网络传回给a,简单讲就是A通过网络来调用B的过程.这个过程要涉及的东西很多,比如多线程,Socket,序列化反序列化,网络I/O,很复杂,于是牛掰的程序员把这些封装起来做成一套框架,供大家使用,就是RPC框架。 thrift...
- 下一篇
不是技术牛人,如何拿到国内IT巨头的Offer
不久前,byvoid面阿里星计划的面试结果截图泄漏,引起无数IT屌丝的羡慕敬仰。看看这些牛人,NOI金牌,开源社区名人,三年级开始写Basic...在跪拜之余我们不禁要想,和这些牛人比,作为绝大部分技术屌丝的同学们,是否真的与国内IT巨头遥不可及呢? 当你打开这个帖子的时候,我已经默认你是此文的目标读者,也就是想进入国内一流互联网企业的非牛人应届生。 你不需要拿NOI的奖,无需是开源社区名人,也用不着发过牛逼的SCI论文。(没错,笔者就是这样的技术屌丝) 请记住,校园招聘,应聘的绝大部分人都只是才出象牙塔的毛头小子。企业需要的是你们的潜力与激情。牛人总是凤毛麟角的。 程序员笔试面试的经验贴、经验书不计其数。本文不会教你如何具体的解题,但是会告诉你,你距离你的梦想究竟有多远,以及如何去缩短这个距离。 笔者仅仅以自己的亲身经验为依据,将国内IT巨头按Offer到手难度降序排列,大致分为如下3个梯队: T1:百度,阿里,腾讯,... T2:网易,迅雷,完美时空,360,金山,... T3:华为,中兴,联发科,... Tx:垄断类IT国企。如中国移动,... T1主要是BAT三巨头。他们对学生...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Hadoop3单机部署,实现最简伪集群
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- CentOS8安装Docker,最新的服务器搭配容器使用
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS7安装Docker,走上虚拟化容器引擎之路
- CentOS8编译安装MySQL8.0.19
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2更换Tomcat为Jetty,小型站点的福音