如何把一个运行完好的Kafka搞崩-阿里云开发者社区

如何把一个运行完好的Kafka搞崩

2018-09-20 1300

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Kafka其实也只是一个JVM进程，要想把一个进程搞崩溃，相信大家的nice idea（骚操作）也不少。本文中只是用了一种很常见的方式来使得Kafka的进程崩溃，通过分析崩溃的原因来让我们可以更合理的使用Kafka。

Kafka其实也只是一个JVM进程，要想把一个进程搞崩溃，相信大家的nice idea（骚操作）也不少。本文中只是用了一种很常见的方式来使得Kafka的进程崩溃，通过分析崩溃的原因来让我们可以更合理的使用Kafka。

你可以试着在一台普通的Linux机器上创建10000个分区的主题。比如下面示例中创建一个主题topic-bomb：

执行完成之后你可以检查一下Kafka的进程是否还存在（比如通过jps命令或者ps -aux|grep kafka命令）。一般情况下，你会发现原本运行完好的Kafka服务已经崩溃。此时，你或许会想到，创建这么多个分区，是不是内存不够而引起的进程崩溃，我在启动Kafka的时候将JVM堆设置的大一点是不是就可以解决了。其实不然，创建这点儿分区而引起的内存增加完全不足以让Kafka畏惧。

想要知道真相，我们可以打开Kafka的服务日志文件（$KAFKA_HOME/logs/server.log）来一探究竟，你会发现服务日志中出现大量的如下异常：

异常中最关键的信息是：“Too many open flies”，这是一种常见的Linux系统错误，通常意味着文件描述符不足，它一般会发生在创建线程、创建Socket、打开文件这些场景下。在Linux系统中的默认设置下，这个文件描述符的个数不是很高，可以通过ulimit查看：

ulimit是在系统允许的情况下，提供对特定shell可利用的资源的控制。（Provides control over the resources avaliable to the shell and to processes started by it, on systems that allow such control）

-H和-S选项设定指定资源的硬限制和软限制。硬限制设定之后不能再添加，而软限制则可以增加到硬限制规定的值。如果-H和-S选项都没有指定，则软限制和硬限制同时设定。限制值可以是指定资源的数值或者hard、soft、unlimited这些特殊值，其中hard代表当前硬限制, soft代表当前软件限制, unlimited代表不限制。如果不指定限制值, 则打印指定资源的软限制值, 除非指定了-H选项。硬限制是可以在任何时候任何进程中设置但硬限制只能由超级用户提起。软限制是内核实际执行的限制，任何进程都可以将软限制设置为任意小于等于对进程限制的硬限制的值

我们可以通过测试来验证一下本案例中的Kafka崩溃是否是由于文件描述符的限制而引起的。首先启动Kafka集群，集群中有3个节点，配置一样。挑选其中的一台节点node1做具体分析，通过jps命令我们可以查看到kafka的进程pid的值：

查看当前Kafka进程所占用的文件描述符的个数（注意这个值并不是Kafka第一次启动时就需要占用的文件描述符的个数，示例中的Kafka环境下已经存在了若干主题）：

我们再新建一个只有一个分区的主题，并查看Kafka进程所占用的文件描述符的个数：

可以看到增加了一个分区对应的也只增加了一个文件描述符。

之前我们通过ulimit命令可以看到软限制是1024，不妨我们就创建一个具有829（1024-195=829）个分区的主题：

可以看到Kafka进程此时占用了1024个文件描述符，并且运行完好。这时我们还可以联想到硬限制4096这个关键数字，不妨我们再创建一个包含有3071（4096-1024=3072，这里特定少创建1个分区）个分区的主题，示例如下：

Kafka进程依旧完好，文件描述符占用为4095，逼近最高值4096。最后我们再次创建一个只有一个分区的主题：

此时Kafka已经崩溃，查看进程号时已没有相关信息。查看Kafka中的日志，还会发现报错文章开头的异常“java.io.IOException: Too many open files”，表明已到达上限。

如何避免这种异常情况？对于一个高并发高性能的应用来说，1024或者4096的文件描述符限制未免太少，可以适当的调大这个参数。比如使用ulimit -n 65535命令将上限提高到65535，这样足以应对大多数的应用情况，再高也完全没有必要了。

也可以在/etc/security/limits.conf文件中设置，参考如下：

limits.conf文件修改之后需要重启才能生效。limits.conf与ulimit的区别在于前者是针对所有用户的，而且在任何shell都是生效的，即与shell无关，而后者只是针对特定用户的当前shell的设定。在修改最大文件打开数时，最好使用limits.conf文件来修改，通过这个文件，可以定义用户，资源类型，软硬限制等。也可修改/etc/profile文件加上ulimit的设置语句来是的全局生效。

设置之后可以再次执行文中开头的创建10000个分区的主题的命令，试一下，Kafka是否还会再次崩溃？

欢迎工作一到五年的Java工程师朋友们加入Java架构开发：744677563

群内提供免费的Java架构学习资料（里面有高可用、高并发、高性能及分布式、Jvm性能调优、Spring源码，MyBatis，Netty,Redis,Kafka,Mysql,Zookeeper,Tomcat,Docker,Dubbo,Nginx等多个知识点的架构资料）合理利用自己每一分每一秒的时间来学习提升自己，不要再用"没有时间“来掩饰自己思想上的懒惰！趁年轻，使劲拼，给未来的自己一个交代！

如何把一个运行完好的Kafka搞崩

热门文章

最新文章

相关课程

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

如何把一个运行完好的Kafka搞崩

热门文章

最新文章

相关课程

相关电子书