这个bug,你中招了吗!!!

简介: 这个bug,你中招了吗!!!

网络异常,图片无法展示
|
在这里插入图片描述

 kafka管控平台推荐使用    滴滴开源    的     Kafka运维管控平台(戳我呀)      更符合国人的操作习惯     、更强大的管控能力     、更高效的问题定位能力   、更便捷的集群运维能力   、更专业的资源治理   、更友好的运维生态   、


Hello~~ 大家好,我是石臻臻~~~~

网络异常,图片无法展示
|
在这里插入图片描述

今天这篇文章,给大家分享一下最近看kafka源码时候,困扰我几天的疑惑,供大家一起思考讨论,确定一下它是不是一个 Bug  欢迎留言一起探讨!

这个 " Bug " ,发生在分区副本进行分配的时候, 为了让大家更好的理解,我把kafka里面所有情况的分区分配规则给大家详细讲解一下 「 不想看过程,可以直接看最后的总结部分 」

在kafka需要进行分区副本分配计算的地方有三个地方

  1. 「 Topic创建 」的时候
  2. 「 分区扩容 」的时候
  3. 「 分区副本重分配 」的时候

Part1副本分配方式

副本分配的几个原则:

  1. 将副本平均分布在所有的 Broker 上;
  2. partition 的多个副本应该分配在不同的 Broker 上;
  3. 如果所有的 Broker 有机架信息的话, partition 的副本应该分配到不同的机架上。

这里我们为了描述简单,不分析有机架的情况

不管是什么时候的分配规则,最终调用的都是下面这个方法,为了分析分配情况,我加了一些日志

网络异常,图片无法展示
|
通过这个分配方法我们可以得知,影响最终分配的方式有几个变量

  1. Broker List 的顺序
  2. 起始随机分配BrokerID startIndex
  3. 第一个副本跟第二个副本的 起始间隔偏移量 nextReplicaShift

我们通过 创建Topic的情景来分析一下整体的分配规则;

1创建Topic分区分配

Topic的创建可以看: 你知道Kafka创建Topic这个过程做了哪些事情吗?(附视频)

我们先看一个副本的分配情况

启动5个Broker, 创建一个Topic, 分区数10   副本数 1

单副本分配

网络异常,图片无法展示
|
分配情况可以用如下图表示
网络异常,图片无法展示
|

起始随机索引是2, 也就是说起始BrokerId= Broker-4; 那么第一个副本P0-1(Leader)就从它开始分配了,后续的分配就是按照BrokerList就行遍历平均分配了,这样就让每个分区的Leader副本都均匀的分配到了不同的Broker上; 因为是单副本分配,newxtReplicaShit这个参数并没有用上;

多副本分配

启动5个Broker, 创建一个Topic, 分区数10   副本数 3;(还是跟上面一样,但是这个时候将副本数变成3个; 创建一个新的Topic = Test_Topic)

网络异常,图片无法展示
|
在这里插入图片描述

起始随机startIndex:2currentPartitionId:0;起始随机nextReplicaShift:4;brokerArray:ArrayBuffer(0, 1, 4, 2, 3)
(p-0,ArrayBuffer(4, 2, 3))
(p-1,ArrayBuffer(2, 3, 0))
(p-2,ArrayBuffer(3, 0, 1))
(p-3,ArrayBuffer(0, 1, 4))
(p-4,ArrayBuffer(1, 4, 2))
变更nextReplicaShift:5
(p-5,ArrayBuffer(4, 3, 0))
(p-6,ArrayBuffer(2, 0, 1))
(p-7,ArrayBuffer(3, 1, 4))
(p-8,ArrayBuffer(0, 4, 2))
(p-9,ArrayBuffer(1, 2, 3))

这个得到的排列最终会写的zk中, 这些就是AR的值; 第一个为Leader

  1. Broker List = {0,1,4,2,3}
  2. startIndes = 2
  3. nextReplicaShift = 4  这里跟  nextReplicaShift = 0 是一样的 (nextReplicaShift%(BrokerSize-1))

这里跟单副本的时候基本上参数是一样, nextReplicaShift = 4 表示的是 第一副本和第二副本起始间隔4, 总共5个Broker,最终效果和起始0间隔是一样的,可以看下图,

网络异常,图片无法展示
|
这个间隔的含义理解了,那我们看看这个整体的分配布局
网络异常,图片无法展示
|

从这里我们不难看出:

随机的startIndex 可以尽量的让Leader不会分区堆积的情况,如果每次都是从0开始,那么每个Topic创建的时候第一个分区都落在0,假设分区不多,那么就会全部堆积到前面的Broker中,后面的Broker分配不到;

nextReplicaShitf: 尽量让单个Topic的副本分配的更散列一些

2分区扩容分配方式

分区扩容的情况,也是调用上面的方法,分配规则都是一样的; 但是入参却又有一些不一样

不一样的地方,我把关键scala代码贴出来看看

网络异常,图片无法展示
|
在这里插入图片描述

最终也是调用了AdminUtils.assignReplicasToBrokers方法; 但是入参有些不同

  1. Broker List allBrokers; 这里allBrokers是从下面方法里获取的,从zk里面拿到Brokers节点再进行排序之后的列表; 如{0,1,2,3,4,5}
    网络异常,图片无法展示
    |

  2. startIndex: 在这里并不是一个随机值了,而是existingAssignmentPartition0.head获取的值; 这个表示的是当前Topic的第一个分区的第一个副本 在 Brokerlist中的索引值;
  3. nextReplicaShitf: 这里跟startIndex是一个值;  如果入参指定了startIndexnextReplicaShitf:跟它一样,如下图代码
    网络异常,图片无法展示
    |

  4. startPartitionId: 这里的值是已经存在的分区数; 创建topic的时候这个值是0;
    网络异常,图片无法展示
    |

那么那么把上面创建的t2(10分区,3副本), 执行一下分区扩容,扩容到13个;

网络异常,图片无法展示
|
网络异常,图片无法展示
|
这是扩分区后的情况,  因为这里刚好是 轮训两次再进行扩容的,可能看不出来问题,我们看另一个case

创建新Topic   t5, 3个分区,1副本 如下

网络异常,图片无法展示
|
扩分区到5个,新增的分区分配如下
网络异常,图片无法展示
|
分配图
网络异常,图片无法展示
|

如果要均衡分配的话,至少是  1、1、1、1、1  才算是均衡,现在是直接有一个Broker没有用上了;

为什么会出现这种情况?

我们先分析一下 写这段代码的人想做什么?

上图左边是最终扩容之后的分配,右边是扩容时候的计算方式; 从上我们可以分析得出

  1. 分区扩容不会变更之前的分配情况,只会变更重新计算扩容的那部分分区的分配规则;
  2. starIndex是第一分区的第一个副本在排序之后的BrokerList中的索引值; 然后按照分配规则进行分配,并且这个时候有startPartitionId 截断前面的配置,只计算扩分区的这一部分;

从它这代码分析不就是想接着上一次继续分配吗?它把Broker List 排序了;  然后又是接着原来的计算方式进行分配 ①.  starIndex  会让起始的分区副本相同, ok,这个变量相同了 ②. nextReplicaShitf这个变量不会影响分区的Leader均衡,它的作用是尽量的离散一下副本

上面2个变量确定了,那么只要保证 第三个变量 broker List的顺序,那么分配肯定就跟创建的时候一样(排除手动改掉的情况); 也就会总体分配均衡了; 那么实际情况  broker List 这个变量相同吗?

答案:  不相同!!!!!

创建的时候是 {0,1,4,2,3} 未经过排序 扩分区的时候 {0,1,2,3,4} 经过了排序

为什么?为什么?为什么?

网络异常,图片无法展示
|

你要么就都排序,你要么就都接着用上一次的列表不好吗?

分析到这里, 我们已经肯定确定 分区扩容有可能会造成分区分区不均衡的情况

虽然这种影响很小,你我可能根本感知不出来,但是如果整个集群批量做扩容的时候, 会不会就扩大了这个问题的影响范围呢?

到这里我们可能不能确定说它是一个bug, 只是有一个怀疑的因子

但是如果创建Topic的时候就是有序的,那么这里就肯定不会出现扩容分区不均匀的情况啊!

那我们接着分析  分区副本重分配的方式

3分区副本重分配方式

分区副本重分配的源码解析过程请看:3万字长文呕心沥血教你彻底搞懂数据迁移原理(附配套教学视频)

这里就不再赘述了,直接抛出结果;

我们把上面扩容之后的topic = t5 来进行一下重分配,看看kafka会给我们推荐什么样子的分配方式;

网络异常,图片无法展示
|
在这里插入图片描述

看图,我可以分析得出, brokerList = {0,1,2,3,4} ; 不管你执行几次 --generate 它的brokerList 都是{0,1,2,3,4} 有序的; 当然 startIndex nextReplicaShift 都还是随机的;

至少重新分配之后, 分区是均衡的了

而且看源码, 是特意排序过的

凭什么只有创建Topic的时候不排序?

网络异常,图片无法展示
|

好,我思考思考,可能是有意为之,有一些其他的考量; 那么再贴出来创建Topic的时候Broker List的源码

网络异常,图片无法展示
|
网络异常,图片无法展示
|
再往上
网络异常,图片无法展示
|

网络异常,图片无法展示
|
在这里插入图片描述
网络异常,图片无法展示
|
在这里插入图片描述

重点是在最后一张图创建Topic拿到的Broker List 是Controller初始化的时候去zk里面获取的Broker节点;

  1. 先排序了!!!
  2. 然后通过这个BrokerID又去zk获取每个Broker的具体信息
  3. 返回结果最终 toMap 了放到Map对象去了,所以这也就是为什么不是有序的原因了;

这里排序不是有一点脱裤子放屁💨多此一举的感觉吗

网络异常,图片无法展示
|
在这里插入图片描述

Part2总结

那是不是bug呢? 我认为是的, 理由有以下几点

  1. 现有的情况,在扩分区的时候有可能会造成分区分配不均匀的情况
  2. 「 Topic创建 」的时候没有排序,可是「 扩分区」 、「 重分配 」 却又是排序了
  3. 「 Topic创建 」的时候没有排序,可是「 扩分区」的时候,它的计算逻辑是按照原有的分配方式就是顺序的
  4. 如果创建的时候是顺序的,那么「 扩分区」造成分配不均匀的情况就不会出现
  5. 「 Topic创建 」的时候,它先是排序了,可是最后却放到Map里面了,如果它不是最终想排序,为啥一开始的时候就排序?,因为这里的排序完全没有必要;

以上是我分析的过程,和我的观点,水平有限,欢迎提出不同看法,评论区讨论!

网络异常,图片无法展示
|
在这里插入图片描述

相关文章
|
SQL 安全 网络协议
【黑客入侵的20个方式】就问你慌不慌
【黑客入侵的20个方式】就问你慌不慌
136 0
|
安全 Shell Windows
Windows系统利用5次shift维权漏洞复现
操作系统: Windows 7 旗舰版 工具: kali系统的msfconsole 5次shift维权原理
369 0
Windows系统利用5次shift维权漏洞复现
|
存储 安全 数据安全/隐私保护
安全漏洞潜伏十四年,你的 Google 账号还好吗?
安全漏洞存在了十四年之久至今才被发现,这确实会让人感到不安。
1296 0
|
Web App开发 云安全 安全
IE漏洞致数百万用户中招 快用瑞星卡卡打补丁
北京时间12月18日凌晨,微软发布了针对IE浏览器漏洞的最新补丁MS08-078,这是该公司今年第二次打破常规发布紧急漏洞补丁。瑞星旗下卡卡上网安全助手也进行了紧急升级,非正版软件用户可以用瑞星卡卡(http://tool.ikaka.com)来弥补这个系统漏洞。
1100 0
|
前端开发 程序员 开发工具
Bug 看你往哪里逃?我会让你无所遁形
编程中的 Bug ,Error 等各种报错是不可避免的,如果有一个好的 logcat 工具绝对可以帮助大家快速的定位到错误,并高效的找到解决办法。
4407 0
|
安全 Go
打补丁总是拖延症,雅虎被发现存在Struts2“老旧”高危漏洞
本文讲的是打补丁总是拖延症,雅虎被发现存在Struts2“老旧”高危漏洞,我一直都认为分享精神是可贵的,我过去从很多安全领域大牛的漏洞报告中学到了很多知识,所以我决定将我找到的漏洞经历进行分享,希望能够帮助到一些刚刚开始挖洞的白帽子们。
1485 0
|
安全 数据库 Windows
震网蠕虫中的一个Bug差点令其“出师未捷身先死”
本文讲的是震网蠕虫中的一个Bug差点令其“出师未捷身先死”,由于内部代码中存在一个Bug,使其可以感染古老的Windows系统。超级蠕虫病毒震网(Stuxnet)差一点暴露,从而无法完成破坏。
1321 0
|
Web App开发 安全 iOS开发
|
安全 数据安全/隐私保护