【实战】kafka删除Topic常见异常排查思路及解决方案

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 【实战】kafka删除Topic常见异常排查思路及解决方案

提示:本文可能已过期,请点击原文查看:【实战】kafka删除Topic常见异常排查思路及解决方案


有人报案

最近技术群里面有几个同学碰到了 删除Topic的问题, 怎么样也删除不掉,然后我协助排查之后,就做个记录,写篇文章,大家在碰到这类型的问题的时候应该怎么去排查

image.png

收集线索

报not retrying deletion 异常

版本:kafka_2.11-2.0.0

删除前在执行重分配,但是失败了,强制停止数据迁移,手动删除了节点/admin/reassign_partitions

再次重新删除提示异常Topic test is already marked for deletion

所有Broker均在线

delete.topic.enable=true

检查了每个Broker都没有副本被删除,甚至也没有被标记为--delete

调查线索

从我们收集到的线索来看,有两个突破口


not retrying deletion

Topic test is already marked for deletion

我们先看,第2个突破口,打开kafka_2.11-2.0.0源码,全局搜索关键字is already marked for deletion

image.png

这个表示,你已经标记了这个topic删除了, 在zk上写入了节点/amin/delete_topics/{topicName}

上面收集线索时候我们知道是它重新执行删除的时候抛出的异常,说明zk节点已经写入了,已经准备删除了;

这里没有什么问题


问题在于为什么没有执行删除呢?

所以下一个突破口就在于


Not retrying deletion of topic ....

image.png

通过源码我们可以看到,出现了这个异常表示的是:当前这个topic不符合重试删除的条件

怎么样才符合重试删除条件?

image.png

在删除队列topicsToBeDeleted里面;这个队列是从zk节点/amin/delete_topics获取的数据

当前还未开始对该Topic进题删除; 判定条件是没有副本处于开始删除的状态「ReplicaDeletionStarted」(当然如果delete.topic.enable=false这条肯定满足)

主题没有被标记为不符合删除条件; 不符合删除条件的都保存在topicsIneligibleForDeletion

抽丝剥茧,接近真相

上面的3个条件,通过对方了解到


/amin/delete_topics 节点下面有数据, 线索排除


让对方查询了Deletion started for replicas这个日志,日志表示的是哪些副本状态变更成「开始删除」 ,日志有查询到如下

image.png

然后让查询Dead Replicas (%s) found for topic %s (这个表示的是哪些副本离线了) 也查询到如下

image.png

image.png

从日志,和源码我们可以得出,Not retrying deletion of topic 的原因是: 删除流程已经开始,但是存在离线的或不可用的副本 ,哪些副本异常,从上面的Dead Replicas (%s) found for topic %s 的日志可以得知, 既然知道了原因,那么解决方案:聚焦副本为何离线了,让副本恢复正常就行了 不过这里我们还有再重点说一下第3种情况


前面2个说完了,接着说一下topicsIneligibleForDeletion到底是什么,什么情况下才会放到这里面来呢?


不符合Topic删除的条件是什么?

Controller初始化的时候判断条件


kafka_2.11-2.0.0 没有这个步骤


数据正在迁移中

判断数据是否在迁移中是通过判断topic的是否存在要新增或者删除的副本, 查询/brokers/topics/{topicName}节点中有没有这两个属性值

image.png

image.png

topic副本所在Broker有宕机导致的副本不在线

副本所在的数据目录log.dirs存在脱机磁盘

运行中判断条件


发起的StopReplica 请求返回异常,加入不符合删除条件

删除的过程中,发现该Topic 有副本重分配的操作 则加入不符合删除条件

删除的过程,有副本下线了,则加入不符合删除条件

开始执行副本重分配的操作, 则加入不符合删除条件

结案

经过深入源码排查走访,我们基本上确定了问题的根源


副本离线,导致的删除流程不能完成; 通过查询日志,也锁定了那些个嫌疑犯,好家伙还是团伙作案

image.png

最后的解决方案也很粗暴,找到副本不正常的那几台Broker, 重启 …之后副本疯狂同步(其他一些topic数据同步);最终topic正常删除了


排查手册

为了以后出现同样类似的问题,我总结了一下问题的排查手段,给大家指明一条思路; 快速破案


确保 delete.topic.enable=true ;配置文件查询

确保当前该topic没有进行 「副本重分配」 , 查询zk节点/admin/reassign_partitions的值是否有该topic、或者 节点/brokers/topics/{topicName}节点里面的属性adding_replicas、removing_replicas有没有值

确保所有副本所属Broker均在线

确保副本均在线, (Broker在线并且log.dirs没有脱机), 搜日志"Dead Replicas " 关键字查询到哪些副本异常

解放方案

根据上面的排查顺序,对应不同的解决方案;

如果正在进行 「副本重分配」 那么等待分配完成就可以正常删除了

如果是副本不在线,那么就去解决为啥不在线,该重启就重启


幕后黑手

这就完了吗?


「log.dir为什么会脱机呢?」 「脱机跟数据迁移有关系吗?」

image.png

image.png


相关文章
|
1月前
|
消息中间件 数据挖掘 Kafka
Apache Kafka流处理实战:构建实时数据分析应用
【10月更文挑战第24天】在当今这个数据爆炸的时代,能够快速准确地处理实时数据变得尤为重要。无论是金融交易监控、网络行为分析还是物联网设备的数据收集,实时数据处理技术都是不可或缺的一部分。Apache Kafka作为一款高性能的消息队列系统,不仅支持传统的消息传递模式,还提供了强大的流处理能力,能够帮助开发者构建高效、可扩展的实时数据分析应用。
83 5
|
23天前
|
消息中间件 Kafka
使用kafka consumer加载数据加载异常并且报source table and destination table are not same错误解决办法
使用kafka consumer加载数据加载异常并且报source table and destination table are not same错误解决办法
|
2月前
|
消息中间件 存储 druid
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
49 3
|
2月前
|
消息中间件 存储 分布式计算
大数据-53 Kafka 基本架构核心概念 Producer Consumer Broker Topic Partition Offset 基础概念了解
大数据-53 Kafka 基本架构核心概念 Producer Consumer Broker Topic Partition Offset 基础概念了解
81 4
|
3月前
|
消息中间件 Kafka Apache
kafka: invalid configuration (That topic/partition is already being consumed)
kafka: invalid configuration (That topic/partition is already being consumed)
|
4月前
|
消息中间件 Java Kafka
"Kafka快速上手:从环境搭建到Java Producer与Consumer实战,轻松掌握分布式流处理平台"
【8月更文挑战第10天】Apache Kafka作为分布式流处理平台的领头羊,凭借其高吞吐量、可扩展性和容错性,在大数据处理、实时日志收集及消息队列领域表现卓越。初学者需掌握Kafka基本概念与操作。Kafka的核心组件包括Producer(生产者)、Broker(服务器)和Consumer(消费者)。Producer发送消息到Topic,Broker负责存储与转发,Consumer则读取这些消息。首先确保已安装Java和Kafka,并启动服务。接着可通过命令行创建Topic,并使用提供的Java API实现Producer发送消息和Consumer读取消息的功能。
87 8
|
5月前
|
SQL 分布式计算 Hadoop
实时计算 Flink版产品使用问题之建了一张upsert-kafka的flink表,但是数据为空,该如何排查
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
6月前
|
消息中间件 存储 Kafka
go语言并发实战——日志收集系统(二) Kafka简介
go语言并发实战——日志收集系统(二) Kafka简介
132 1
|
5月前
|
消息中间件 监控 Kafka
查询Kafka集群中消费组(group)信息和对应topic的消费情况
查询Kafka集群中消费组(group)信息和对应topic的消费情况
2782 0
下一篇
DataWorks