作者:石臻臻, CSDN博客之星Top5、Kafka Contributor 、nacos Contributor、华为云 MVP ,腾讯云TVP, 滴滴Kafka技术专家 、KnowStreaming。
KnowStreaming 是滴滴开源的Kafka运维管控平台, 有兴趣一起参与参与开发的同学,但是怕自己能力不够的同学,可以联系我,当你导师带你参与开源!。
出现了这样一个问题, A说他的kafka消息发送了; B说它没有接收到; 那么问题来了:
- A的消息是否发送了?
- 如果A的消息发送成功了; B为何没有消费到?
好,带着上面的问题,我们来一步步排查一下问题所在
1查询kafka消息是否发送成功
1.1.从头消费一下对应的topic;再查询刚刚发送的关键词
bin/kafka-console-consumer.sh --bootstrap-server xxx1:9092,xxx2:9092,xxx3:9092 --topic topic名称 -from-beginning
这里会把所有的kafaka接受到的消息(还存在磁盘上未被删除的)都打印出来; 这里太多了;我们加上一个 |grep 关键词
过滤一下就可以知道我们发的消息有没有发送成功了 这里打印出来的都是 在/data/tmp-log
(这里路径是配置的)里面落盘的消息,只要落盘了就肯定发送成功了;
1.2 不从头消费 实时消费消息监听
如果消息太多了,消费的速度会很慢,那可以不从头消费,只有去掉 参数-from-beginning
就行了; 这个命令执行之后会一直在监听消息中;这个时候 重新发一条消息 查看一下是否消费到了刚刚发的消息;如果收到了,说明发送消息这一块是没有问题的;
2查询kafka消息是否被消费
要知道某条消息是否被消息,首先得知道是查被哪个消费组在消费; 比如 B的项目配置的kafka的group.id(这个是kafka的消费组属性)
是 b-consumer-group
; 那么我们去看看 这个消费者组的消费情况
bin/kafka-consumer-groups.sh --bootstrap-server xxx1:9092,xxx2:9092,xxx3:9092 --describe --group b-consumer-group
这样查询出来的结果就是 b-consumer-group
消费组消费了哪些Topic; 如果想过滤某个TOPIC;可以加上|grep TOPIC名称
过滤一下;
bin/kafka-consumer-groups.sh --bootstrap-server xxx1:9092,xxx2:9092,xxx3:9092 --describe --group b-consumer-group |grep TOPIC名称
最终结果我查出来的是
上面每个参数的意思也写情况了; 上面可以看出来, 该TOPIC有三个Partition
; 然后有三个消费者分布在三台机器上; 并且 当前消费组偏移量=当前分区最新偏移量
;这个说明什么?说明并没有消息未被消费 ;
很奇怪,不应该啊;生产者消息也能发送成功,消费组也消费了消息; 那么为什么B说他没有消费的消息呢?
那我们可以再验证一下, 让A再发一条消息; 看看Partition
中的偏移量是否会增加; 发送之后执行命令查看结果
看到没有,从之前的1694变成了1695; 并且两者相同,那么百分之百可以确定,刚刚的消息是被 xxx.xx.xx.139这台消费者消费了;
那么问题就在139这个消费者身上了
经过后来排查, 139这台机器是属于另外一套环境; 但是该项目的kafka链接的zk跟 另外一套环境相同; 如果zk练的是同一个,并且消费者组名(group.id
)也相同; 那么他们就属于同一个消费组了; 被其他消费者消费了,另外的消费组就不能够消费了!
所以, 不同环境之间的配置检查好不要串环境了,最好不同环境还是做好隔离!
3检查消费者的位置
其他一些有用的命令检查消费者的位置