kafka消息丢失的场景分析

简介: kafka消息丢失的场景分析

 目录

kafka角色介绍

kafka消息丢失的场景分析

场景一:Producer端

场景二: Broker端

场景三:Consumer端



image.gif编辑

今天我们深度剖析一下kafka丢失消息的原因和怎么预防其丢失数据。

kafka角色介绍

kafka是一个分布式架构的消息队列,其主要由三部分组成 Producer、Broker、Consumer三部分组成。

Producer:消息的生产者

Broker: 消息的中间人(将消息进行同步并持久化数据)。

Consumer:消息的消费者

kafka消息丢失的场景分析

场景一:Producer端

producer负责生产消息,生产的消息要发送给Broker端,怎么确定消息有没有发出呢?

在kafka的设计中Producer有ACK 机制,我来解释这个机制

request.required.acks有三个值 0,1,-1/all

    • acks = 0:由于发送后就自认为发送成功,这时如果发生网络抖动, Producer 端并不会校验 ACK 自然也就丢了,且无法重试。
    • acks = 1:消息发送 Leader Parition 接收成功就表示发送成功,这时只要 Leader Partition 不 Crash 掉,就可以保证 Leader Partition 不丢数据,但是如果 Leader Partition 异常 Crash 掉了, Follower Partition 还未同步完数据且没有 ACK,这时就会丢数据。
    • acks = -1 或者 all: 消息发送需要等待 ISR 中 Leader Partition 和 所有的 Follower Partition 都确认收到消息才算发送成功, 可靠性最高, 但也不能保证不丢数据,比如当 ISR 中只剩下 Leader Partition 了, 这样就变成 acks = 1 的情况了。

    场景二: Broker端

    Kafka Broker 集群接收到数据后会将数据进行持久化存储到磁盘,为了提高吞吐量和性能,采用的是「异步批量刷盘的策略」,也就是说按照一定的消息量和间隔时间进行刷盘。首先会将数据存储到 「PageCache」 中,至于什么时候将 Cache 中的数据刷盘是由「操作系统」根据自己的策略决定或者调用 fsync 命令进行强制刷盘,如果此时 Broker 宕机 Crash 掉,且选举了一个落后 Leader Partition 很多的 Follower Partition 成为新的 Leader Partition,那么落后的消息数据就会丢失。

    场景三:Consumer端

    消息消费流程可以分为两个阶段:

      • 获取元数据并从 Kafka Broker 集群拉取数据。
      • 处理消息,并标记消息已经被消费,提交 Offset 记录。
        • 可能使用的「自动提交 Offset 方式
          • 拉取消息后「先提交 Offset,后处理消息」,如果此时处理消息的时候异常宕机,由于 Offset 已经提交了, 待 Consumer 重启后,会从之前已提交的 Offset 下一个位置重新开始消费, 之前未处理完成的消息不会被再次处理,对于该 Consumer 来说消息就丢失了。
          • 拉取消息后「先处理消息,在进行提交 Offset」, 如果此时在提交之前发生异常宕机,由于没有提交成功 Offset, 待下次 Consumer 重启后还会从上次的 Offset 重新拉取消息,不会出现消息丢失的情况, 但是会出现重复消费的情况,这里只能业务自己保证幂等性。


          目录
          相关文章
          |
          7月前
          |
          消息中间件 运维 Kafka
          直播预告|Kafka+Flink双引擎实战:手把手带你搭建分布式实时分析平台!
          在数字化转型中,企业亟需从海量数据中快速提取价值并转化为业务增长动力。5月15日19:00-21:00,阿里云三位技术专家将讲解Kafka与Flink的强强联合方案,帮助企业零门槛构建分布式实时分析平台。此组合广泛应用于实时风控、用户行为追踪等场景,具备高吞吐、弹性扩缩容及亚秒级响应优势。直播适合初学者、开发者和数据工程师,参与还有机会领取定制好礼!扫描海报二维码或点击链接预约直播:[https://developer.aliyun.com/live/255088](https://developer.aliyun.com/live/255088)
          530 35
          直播预告|Kafka+Flink双引擎实战:手把手带你搭建分布式实时分析平台!
          |
          7月前
          |
          消息中间件 运维 Kafka
          直播预告|Kafka+Flink 双引擎实战:手把手带你搭建分布式实时分析平台!
          直播预告|Kafka+Flink 双引擎实战:手把手带你搭建分布式实时分析平台!
          227 12
          |
          7月前
          |
          消息中间件 架构师 Java
          美团面试:对比分析 RocketMQ、Kafka、RabbitMQ 三大MQ常见问题?
          美团面试:对比分析 RocketMQ、Kafka、RabbitMQ 三大MQ常见问题?
          美团面试:对比分析 RocketMQ、Kafka、RabbitMQ 三大MQ常见问题?
          |
          消息中间件 数据挖掘 Kafka
          Apache Kafka流处理实战:构建实时数据分析应用
          【10月更文挑战第24天】在当今这个数据爆炸的时代,能够快速准确地处理实时数据变得尤为重要。无论是金融交易监控、网络行为分析还是物联网设备的数据收集,实时数据处理技术都是不可或缺的一部分。Apache Kafka作为一款高性能的消息队列系统,不仅支持传统的消息传递模式,还提供了强大的流处理能力,能够帮助开发者构建高效、可扩展的实时数据分析应用。
          703 5
          |
          6月前
          |
          消息中间件 存储 大数据
          阿里云消息队列 Kafka 架构及典型应用场景
          阿里云消息队列 Kafka 是一款基于 Apache Kafka 的分布式消息中间件,支持消息发布与订阅模型,满足微服务解耦、大数据处理及实时流数据分析需求。其通过存算分离架构优化成本与性能,提供基础版、标准版和专业版三种 Serverless 版本,分别适用于不同业务场景,最高 SLA 达 99.99%。阿里云 Kafka 还具备弹性扩容、多可用区部署、冷热数据缓存隔离等特性,并支持与 Flink、MaxCompute 等生态工具无缝集成,广泛应用于用户行为分析、数据入库等场景,显著提升数据处理效率与实时性。
          |
          存储 消息中间件 大数据
          大数据-69 Kafka 高级特性 物理存储 实机查看分析 日志存储一篇详解
          大数据-69 Kafka 高级特性 物理存储 实机查看分析 日志存储一篇详解
          272 4
          |
          消息中间件 druid 大数据
          大数据-153 Apache Druid 案例 从 Kafka 中加载数据并分析(二)
          大数据-153 Apache Druid 案例 从 Kafka 中加载数据并分析(二)
          177 2
          |
          消息中间件 分布式计算 druid
          大数据-153 Apache Druid 案例 从 Kafka 中加载数据并分析(一)
          大数据-153 Apache Druid 案例 从 Kafka 中加载数据并分析(一)
          213 1
          |
          数据采集 消息中间件 存储
          实时数据处理的终极武器:Databricks与Confluent联手打造数据采集与分析的全新篇章!
          【9月更文挑战第3天】本文介绍如何结合Databricks与Confluent实现高效实时数据处理。Databricks基于Apache Spark提供简便的大数据处理方式,Confluent则以Kafka为核心,助力实时数据传输。文章详细阐述了利用Kafka进行数据采集,通过Delta Lake存储并导入数据,最终在Databricks上完成数据分析的全流程,展示了一套完整的实时数据处理方案。
          196 3
          |
          消息中间件 存储 Java
          场景题:如何提升Kafka效率?
          场景题:如何提升Kafka效率?
          239 0
          场景题:如何提升Kafka效率?