被问到MQ消息已丢失,该如何处理?

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 在分布式系统中,消息中间件(如RabbitMQ、Kafka等)用于解耦生产者和消费者,确保数据传输的可靠性和顺序性。尽管有多种措施防止消息丢失,如消息持久化、手动确认机制和重试机制,但消息丢失仍可能发生。本文探讨了四种常见丢失场景及补救措施:1. 生产者发送消息失败;2. 消息在传输过程中丢失;3. 消息中间件内部丢失;4. 消费者未处理完消息前丢失。针对每种场景,提出了相应的解决方案,如消息重发、本地存储、日志记录、高可用配置、死信队列等,以确保系统的可靠性和稳定性。

在分布式系统中,消息中间件(如 RabbitMQ、RocketMQ、Kafka、Pulsar 等)扮演着关键角色,用于解耦生产者和消费者,并确保数据传输的可靠性和顺序性。尽管我们通常会采取多种措施来防止消息丢失,如消息持久化、手动确认机制和重试机制等,但如果消息已经丢失了这种情况,当丢失已经发生又应该如何处理呢?下面我们探讨可能的丢失场景及相应的补救措施。


添加图片注释,不超过 140 字(可选)


1. 生产者发送消息失败


添加图片注释,不超过 140 字(可选)


场景: 生产者在发送消息到消息中间件时失败,消息没有成功进入队列。

补救措施:

  • 消息重发: 生产者实现重试,在发送消息失败时进行多次重试,确保消息最终被成功发送。
  • 本地存储: 在发送消息失败时,将消息保存到本地存储(如数据库或文件),稍后再尝试发送,确保消息不会丢失。
  • 日志记录: 记录发送失败的日志信息,以便后续排查和处理。


2. 消息在传输过程中丢失


添加图片注释,不超过 140 字(可选)


场景: 消息在从生产者到消息中间件,或者从消息中间件到消费者的传输过程中丢失。

补救措施:

  • 消息重发:和第一种情况类似,由生产者实现消息重发,也就是再次发起业务。


3. 消息中间件内部丢失


添加图片注释,不超过 140 字(可选)


场景: 消息中间件由于内部故障(如节点崩溃、磁盘故障等)导致消息丢失。

补救措施:

  • 高可用配置: 一般来说消息中间件都会配置集群,当然集群的方案可能会不同,但如果是配置了高可用集群,此时是主节点挂了可以通过多节点冗余和数据复制来提高系统的容错能力。在某个节点发生故障时,可以从其他节点恢复数据。
  • 日志记录: 日志记录系统操作和状态变化,通过重放日志可以在节点故障后恢复数据。
  • Kafka 事务日志: Kafka 使用事务日志记录所有消息操作,故障恢复时可以重放日志来恢复消息。
  • RabbitMQ 消息日志: 配置 RabbitMQ 记录消息操作日志,重启节点后可以从日志中恢复消息。
  • 备份与恢复:定期备份消息和队列状态,当发生硬件故障时,可以从备份中恢复数据。

4. 消费者未处理完消息前丢失


添加图片注释,不超过 140 字(可选)


场景: 消费者收到消息后,在处理消息的过程中发生异常,导致消息丢失。

补救措施:

  • 消息重发:由生产者实现消息重发,也就是再次发起业务。当然这种方式得生产者进行配合,有时比较深的业务链某个环节出现丢失,要重新发送的代价也会比较高。当然如果业务简单重发也是比较简单的。
  • 未确认消息重发: 如果是消费者在处理消息时不会自动ACK或未发送ACK给消息中间件情形,此时消息中间件会将未确认的消息重新放回队列,重新投递给其他消费者或同一个消费者进行处理。
  • 死信队列:若是消息处理失败超过一定次数或消息在队列中停留超过一定时间时,此时消息转移到死信队列。消费者可以从死信队列中找回消息。


尽管我们可以采取多种预防措施来防止消息丢失,但消息丢失仍然可能发生。在消息已经丢失的情况下,我们需要快速识别丢失的场景,并采取相应的补救措施。

相关实践学习
消息队列RocketMQ版:基础消息收发功能体验
本实验场景介绍消息队列RocketMQ版的基础消息收发功能,涵盖实例创建、Topic、Group资源创建以及消息收发体验等基础功能模块。
消息队列 MNS 入门课程
1、消息队列MNS简介 本节课介绍消息队列的MNS的基础概念 2、消息队列MNS特性 本节课介绍消息队列的MNS的主要特性 3、MNS的最佳实践及场景应用 本节课介绍消息队列的MNS的最佳实践及场景应用案例 4、手把手系列:消息队列MNS实操讲 本节课介绍消息队列的MNS的实际操作演示 5、动手实验:基于MNS,0基础轻松构建 Web Client 本节课带您一起基于MNS,0基础轻松构建 Web Client
目录
打赏
0
0
0
0
72
分享
相关文章
MQ是如何保证消息不丢失的,你这样回答面试官一定说I Want U
MQ是如何保证消息不丢失的,你这样回答面试官一定说I Want U
1167 0
MQ是如何保证消息不丢失的,你这样回答面试官一定说I Want U
面试官:RocketMQ 如何保证消息不丢失,如何保证消息不被重复消费?
面试官:RocketMQ 如何保证消息不丢失,如何保证消息不被重复消费?
面试官:RocketMQ 如何保证消息不丢失,如何保证消息不被重复消费?
消息队列面试连环问:如何保证消息不丢失?处理重复消息?消息有序性?消息堆积处理?(上)
消息队列面试连环问:如何保证消息不丢失?处理重复消息?消息有序性?消息堆积处理?(上)
消息队列面试连环问:如何保证消息不丢失?处理重复消息?消息有序性?消息堆积处理?(上)
消息队列面试连环问:如何保证消息不丢失?处理重复消息?消息有序性?消息堆积处理?(下)
消息队列面试连环问:如何保证消息不丢失?处理重复消息?消息有序性?消息堆积处理?(下)
消息队列面试连环问:如何保证消息不丢失?处理重复消息?消息有序性?消息堆积处理?(下)
MQ的作用及如何解决消息队列的丢失、重复和积压问题
引入 MQ 消息中间件最直接的目的是:做系统解耦合流量控制,追其根源还是为了解决互联网系统的高可用和高性能问题。 系统解耦:用 MQ 消息队列,可以隔离系统上下游环境变化带来的不稳定因素,比如京豆服务的系统需求无论如何变化,交易服务不用做任何改变,即使当京豆服务出现故障,主交易流程也可以将京豆服务降级,实现交易服务和京豆服务的解耦,做到了系统的高可用。
224 0
[Kafka 常见面试题]如何保证消息的不重复不丢失
[Kafka 常见面试题]如何保证消息的不重复不丢失
397 0
原来RocketMQ消息会重复消费是无奈的”Bug“
大家好,我是三友~~ 在众多关于MQ的面试八股文中有这么一道题,“如何保证MQ消息消费的幂等性”。 为什么需要保证幂等性呢?是因为消息会重复消费。 为什么消息会重复消费? 明明已经消费了,为什么消息会被再次被消费呢? 不同的MQ产生的原因可能不一样 本文就以RocketMQ为例,来扒一扒RocketMQ中会导致消息重复消息的原因,最终你会发现,其实消息重复消费算是RocketMQ无奈的“bug”。
原来RocketMQ消息会重复消费是无奈的”Bug“
3分钟白话RocketMQ系列—— 如何保证消息不丢失
3分钟白话RocketMQ系列—— 如何保证消息不丢失
3973 1