分布式消息队列RocketMQ工作原理与应用(四)

简介: 第 3 章 RocketMQ工作原理 四、消息的消费 消费者从Broker中获取消息的方式有两种:pull拉取方式和push推动方式。消费者组对于消息消费的模 式又分为两种:集群消费Clusterin

第 3 章 RocketMQ工作原理

四、消息的消费

消费者从Broker中获取消息的方式有两种:pull拉取方式和push推动方式。消费者组对于消息消费的模
式又分为两种:集群消费Clustering和广播消费Broadcasting。

1 获取消费类型

拉取式消费

Consumer主动从Broker中拉取消息,主动权由Consumer控制。一旦获取了批量消息,就会启动消费过程。不过,该方式的实时性较弱,即Broker中有了新的消息时消费者并不能及时发现并消费。

由于拉取时间间隔是由用户指定的,所以在设置该间隔时需要注意平稳:间隔太短,空请求比
例会增加;间隔太长,消息的实时性太差

推送式消费

该模式下Broker收到数据后会主动推送给Consumer。该获取方式一般实时性较高。

该获取方式是典型的发布-订阅模式,即Consumer向其关联的Queue注册了监听器,一旦发现有新的消息到来就会触发回调的执行,回调方法是Consumer去Queue中拉取消息。而这些都是基于Consumer与Broker间的长连接的。长连接的维护是需要消耗系统资源的。

对比

  • pull:需要应用去实现对关联Queue的遍历,实时性差;但便于应用控制消息的拉取
  • push:封装了对关联Queue的遍历,实时性强,但会占用较多的系统资源

2 消费模式

广播消费

在这里插入图片描述
广播消费模式下,相同Consumer Group的每个Consumer实例都接收同一个Topic的全量消息。即每条
消息都会被发送到Consumer Group中的每个Consumer。

集群消费

在这里插入图片描述

集群消费模式下,相同Consumer Group的每个Consumer实例平均分摊同一个Topic的消息。即每条消息只会被发送到Consumer Group中的某个Consumer。

消息进度保存

  • 广播模式:消费进度保存在consumer端。因为广播模式下consumer group中每个consumer都会消费所有消息,但它们的消费进度是不同。所以consumer各自保存各自的消费进度。
  • 集群模式:消费进度保存在broker中。consumer group中的所有consumer共同消费同一个Topic中的消息,同一条消息只会被消费一次。消费进度会参与到了消费的负载均衡中,故消费进度是需要共享的。下图是broker中存放的各个Topic的各个Queue的消费进度。

在这里插入图片描述

3 Rebalance机制

Rebalance机制讨论的前提是:集群消费。

什么是Rebalance

Rebalance即再均衡,指的是,将一个Topic下的多个Queue在同一个Consumer Group中的多个
Consumer间进行重新分配的过程。
在这里插入图片描述
Rebalance机制的本意是为了提升消息的并行消费能力。例如,一个Topic下 5 个队列,在只有 1 个消费者的情况下,这个消费者将负责消费这 5 个队列的消息。如果此时我们增加一个消费者,那么就可以给其中一个消费者分配 2 个队列,给另一个分配 3 个队列,从而提升消息的并行消费能力。

Rebalance限制

由于一个队列最多分配给一个消费者,因此当某个消费者组下的消费者实例数量大于队列的数量时,多余的消费者实例将分配不到任何队列。

Rebalance危害

Rebalance的在提升消费能力的同时,也带来一些问题:

$\textcolor{red}{消费暂停}$:在只有一个Consumer时,其负责消费所有队列;在新增了一个Consumer后会触发
Rebalance的发生。此时原Consumer就需要暂停部分队列的消费,等到这些队列分配给新的Consumer
后,这些暂停消费的队列才能继续被消费。

$\textcolor{red}{消费重复}$:Consumer 在消费新分配给自己的队列时,必须接着之前Consumer 提交的消费进度的offset
继续消费。然而默认情况下,offset是异步提交的,这个异步性导致提交到Broker的offset与Consumer
实际消费的消息并不一致。这个不一致的差值就是可能会重复消费的消息。

同步提交:consumer提交了其消费完毕的一批消息的offset给broker后,需要等待broker的成功ACK。当收到ACK后,consumer才会继续获取并消费下一批消息。在等待ACK期间,consumer是阻塞的。

异步提交:consumer提交了其消费完毕的一批消息的offset给broker后,不需要等待broker的成功ACK。consumer可以直接获取并消费下一批消息。

对于一次性读取消息的数量,需要根据具体业务场景选择一个相对均衡的是很有必要的。因为数量过大,系统性能提升了,但产生重复消费的消息数量可能会增加;数量过小,系统性能会下降,但被重复消费的消息数量可能会减少。

$\textcolor{red}{消费突刺}$:由于Rebalance可能导致重复消费,如果需要重复消费的消息过多,或者因为Rebalance暂停
时间过长从而导致积压了部分消息。那么有可能会导致在Rebalance结束之后瞬间需要消费很多消息。

Rebalance产生的原因

导致Rebalance产生的原因,无非就两个:消费者所订阅Topic的Queue数量发生变化,或消费者组中消
费者的数量发生变化。

1 )Queue数量发生变化的场景:

Broker扩容或缩容

Broker升级运维

Broker与NameServer间的网络异常

Queue扩容或缩容

2 )消费者数量发生变化的场景:

Consumer Group扩容或缩容

Consumer升级运维

Consumer与NameServer间网络异常

Rebalance过程

在Broker中维护着多个Map集合,这些集合中动态存放着当前Topic中Queue的信息、Consumer Group
中Consumer实例的信息。一旦发现消费者所订阅的Queue数量发生变化,或消费者组中消费者的数量
发生变化,立即向Consumer Group中的每个实例发出Rebalance通知。

TopicConågManager:key是topic名称,value是TopicConåg。TopicConåg中维护着该Topic中所有Queue的数据。

ConsumerManager:key是Consumser Group Id,value是ConsumerGroupInfo。
ConsumerGroupInfo中维护着该Group中所有Consumer实例数据。

ConsumerOffsetManager:key为Topic与订阅该Topic的Group的组合,即topic@group,value是一个内层Map。内层Map的key为QueueId,内层Map的value为该Queue的消费进度offset。

Consumer实例在接收到通知后会采用Queue分配算法自己获取到相应的Queue,即由Consumer实例自主进行Rebalance。

与Kafka对比

在Kafka中,一旦发现出现了Rebalance条件,Broker会调用Group Coordinator来完成Rebalance。
Coordinator是Broker中的一个进程。Coordinator会在Consumer Group中选出一个Group Leader。由
这个Leader根据自己本身组情况完成Partition分区的再分配。这个再分配结果会上报给Coordinator,
并由Coordinator同步给Group中的所有Consumer实例。

Kafka中的Rebalance是由Consumer Leader完成的。而RocketMQ中的Rebalance是由每个Consumer自
身完成的,Group中不存在Leader。

4 Queue分配算法

一个Topic中的Queue只能由Consumer Group中的一个Consumer进行消费,而一个Consumer可以同时
消费多个Queue中的消息。那么Queue与Consumer间的配对关系是如何确定的,即Queue要分配给哪
个Consumer进行消费,也是有算法策略的。常见的有四种策略。这些策略是通过在创建Consumer时的
构造器传进去的。

平均分配策略

在这里插入图片描述
该算法是要根据avg = QueueCount / ConsumerCount的计算结果进行分配的。如果能够整除,则按顺序将avg个Queue逐个分配Consumer;如果不能整除,则将多余出的Queue按照Consumer顺序逐个分配。

该算法即,先计算好每个Consumer应该分得几 个Queue,然后再依次将这些数量的Queue逐个分配个Consumer。

环形平均策略

在这里插入图片描述
环形平均算法是指,根据消费者的顺序,依次在由queue队列组成的环形图中逐个分配。

该算法不用事先计算每个Consumer需要分配几 个Queue,直接一个一个分即可。
一致性hash策略
在这里插入图片描述
该算法会将consumer的hash值作为Node节点存放到hash环上,然后将queue的hash值也放到hash环
上,通过 顺时针方向,距离queue最近的那个consumer就是该queue要分配的consumer。

该算法存在的问题:分配不均。

同机房策略

在这里插入图片描述

该算法会根据queue的部署机房位置和consumer的位置,过滤出当前consumer相同机房的queue。然
后按照平均分配策略或环形平均策略对同机房queue进行分配。如果没有同机房queue,则按照平均分
配策略或环形平均策略对所有queue进行分配。

对比

一致性hash算法存在的问题:

两种平均分配策略的分配效率较高,一致性hash策略的较低。因为一致性hash算法较复杂。另外,一
致性hash策略分配的结果也很大可能上存在不平均的情况。

一致性hash算法存在的意义:

其可以有效减少由于消费者组扩容或缩容所带来的大量的Rebalance。

在这里插入图片描述
在这里插入图片描述
一致性hash算法的应用场景:

Consumer数量变化较频繁的场景。

5 至少一次原则

RocketMQ有一个原则:每条消息必须要被成功消费一次。

那么什么是成功消费呢?Consumer在消费完消息后会向其消费进度记录器提交其消费消息的offset,offset被成功记录到记录器中,那么这条消费就被成功消费了。

什么是消费进度记录器?

对于广播消费模式来说,Consumer本身就是消费进度记录器。

对于集群消费模式来说,Broker是消费进度记录器。

五、订阅关系的一致性

订阅关系的一致性指的是,同一个消费者组(Group ID相同)下所有Consumer实例所订阅的Topic与
Tag及对消息的处理逻辑必须完全一致。否则,消息消费的逻辑就会混乱,甚至导致消息丢失。

1 正确订阅关系

多个消费者组订阅了多个Topic,并且每个消费者组里的多个消费者实例的订阅关系保持了一致。
在这里插入图片描述

2 错误订阅关系

一个消费者组订阅了多个Topic,但是该消费者组里的多个Consumer实例的订阅关系并没有保持一致。

在这里插入图片描述

订阅了不同Topic

该例中的错误在于,同一个消费者组中的两个Consumer实例订阅了不同的Topic。

Consumer实例1-1:(订阅了topic为jodie_test_A,tag为所有的消息)

Properties properties = new Properties();
properties.put(PropertyKeyConst.GROUP_ID, "GID_jodie_test_1");
Consumer consumer = ONSFactory.createConsumer(properties);
consumer.subscribe("jodie_test_A", "*", new MessageListener() {
    public Action consume(Message message, ConsumeContext context) {
    System.out.println(message.getMsgID());
        return Action.CommitMessage;
    }
});

Consumer实例1-2:(订阅了topic为jodie_test_B,tag为所有的消息)

Properties properties = new Properties();properties.put(PropertyKeyConst.GROUP_ID, "GID_jodie_test_1");Consumer consumer = ONSFactory.createConsumer(properties);consumer.subscribe("jodie_test_B", "*", new MessageListener() {    public Action consume(Message message, ConsumeContext context) {        System.out.println(message.getMsgID());        return Action.CommitMessage;    }});

订阅了不同Tag

该例中的错误在于,同一个消费者组中的两个Consumer订阅了相同Topic的不同Tag。

Consumer实例2-1:(订阅了topic为jodie_test_A,tag为TagA的消息)

Properties properties = new Properties();properties.put(PropertyKeyConst.GROUP_ID, "GID_jodie_test_2");Consumer consumer = ONSFactory.createConsumer(properties);consumer.subscribe("jodie_test_A", "TagA", new MessageListener() {    public Action consume(Message message, ConsumeContext context) {        System.out.println(message.getMsgID());        return Action.CommitMessage;    }});

Consumer实例2-2:(订阅了topic为jodie_test_A,tag为所有的消息)

Properties properties = new Properties();
properties.put(PropertyKeyConst.GROUP_ID, "GID_jodie_test_2");
Consumer consumer = ONSFactory.createConsumer(properties);
consumer.subscribe("jodie_test_A", "*", new MessageListener() {
    public Action consume(Message message, ConsumeContext context) {
        System.out.println(message.getMsgID());
        return Action.CommitMessage;
    }
});

订阅了不同数量的Topic

该例中的错误在于,同一个消费者组中的两个Consumer订阅了不同数量的Topic。

Consumer实例3-1:(该Consumer订阅了两个Topic)

Properties properties = new Properties();
properties.put(PropertyKeyConst.GROUP_ID, "GID_jodie_test_3");
Consumer consumer = ONSFactory.createConsumer(properties);
consumer.subscribe("jodie_test_A", "TagA", new MessageListener() {
    public Action consume(Message message, ConsumeContext context) {
        System.out.println(message.getMsgID());
        return Action.CommitMessage;
    }
});
consumer.subscribe("jodie_test_B", "TagB", new MessageListener() {
    public Action consume(Message message, ConsumeContext context) {
        System.out.println(message.getMsgID());
        return Action.CommitMessage;
    }
});

Consumer实例3-2:(该Consumer订阅了一个Topic)

Properties properties = new Properties();
properties.put(PropertyKeyConst.GROUP_ID, "GID_jodie_test_3");
Consumer consumer = ONSFactory.createConsumer(properties);
consumer.subscribe("jodie_test_A", "TagB", new MessageListener() {
    public Action consume(Message message, ConsumeContext context) {
        System.out.println(message.getMsgID());
        return Action.CommitMessage;
    }
});

六、offset管理

这里的offset指的是Consumer的消费进度offset。

消费进度offset是用来记录每个Queue的不同消费组的消费进度的。根据消费进度记录器的不同,可以
分为两种模式:本地模式和远程模式。

1 offset本地管理模式

当消费模式为广播消费时,offset使用本地模式存储。因为每条消息会被所有的消费者消费,每个消费者管理自己的消费进度,各个消费者之间不存在消费进度的交集。

Consumer在广播消费模式下offset相关数据以json的形式持久化到Consumer本地磁盘文件中,默认文
件路径为当前用户主目录下的 .rocketmq_offsets/${clientId}/${group}/Offsets.json。其中{clientId}为当前消费者id,默认为ip@DEFAULT;${group}为消费者组名称。

2 offset远程管理模式

当消费模式为集群消费时,offset使用远程模式管理。因为所有Cosnumer实例对消息采用的是均衡消费,所有Consumer共享Queue的消费进度。

Consumer在集群消费模式下offset相关数据以json的形式持久化到Broker磁盘文件中,文件路径为当前
用户主目录下的 store/config/consumerOffset.json

Broker启动时会加载这个文件,并写入到一个双层Map(ConsumerOffsetManager)。外层map的key
为topic@group,value为内层map。内层map的key为queueId,value为offset。当发生Rebalance时,
新的Consumer会从该Map中获取到相应的数据来继续消费。

集群模式下offset采用远程管理模式,主要是为了保证Rebalance机制。

3 offset用途

消费者是如何从最开始持续消费消息的?消费者要消费的第一条消息的起始位置是用户自己通过consumer.setConsumeFromWhere()方法指定的。

在Consumer启动后,其要消费的第一条消息的起始位置常用的有三种,这三种位置可以通过枚举类型
常量设置。这个枚举类型为ConsumeFromWhere。

在这里插入图片描述

CONSUME_FROM_LAST_OFFSET:从queue的当前最后一条消息开始消费

CONSUME_FROM_FIRST_OFFSET:从queue的第一条消息开始消费

CONSUME_FROM_TIMESTAMP:从指定的具 体时间戳位置的消息开始消费。这个具体时间戳是通过另外一个语句指定的 。

consumer.setConsumeTimestamp(“20210701080000”) yyyyMMddHHmmss

当消费完一批消息后,Consumer会提交其消费进度offset给Broker,Broker在收到消费进度后会将其更新到那个双层Map(ConsumerOffsetManager)及consumerOffset.json文件中,然后向该Consumer进行ACK,而ACK内容中包含三项数据:当前消费队列的最小offset(minOffset)、最大offset(maxOffset)、及下次消费的起始offset(nextBeginOffset)。

4 重试队列

在这里插入图片描述
当rocketMQ对消息的消费出现异常时,会将发生异常的消息的offset提交到Broker中的重试队列。系统
在发生消息消费异常时会为当前的topic@group创建一个重试队列,该队列以%RETRY%开头,到达重
试时间后进行消费重试。

5 offset的同步提交与异步提交

集群消费模式下,Consumer消费完消息后会向Broker提交消费进度offset,其提交方式分为两种:

同步提交:消费者在消费完一批消息后会向broker提交这些消息的offset,然后等待broker的成功响应。若在等待超时之前收到了成功响应,则继续读取下一批消息进行消费(从ACK中获取nextBeginOffset)。若没有收到响应,则会重新提交,直到获取到响应。而在这个等待过程中,消费者是阻塞的。其严重影响了消费者的吞吐量。

异步提交:消费者在消费完一批消息后向broker提交offset,但无需等待Broker的成功响应,可以继续读取并消费下一批消息。这种方式增加了消费者的吞吐量。但需要注意,broker在收到提交的offset后,还是会向消费者进行响应的。可能还没有收到ACK,此时Consumer会从Broker中直接获取nextBeginOffset。

相关实践学习
RocketMQ一站式入门使用
从源码编译、部署broker、部署namesrv,使用java客户端首发消息等一站式入门RocketMQ。
消息队列 MNS 入门课程
1、消息队列MNS简介 本节课介绍消息队列的MNS的基础概念 2、消息队列MNS特性 本节课介绍消息队列的MNS的主要特性 3、MNS的最佳实践及场景应用 本节课介绍消息队列的MNS的最佳实践及场景应用案例 4、手把手系列:消息队列MNS实操讲 本节课介绍消息队列的MNS的实际操作演示 5、动手实验:基于MNS,0基础轻松构建 Web Client 本节课带您一起基于MNS,0基础轻松构建 Web Client
目录
相关文章
|
2天前
|
存储 分布式计算 Hadoop
Hadoop【基础知识 01】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)
【4月更文挑战第3天】Hadoop【基础知识 01】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)
102 3
|
2天前
|
存储 分布式计算 监控
Hadoop【基础知识 01+02】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
【4月更文挑战第3天】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
140 2
|
2天前
|
分布式计算 负载均衡 Java
构建高可用性Java应用:介绍分布式系统设计与开发
构建高可用性Java应用:介绍分布式系统设计与开发
13 0
|
2天前
|
消息中间件 存储 传感器
Kafka消息队列原理及应用详解
【5月更文挑战第6天】Apache Kafka是高性能的分布式消息队列,常用于实时数据管道和流应用。它提供高性能、持久化、分布式和可伸缩的消息处理,支持解耦、异步通信和流量控制。Kafka的核心概念包括Broker、Topic、Partition、Producer、Consumer和Consumer Group。其特点是高吞吐、低延迟、数据持久化、分布式架构和容错性。常见应用包括实时数据流处理、日志收集、消息传递和系统间数据交换。
|
2天前
|
存储 供应链 安全
区块链技术原理及应用:深入探索分布式账本技术
【4月更文挑战第30天】区块链,从加密货币的底层技术延伸至多元领域,以其分布式账本、去中心化、不可篡改性及加密技术重塑数据存储与交易。核心组件包括区块、链和节点,应用涵盖加密货币、供应链管理、金融服务等。尽管面临扩展性等挑战,未来潜力无限。
|
2天前
|
存储 NoSQL 分布式数据库
【Flink】Flink分布式快照的原理是什么?
【4月更文挑战第21天】【Flink】Flink分布式快照的原理是什么?
|
2天前
|
存储 消息中间件 监控
搭建分布式应用准备工作(从零到一)
搭建分布式应用准备工作(从零到一)
|
2天前
|
存储 运维 分布式计算
面经:HDFS分布式文件系统原理与故障排查
【4月更文挑战第10天】本文深入剖析了HDFS的底层原理和面试重点,包括HDFS的架构(NameNode、DataNode、Secondary NameNode)、文件读写流程、高级特性(快照、Erasure Coding、Federation、High Availability)以及故障排查方法。通过HDFS Shell命令示例,加强理解,并对比了HDFS与其他分布式文件系统的优缺点。掌握这些知识将有助于求职者在面试中脱颖而出,应对HDFS相关技术考察。
46 3
|
2天前
|
消息中间件 存储 监控
解析RocketMQ:高性能分布式消息队列的原理与应用
RocketMQ是阿里开源的高性能分布式消息队列,具备低延迟、高吞吐和高可靠性,广泛应用于电商、金融等领域。其核心概念包括Topic、Producer、Consumer、Message和Name Server/Broker。RocketMQ支持异步通信、系统解耦、异步处理和流量削峰。关键特性有分布式架构、顺序消息、高可用性设计和消息事务。提供发布/订阅和点对点模型,以及消息过滤功能。通过集群模式、存储方式、发送和消费方式的选择进行性能优化。RocketMQ易于部署,可与Spring集成,并与Kafka等系统对比各有优势,拥有丰富的生态系统。
168 4
|
2天前
|
存储 分布式计算 NoSQL
setnx分布式锁原理RedisTemplate实现setnx分布式锁
setnx分布式锁原理RedisTemplate实现setnx分布式锁
24 0

热门文章

最新文章

相关产品

  • 云消息队列 MQ