阿里云基于全新RocketMQ 5.0内核的落地实践

简介: 在上个月结束的 RocketMQ Summit 全球开发者峰会中,Apache RocketMQ 社区发布了新一代 RocketMQ 的能力全景图,为众多开发者阐述 RocketMQ 5.0 这一大版本的技术定位与发展方向。

1.png

在过去七年大规模云计算实践中,RocketMQ 不断自我演进,今天,RocketMQ 正式迈进 5.0 时代。

从社区关于5.0版本的解读可以看到,在云原生以及企业全面上云的大潮下,为了更好地匹配业务开发者的诉求,Apache RocketMQ 做了很多的架构升级和产品化能力的适配。那么如何在企业的生产实践中落地RocketMQ 5.0呢?本篇文章的核心就消息架构以及产品能力的云原生化,介绍阿里云是如何基于全新的RocketMQ 5.0内核做出自己的判断和演进,以及如何适配越来越多的企业客户技术和能力方面的诉求。

云原生消息服务的演进方向

首先我们来看下云原生消息服务有哪些演进?

面向未来,适应云原生架构的消息产品能力应该在以下方面做出重要突破:


2.png

  • 大规模弹性:企业上云的本质是解放资源供给的负担和压力,专注于业务集成和发展。作为消息服务的运维方,应该为上层业务提供模型匹配的资源供给能力,伴随业务流量的发展提供最贴合的弹性能力。一方面可以解决面向不确定突发流量的系统风险,另一方面也可以实现资源利用率的提升。
  • 易用性:易用性是集成类中间件的重要能力,消息服务应该从API设计到集成开发、再到配置运维,全面地降低用户的负担,避免犯错。低门槛才能打开市场,扩大心智和群体。
  • 可观测性:可观测性对于消息服务的所有参与方来说都很重要,服务提供方应提供边界清晰、标准开放的观测诊断能力,这样才能解放消息运维方的负担,实现使用者自排查边界责任清晰化。
  • 稳定性高SLA:稳定性是生产系统必备的核心能力,消息来说往往集成在核心交易链路,消息系统应该明确服务的可用性、可靠性指标。使用方基于明确的SLA去设计自己的故障兜底和冗余安全机制。

立足于这个四个关键的演进方向,下面为大家整体介绍下阿里云RocketMQ 5.0在这些方面是如何落地实践的。

大规模弹性:提供匹配业务模型的最佳资源供给能力

消息服务一般集成在业务的核心链路,比如交易、支付等场景,这一类场景往往存在波动的业务流量,例如大促、秒杀、早高峰等。

面对波动的业务场景,阿里云RocketMQ 5.0的消息服务可以伴随业务的诉求进行自适应实现资源扩缩。一方面在比较稳定的业务处理基线范围内,按照最低的成本预留固定的资源;另一方面在偶尔存在的突发流量毛刺,支持自适应弹性,按量使用,按需付费。两种模式相互结合,可以实现稳定安全的高水位运行,无需一直为不确定的流量峰值预留大量资源。


3.png

除了消息处理流量的弹性适应外,消息系统也是有状态的系统,存储了大量高价值的业务数据。当系统调用压力变化时,存储本身也需要具备弹性能力,一方面需要保障数据不丢,另一方面还需要节省存储的成本,避免浪费。传统的基于本地磁盘的架构天然存在扩缩问题,其一本地磁盘容量有限,当需要扩大容量时只能加节点,带来计算资源的浪费;其二本地磁盘无法动态缩容,只能基于业务侧流量的隔离下线才能缩减存储成本,操作非常复杂。


4.png

阿里云RocketMQ 5.0的消息存储具备天然的Serverless能力,存储空间按需使用,按量付费,业务人员只需要按照需求设置合理的TTL时间即可保障长时间存储的数据完整性。

集成易用性:简化业务开发,降低心智负担和理解成本

集成易用性是一种系统设计约束,要求消息服务应该从API设计到集成开发、再到配置运维,全面地降低用户的负担,避免犯错。举个典型场景,在消息队列例如RocketMQ 4.x版本或Kafka中,业务消费消息时往往被负载均衡策略所困扰,业务方需要关注当前消息主题的队列数(分区数)以及当前消费者的数量。因为消费者是按照队列粒度做负载均衡和任务分配,只要消费者能力不对等,或者数量不能平均分配,必然造成部分消费者堆积、无法恢复的问题。

在典型的业务集成场景,客户端其实只需要以无状态的消息模型进行消费,业务只需关心消息本身是否处理即可,而不应该关心内部的存储模型和策略。

阿里云RocketMQ 5.0正是基于这种思想提供了全新的SimpleConsumer模型,支持任意单条消息粒度的消费、重试和提交等原子能力。


5.png

可观测性:提供边界清晰、标准开放的自助诊断能力


6.png

有运维消息队列经验的同学都会发现消息系统耦合了业务的上游生产和下游消费处理,往往业务侧出问题时无法清晰地界定是消息服务异常还是业务处理逻辑的异常。

阿里云RocketMQ 5.0的可观测性就是为这种模糊不确定的边界提供解法,事件、轨迹、指标这三个方面为基础,依次从点、线、面的纬度覆盖链路中的所有细节。关于事件、轨迹、指标的定义涵盖如下内容:

  • 事件:覆盖服务端的运维事件,例如宕机、重启、变更配置;客户端侧的变更事件,例如触发订阅、取消订阅、上线、下线等;
  • 轨迹:覆盖消息或者调用链的生命周期,展示一条消息从生产到存储,最后到消费完成的整个过程,按时间轴抓出整个链路的所有参与方,锁定问题的范围;
  • 指标:指标则是更大范围的观测和预警,量化消息系统的各种能力,例如收发TPS、吞吐、流量、存储空间、失败率成功率等。


7.png

阿里云RocketMQ 在可观测性方面也是积累良多,不仅率先支持了完善的消息轨迹链路查询,而且在5.0新版本中还支持将客户端和服务端的Trace、Metrics信息以标准的OpenTelemetry协议上报到第三方Trace、Metrics中存储,借助开源的Prometheus和Grafana等产品可以实现标准化的展示和分析。

稳定性SLA:提供可评估、可量化、边界明确的服务保障能力

稳定性是生产系统必备的核心能力,消息系统往往集成在核心交易链路,消息系统是否稳定直接影响了业务是否完整和可用。但稳定性的保障本身并不只是运维管理,而是要从系统架构的设计阶段开始梳理,量化服务边界和服务指标,只有明确了服务的可用性可靠性指标,使用方才能设计自己的故障兜底和冗余安全机制。


8.png

传统的基于运维手段的被动保障方式,只能做基本的扩缩容和系统指标监控,对于消息的各种复杂边界场景,例如消息堆积、冷读、广播等并不能很好的提供量化服务能力。一旦上层业务方触发这些场景,系统则会被打穿,从而丧失服务能力。

阿里云RocketMQ 5.0体系化的稳定性建设是从系统设计阶段就提供对消息堆积、冷读等场景量化服务的能力,确定合理的消息发送RT、端到端延迟和收发吞吐TPS能力等,一旦系统触发这些情况,可在承受范围内做限制和保护。

本篇文章从大规模弹性、集成易用性、可观测性和稳定性SLA等方面介绍了RocketMQ 5.0的演进和方向,同时针对性介绍了阿里云消息队列RocketMQ 5.0在这些方面的实践和落地。


阿里云消息队列RocketMQ 5.0目前已正式商业化,在功能、弹性、易用性和运维便捷性等方面进行了全面增强,同时定价相比上一代实例最高降低50%,助力企业降本增效,以更低的门槛实现业务开发和集成。新一代实例支持0~100万TPS规模自由伸缩、支持突发流量弹性和存储Serverless;在可观测性方面,支持全链路轨迹集成和自定义Metrics集成;在集成易用性方面,支持新一代轻量原生多语言 SDK,更加稳定和易用。

image.png

点击阅读原文,即可进入RocketMQ 5.0商业化版本发布会直播间~

https://www.aliyun.com/page-source/developer/special/rocketmq5

相关实践学习
消息队列RocketMQ版:基础消息收发功能体验
本实验场景介绍消息队列RocketMQ版的基础消息收发功能,涵盖实例创建、Topic、Group资源创建以及消息收发体验等基础功能模块。
消息队列 MNS 入门课程
1、消息队列MNS简介 本节课介绍消息队列的MNS的基础概念 2、消息队列MNS特性 本节课介绍消息队列的MNS的主要特性 3、MNS的最佳实践及场景应用 本节课介绍消息队列的MNS的最佳实践及场景应用案例 4、手把手系列:消息队列MNS实操讲 本节课介绍消息队列的MNS的实际操作演示 5、动手实验:基于MNS,0基础轻松构建 Web Client 本节课带您一起基于MNS,0基础轻松构建 Web Client
相关文章
|
3月前
|
消息中间件 存储 Serverless
【实践】快速学会使用阿里云消息队列RabbitMQ版
云消息队列 RabbitMQ 版是一款基于高可用分布式存储架构实现的 AMQP 0-9-1协议的消息产品。云消息队列 RabbitMQ 版兼容开源 RabbitMQ 客户端,解决开源各种稳定性痛点(例如消息堆积、脑裂等问题),同时具备高并发、分布式、灵活扩缩容等云消息服务优势。
128 2
|
4月前
|
消息中间件 Java Apache
RocketMQ消息回溯实践与解析
在分布式系统和高并发应用的开发中,消息队列扮演着至关重要的角色,而RocketMQ作为阿里巴巴开源的一款高性能消息中间件,以其高吞吐量、高可用性和灵活的配置能力,在业界得到了广泛应用。本文将围绕RocketMQ的消息回溯功能进行实践与解析,分享工作学习中的技术干货。
95 4
|
17天前
|
消息中间件 Java 开发工具
【实践】快速学会使用云消息队列RabbitMQ版
本次分享的主题是快速学会使用云消息队列RabbitMQ版的实践。内容包括:如何创建和配置RabbitMQ实例,如Vhost、Exchange、Queue等;如何通过阿里云控制台管理静态用户名密码和AccessKey;以及如何使用RabbitMQ开源客户端进行消息生产和消费测试。最后介绍了实验资源的回收步骤,确保资源合理利用。通过详细的操作指南,帮助用户快速上手并掌握RabbitMQ的使用方法。
82 10
|
3月前
|
消息中间件 安全 Java
云消息队列RabbitMQ实践解决方案评测
一文带你详细了解云消息队列RabbitMQ实践的解决方案优与劣
110 13
|
3月前
|
消息中间件
解决方案 | 云消息队列RabbitMQ实践获奖名单公布!
云消息队列RabbitMQ实践获奖名单公布!
|
3月前
|
消息中间件 存储 弹性计算
云消息队列RabbitMQ实践
云消息队列RabbitMQ实践
|
3月前
|
消息中间件 存储 弹性计算
云消息队列 RabbitMQ 版实践解决方案评测
随着企业业务的增长,对消息队列的需求日益提升。阿里云的云消息队列 RabbitMQ 版通过架构优化,解决了消息积压、内存泄漏等问题,并支持弹性伸缩和按量计费,大幅降低资源和运维成本。本文从使用者角度详细评测这一解决方案,涵盖实践原理、部署体验、实际优势及应用场景。
|
3月前
|
消息中间件 存储 监控
解决方案 | 云消息队列RabbitMQ实践
在实际业务中,网站因消息堆积和高流量脉冲导致系统故障。为解决这些问题,云消息队列 RabbitMQ 版提供高性能的消息处理和海量消息堆积能力,确保系统在流量高峰时仍能稳定运行。迁移前需进行技术能力和成本效益评估,包括功能、性能、限制值及费用等方面。迁移步骤包括元数据迁移、创建用户、网络打通和数据迁移。
79 4
|
4月前
|
消息中间件 运维 监控
云消息队列RabbitMQ实践解决方案评测报告
本报告旨在对《云消息队列RabbitMQ实践》解决方案进行综合评测。通过对该方案的原理理解、部署体验、设计验证以及实际应用价值等方面进行全面分析,为用户提供详尽的反馈与建议。
97 16
|
4月前
|
消息中间件 弹性计算 运维
阿里云云消息队列RabbitMQ实践解决方案评测报告
阿里云云消息队列RabbitMQ实践解决方案评测报告
84 9