NBF事件中心架构设计与实现

简介: 本文介绍了事件驱动架构在供应链执行链路的应用背景和实践过程,并介绍了NBF事件中心产品的设计和部分实现。目前事件中心每日事件发送量峰值在千万级别,平稳度过了双11、双12、年货节等流量高峰。

业务背景

电商平台供应链的业务场景非常复杂,技术中台需要支持非常复杂且不断变化的业务需求,构建了数量繁多且紧密耦合的业务链路,导致现有技术架构的维护压力越来越大,资金安全风险也时常发生。

问题描述

image.png

上图是一个典型的业务架构,A域是上游域,B域和C域是下游域。A域在收到外部调用请求时,首先同步调用B域的服务接口完成同步业务逻辑,然后发送消息通知到MQC域异步消费消息后,反向调用A域的接口查询详细信息,完成异步业务逻辑。

这种架构的问题包括:

1.  A域强依赖B域的接口,B域接口变动会导致A域调用失败,而A域无法管控B域的接口变动

2.  C域收到消息后需要反查A域的接口,对A域形成了双重依赖,A域接口和消息格式的任何变动及不稳定性都会影响C

3.  A域的消息和接口都是瞬时数据,两者由于时间差可能不一致,增加了C域处理的复杂度(例如:C域收到的消息是单据已创建,调用接口时查到该单据已完结)

4.  A域需要保证同步调用和消息通知的一致性,包括MQ不可用等情况发生时的容灾处理

面对这些问题,我们希望应用事件驱动架构的特性来解耦子域,降低业务链路复杂度,构建稳定并向前兼容的事件契约,从而提升全域的稳定性。

事件驱动架构的应用过程

1.  重新梳理全链路业务流和业务活动,建立统一的标准语言

2.  定义标准的事件格式和通用基础字段

3.  各域定义包含完整业务语义、自闭包、多租户的领域事件

4.  开发并接入一套适应供应链业务特点的事件系统(NBF事件中心)

关于NBF

NBF是阿里巴巴供应链中台的基础技术团队打造的一个技术PaaS平台,全称是New-Retail Business Factory,她提供了微服务FaaS框架,低代码平台和中台基础设施等一系列的PaaS产品,旨在帮助业务伙伴快速复用和扩展中台能力,提升研发效能和对外的商业化输出。事件中心就是NBF系列技术产品中的一员。

本文内容

本文首先介绍事件驱动架构的概念及适用场景,然后会介绍事件中心产品的设计和实现。

什么是事件驱动架构(EDA

领域事件

很多同学会将事件和消息混淆。在业务系统中,事件指的是领域事件,而消息可以是任意数据或数据片段。领域事件的特点包括:

1.  与服务接口一样有完整的schema,并保证schema向前兼容

2.  是业务流程的一部分,由业务动作触发,包含了完整(或部分但有独立语义)的业务状态变化

3.  事件消费者接收到事件后,相应修改自身的业务状态,并按需发出新的事件;消费者需要保证所有事件最终消费成功,否则会导致业务流程不完整

4.  事件需要持久化保存并长期归档,方便业务同学查询、恢复中断的业务流程、重新发起业务流程等,也方便风控及财务分析同学做离线分析。

事件驱动架构的概念

和很多架构名词类似,事件驱动架构并没有一个明确的定义和能力范围。Martin Fowler2017年的文章中描述了与事件驱动架构相关的一些主要模式。在本文中,事件驱动架构的概念具象为由领域事件驱动的业务流技术架构。每一个领域事件都对应一个业务流中的具体活动(如采购单建单),而事件就是活动发生导致的结果(如采购单建单完成事件),事件内容就是活动导致的完整状态变化(如采购单+子单列表)。

事件驱动架构的优点

Fundamentals of Software Architecture以及Microservices Patterns等书中描述了事件驱动架构的一些明显特点,我们总结为以下几项:

1.  高度解耦

2.  广播能力

3.  纯异步调用(Fire and Forget

4.  灵活扩展

5.  高处理性能

事件驱动架构能解决什么实际问题

下面我们举几个例子来描述事件驱动架构的解耦和广播能力如何帮助解决现实工作中的问题:

解耦能力

image.png

在基于请求/响应方式的服务化架构中,上游服务按照约定的RPC接口调用下游服务,这样有一个比较严重的问题:上游服务作为数据(例如业务单据)的生产者,强依赖了作为数据消费方的下游服务所定义的接口,导致上游服务自身无法沉淀接口和数据标准。

image.png

一种更合理的方案是依赖倒置:由上游服务定义SPI,下游服务实现SPI,这样,上游服务终于有机会沉淀出自身的接口和数据标准,不再需要适配各个下游服务的接口,而是由下游服务的开发者按照接口文档来做实现。但这种设计仍然无法解决运行时上游服务仍然依赖下游服务的问题,下游服务的可用性、一致性、幂等性能力会直接影响上游服务的相关指标及实现方式,需要上下游服务开发者一起对齐方案,在出问题时一起解决。

image.png

使用事件驱动设计可以实现契约定义和运行时的全面解耦:上游服务可以沉淀自己的事件契约,在运行时无论是上游服务还是下游服务都只依赖事件Broker,下游服务的可用性和一致性等问题由事件Broker来保障。

广播能力

在供应链中台这样复杂的微服务架构中,关键的上游服务往往有多个下游服务,上游服务一般需要顺序或并发调用所有的下游服务来完成一次完整的调用。

image.png

上游服务的开发者会面临多个难题:

1.  服务的可用性会被下游服务影响

2.  服务的RT自己无法控制

3.  下游服务之间的一致性如何保障

4.  如何实现一套可靠的重试机制

5.  而下游服务的开发者也有自己的问题:

6.  每接入一个上游服务都需要跟服务开发者排期:谁来答疑,什么时候联调,什么时候上线

7.  上游流量如何做过滤,高峰流量是否能抗得住

8.  如何满足上游服务的可用性及RT要求

使用事件驱动架构天然可以避免上述问题:

image.png

1.  上下游完全解耦,上游服务只要保证将事件成功发送到Broker,无论有几个下游消费者,都不会影响自身的RT,也不需要考虑下游服务之间的一致性

2.  下游服务在接入新的事件时,只需要在事件管理服务中走完订阅审批流,不需要等待事件发布者排期和联调

3.  通过事件Broker提供的事件过滤能力,下游服务只需要消费与自身相关的事件流量(例如:天猫超市的计费服务只需要消费tenantId为天猫超市的采购单创建事件,而不需要消费银泰租户的采购单创建事件)

4.  通过事件Broker提供的事件存储能力和重投能力,即使上游服务发送的事件流量超过了下游服务的处理能力,也只会影响下游服务的消费延迟,不会导致大量请求失败的情况

事件驱动架构不适合什么场景

1.  强依赖Response的场景,例如单据查询、商品查询

2.  对全局处理延迟敏感的场景,例如游戏、搜索

3.  要求服务之间保持强一致性的场景

事件中心的功能设计

作为面向中台的事件中间件,事件中心集成了消息中间件MetaQRocketMQ),初始使用体感也与MQ很像,但事件中心有很多不同的功能设计:

1.  完善的权限控制

2.  支持事件契约定义以及运行时合法性校验

3.  支持大事件发送和消费(10MB或更高)

4.  支持长期的事件历史查询、事件索引查询(如单据编号、sku)、事件重投

5.  支持消费周期很长的事件(如需要几个月才能完结的入库单)

6.  所有事件及消费记录的完整归档

7.  OpenAPI的形式开放了事件查询、事件重投等运维态的功能,方便被其他系统集成

事件中心的运行时架构

事件中心运行态主要由以下部分组成:

1.  事件中心服务/SDK

a)  SDK:包含事件收发的主要逻辑,支持事务发送和普通发送,支持事件校验、压缩、本地备份

b)  Tunnel Service:一层很薄的数据库代理服务,支持按应用、事件、场景、IO维度的限流,支持数据库快速灵活扩容

c)  Index Service:事件索引服务,通过精卫(DataX)获取Binlog,解析为索引后写入索引表(Lindorm

2.  阿里中间件

a)  DiamondNacos):包含应用相关的全部配置信息,如发送、订阅关系、事件定义、中间件配置等

b)  SchedulerX:调度SDK执行事件重新发送、重新消费、事务异常状态问询

c)  MetaQ:主要的事件收发管道

d)  TDDLRDS):事件内容及消费记录存储

e)  精卫:用于生成索引、计算延迟等异步处理逻辑

f)  Lindromserverless):用于存放事件外部索引,serverless模式支持按量付费和弹性扩容,性能比较稳定

下图为简化的运行时架构图,图中蓝色线条表示事件的正常收发链路(事务发送),红色线条表示事件的异常处理链路。

image.png

事件发送与消费流程

事件结构

image.png

运行时的一条事件实例由三部分组成:

1.  事件ID:全局唯一,格式为逻辑库编号_月内发送日期_uuid”,例如01_11_f75ec4fb347c49c4bc3e93xxxxxxxx,其中逻辑库编号用于逻辑库路由,日期用于事件清理

2.  事件Head:包含事件元信息,如trace信息、发送者信息、事件大小、MetaQ信息等,参考示例:image.png

3.  事件BodyJSON格式,包含由用户已定义的事件内容,事件内容要符合事件定义契约,否则会被拒绝发送。

运行时的事件可能有多个消费方,每个消费方会产生一条消费记录,消费记录包含:

1.  事件ID

2.  消费信息:消费状态、消费次数、下次消费时间等

事件发送流程

事件中心支持事务发送和非事务发送两种模式,使用状态机驱动,API设计与MetaQAPI基本一致。以下以事务发送为例介绍发送流程,由于非事务发送的流程更简单,所以不再详细介绍。

事务发送状态机

image.png

事务发送时序图

image.png

异常状态事务问询

image.png

事件消费流程

事件消费流程也使用状态机驱动,API相比MetaQ有一些不同:

1.  不需要再调用subscribe topic

2.  新增消费过滤器EventFilter,支持按照租户、业务流、事件维度做过滤

3.  支持不同的事件使用不同的Listener消费

事件消费状态机

image.png

重试周期

事件进入消费失败状态后,事件中心会周期调用用户Listener重新消费,消费周期以5s起始指数增加,最多重试15次,最大为5 * 214 = 81920秒(约22小时)。

事件消费时序图

image.png

事件存储

数据表

事件中心使用了32分库的TDDL,按照HASH(事件ID)做分库,每个库上有以下几张表:

1.  事件主表,包含发送者信息、事件信息以及普通事件的事件体

2.  事件消费记录主表,包含消费者信息、消费状态以及重新消费信息,与事件主表通过事件ID关联

3.  大事件主表,包含大事件体,与事件主表通过事件ID关联

4.  事件天表,表结构与事件主表相同,存放消费完毕的事件

5.  消费记录天表

6.  大事件天表

事件生命周期

1.  新写入的事件和消费记录会进入主表

2.  当事件写入超过1天,且事件的所有消费方都消费成功后,事件及所有消费记录会从主表移动到天表中

3.  当事件某个消费方需要重新消费之前消费成功的事件时,事件及所有消费记录会从天表移回到主表中

4.  每天的某个时间,事件清理服务会将7天前的那张天表清空,例如今天是211号,那么就会清空24号的所有天表。

外部索引

事件发送历史列表、事件索引查询和事件重投是事件中心运维平台的主要功能。其中索引查询功能的查询速度快、查询结果准确,用户反馈一直比较好。image.png

索引配置

用户在修改事件定义时,可以为其中任意基础类型字段配置为查询字段,事件中心会在运行时解析该字段的值,并创建索引;一个事件中的每个查询字段都会对应一条索引;即使没有配置查询字段,也会生成一条包含时间戳的索引,用于已发送事件的排序和分页。image.png

索引结构

事件中心的索引为KV结构,使用Lindorm的宽表存储,按使用场景分为两种类型:

1.  不包含查询字段的索引

2.  Key格式为 HASH(租户id_事件code)_env_发送时间差值_事件ID

3.  Value为事件ID、事件头

4.  包含查询字段的索引

5.  Key格式为 HASH(租户id_事件Code_字段路径_索引值)_env_发送时间差值_事件ID

6.  Value为事件ID、事件头

其中

1.  发送时间差值 = Long.MAX_VALUE - 发送时间毫秒数,用于按发送时间倒序展示

2.  字段路径是json path格式,例如 $.bizNo

查询性能

通过目前事件中心运维平台99%的查询都可以在毫秒级别返回结果,Lindorm索引行数在十亿级别。

总结

本文介绍了事件驱动架构在供应链执行链路的应用背景和实践过程,并介绍了NBF事件中心产品的设计和部分实现。目前事件中心每日事件发送量峰值在千万级别,平稳度过了双11、双12、年货节等流量高峰。

相关实践学习
消息队列RocketMQ版:基础消息收发功能体验
本实验场景介绍消息队列RocketMQ版的基础消息收发功能,涵盖实例创建、Topic、Group资源创建以及消息收发体验等基础功能模块。
消息队列 MNS 入门课程
1、消息队列MNS简介 本节课介绍消息队列的MNS的基础概念 2、消息队列MNS特性 本节课介绍消息队列的MNS的主要特性 3、MNS的最佳实践及场景应用 本节课介绍消息队列的MNS的最佳实践及场景应用案例 4、手把手系列:消息队列MNS实操讲 本节课介绍消息队列的MNS的实际操作演示 5、动手实验:基于MNS,0基础轻松构建 Web Client 本节课带您一起基于MNS,0基础轻松构建 Web Client
目录
相关文章
|
消息中间件 存储 运维
NBF事件中心架构设计与实现
NBF是阿里巴巴供应链中台的基础技术团队打造的一个技术PaaS平台,她提供了微服务FaaS框架,低代码平台和中台基础设施等一系列的PaaS产品,旨在帮助业务伙伴快速复用和扩展中台能力,提升研发效能和对外的商业化输出。事件中心就是NBF系列技术产品中的一员。本文首先介绍事件驱动架构的概念及适用场景,然后会介绍事件中心产品的设计和实现。
NBF事件中心架构设计与实现
|
1天前
|
负载均衡 Java 开发者
细解微服务架构实践:如何使用Spring Cloud进行Java微服务治理
【6月更文挑战第30天】Spring Cloud是Java微服务治理明星框架,整合Eureka(服务发现)、Ribbon(客户端负载均衡)、Hystrix(断路器)、Zuul(API网关)和Config Server(配置中心),提供完整服务治理解决方案。通过Eureka实现服务注册与发现,Ribbon进行负载均衡,Hystrix确保服务容错,Config Server集中管理配置,Zuul则作为API入口统一处理请求。理解和使用Spring Cloud是现代Java开发者的关键技能。
13 2
|
15小时前
|
负载均衡 Java 开发者
Spring Cloud微服务架构中的配置管理与服务发现
Spring Cloud微服务架构中的配置管理与服务发现
|
15小时前
|
Java API 数据库
Java后端架构设计:从单体到微服务的演进
Java后端架构设计:从单体到微服务的演进
|
15小时前
|
消息中间件 存储 运维
微服务架构中的服务通信与数据一致性策略
【6月更文挑战第29天】本文深入探讨了微服务架构下的服务间通信和数据一致性问题,提出了一系列解决方案。文章首先分析了微服务环境下面临的主要挑战,随后详细介绍了同步和异步通信模式,并对比了它们在不同场景下的适用性。接着,文章讨论了实现数据一致性的几种策略,包括两阶段提交、补偿事务以及最终一致性,每种策略都配以实际案例分析。最后,结合当前技术趋势,展望了微服务通信和数据一致性处理的未来发展方向。
|
2天前
|
缓存 监控 负载均衡
探索微服务架构中的API网关模式
在现代软件开发领域,微服务架构因其灵活性和可扩展性而备受青睐。本文将深入探讨微服务架构中至关重要的组件——API网关。通过分析API网关的核心功能、设计原则以及实际应用案例,我们旨在揭示其在提高系统性能、增强安全性及简化客户端与服务间通信中的重要作用。结合最新研究和实际开发经验,本文将为读者提供关于如何有效实施API网关的深刻见解。
|
1天前
|
存储 负载均衡 云计算
微服务架构中的服务发现与注册机制
在分布式系统设计中,微服务架构因其灵活性和可伸缩性而受到青睐。本文深入探讨了微服务架构下的服务发现与注册机制,通过分析Eureka、Consul和Zookeeper等工具的原理与实践,揭示了这些机制如何优化服务间的通信和故障转移。文章结合最新研究和案例,提供了对微服务架构中关键组件的深刻见解,并讨论了其在不同场景下的应用效果。
|
1天前
|
Kubernetes Java 测试技术
探索微服务架构的演变与实践
【6月更文挑战第28天】在数字化时代,软件架构不断演进以应对复杂多变的业务需求。本文将深入探讨微服务架构从概念到实践的发展过程,分析其设计原则、技术选型及实施策略,并结合作者亲身经验,阐述在微服务转型过程中的挑战与解决之道。
|
2天前
|
Kubernetes Cloud Native Serverless
云原生时代的微服务架构演进之路
【6月更文挑战第28天】在数字化转型的大潮中,企业不断寻求更高效、灵活的软件开发与部署方式。云原生技术因此应运而生,它不仅改变了应用的开发模式,也重塑了微服务架构的未来。本文将探讨云原生环境下微服务架构的演进路径,包括容器化、服务网格、无服务器计算等关键技术的应用与挑战,并展望未来微服务架构的发展方向。
|
2天前
|
负载均衡 Java API
使用Spring Cloud构建Java微服务架构
使用Spring Cloud构建Java微服务架构