聊聊微服务架构及分布式事务解决方案!

简介: 分布式事务场景如何设计系统架构及解决数据一致性问题,个人理解最终方案把握以下原则就可以了,那就是:大事务=小事务(原子事务)+异步(消息通知),解决分布式事务的最好办法其实就是不考虑分布式事务,将一个大的业务进行拆分,整个大的业务流程,转化成若干个小的业务流程,然后通过设计补偿流程从而考虑最终一致性。

分布式事务场景如何设计系统架构及解决数据一致性问题,个人理解最终方案把握以下原则就可以了,那就是:大事务=小事务(原子事务)+异步(消息通知),解决分布式事务的最好办法其实就是不考虑分布式事务,将一个大的业务进行拆分,整个大的业务流程,转化成若干个小的业务流程,然后通过设计补偿流程从而考虑最终一致性。


什么是事务


事务(Transaction)及其ACID属性


事务是由一组SQL语句组成的逻辑处理单元,事务具有以下4个属性,通常简称为事务的ACID属性:


原子性(Atomicity):事务是一个原子操作单元,其对数据的修改,要么全都执行,要么全都不执行。


一致性(Consistent):在事务开始和完成时,数据都必须保持一致状态。这意味着所有相关的数据规则都必须应用于事务的修改,以保持数据的完整性;事务结束时,所有的内部数据结构(如B树索引或双向链表)也都必须是正确的。


隔离性(Isoation):数据库系统提供一定的隔离机制,保证事务在不受外部并发操作影响的“独立”环境执行。这意味着事务处理过程中的中间状态对外部是不可见的,反之亦然。


持久性(Durabe):事务完成之后,它对于数据的修改是永久性的,即使出现系统故障也能够保持。


典型场景:银行转账业务


例如:李雷账户中有500块钱,韩梅梅账户有200块钱,李雷要从自己的账户中转100块钱给韩梅梅,转账(事务)成功执行完成后应该是李雷账户减100变为400,韩梅梅账户加100变为300,不能出现其他情况,即在事务开始和结束时数据都必须保持一致状态(一致性),事务结束时所有的数据及结构都必须是正确的。并且同样的转账操作(同一流水,即一次转账操作)无论执行多少次结果都相同(幂等性)。幂等性可以点击这里参考这篇文章。


电商场景:流量充值业务


再说我们做的一个项目:中国移动-流量充值能力中心,核心业务流程为:


用户进入流量充值商品购买页面,选择流量商品;


购买流量充值商品,有库存限制则判断库存,生成流量购买订单;


选择对应的支付方式(和包、银联、支付宝、微信)进行支付操作;


支付成功后,近实时流量到账即可使用流量商品;


此业务流程看似不是很复杂对吧,不涉及到类似电商业务的实物购买,但是我认为其中的区别并不是很大,只是缺少电商中的物流发货流程,其他流程几乎是一样的,也有库存以及优惠折扣等业务存在。


整个系统交互如下图:


image.png


分布式事务


上述两个场景的业务需求已经说完了,接着谈谈分布式事务,要说分布式事务那就先聊聊本地事务与分布式事务:


Ps:**相同点:**首先都是要保证数据正确(即ACID),本地事务与分布式事务还可以对应为:刚性事务与柔性事务,在我个人理解刚性事务与柔性事务的最大区别就是:一个完整的事务操作是否可以在同一物理介质(例如:内存)上同时完成;柔性事务就是一个完整事务需要跨物理介质或跨物理节点(网络通讯),那么排它锁、共享锁等等就没有用武之地了(这里并不是指大事务拆小事务【本地事务】后),无法保证原子性(Atomicity)完成事务。个人理解分布式(柔性)事务本质意义上就是-伪事务,柔性事务其实就是根据不同的业务场景使用不同的方法实现最终一致性,因为可以根据业务的特性做部分取舍,在业务过程中可以容忍一定时间内的数据不一致。


在知乎上面看过一篇文章,支付宝的柔性事务实现方式有四种分别针对不同的业务场景,如下图:


image.png


两阶段型


补偿型


异步确保型


最大努力通知型


回到我们流量交易中心的业务场景。通过Dubbo实现了微服务化,大致拆分如下:


商品服务


订单服务


库存服务


支付服务


直充服务


消息服务


等其他服务


场景一:


库存数量与订单数量一致性,采用补偿型+最大努力通知型,采用原因为不涉及跨机房和长事务(正常情况下库存与订单服务处理很快):


用户下单先减库存,库存减成功后;


调用下单服务:


2-1.下单成功,两事务均提交完成;


2-2.下单失败,库存回滚,两事务均失败,此处还有一个保障机制(最大努力通知型),就是如果调用库存服务异常,确定库存回滚失败了,则放入消息服务(延时消息队列)分阶段定时重试,努力重试保证库存服务正常后成功回滚。消息队列选型可以点击这里参考这篇文章。


场景二:


订单信息、支付信息、充值信息三者之间的一致性,采用异步确保型的原因是,整个业务链路太长且跨不同的机房系统,网络延迟较高,业务方面恰好不需要非常高的实时性,所以采用小事务+异步通知,目前正常情况下用户从下单到完成支付到流量到账平均为1-5分钟左右:


下单成功即订单服务创建订单成功并发送支付请求到支付网关系统(订单状态-待支付,超过1小时未支付则流转为超时未付撤销,此处用到了RocketMQ的延时消费恰好实现定时器业务场景)。


返回支付页面,用户在支付交易系统完成支付业务流程,支付网关异步通知流量中心,流量中心接收到支付成功状态后修改订单状态-支付成功,并给支付网关返回成功结果(此处并发压力目前不大,暂时没有再进行异步解耦)。


流量中心修改完订单状态后,调用消息服务将直充业务放入消息队列,对直充业务进行解耦(原因是直充需要调用31省移动CRM系统,此链路过长,且部分省CRM系统耗时非常大,每个省的处理能力不同,经常出现20秒以上的超时,因此要考虑部分超时较高的省份拖垮系统,进行业务的削峰填谷);


3-1. 当直充成功时,修改订单状态-已完成;


3-2.当直充失败时(移动特性,例如:直充时正好用户销户或者停机了),修改订单状态为待退款,并调用支付网关系统的退款接口,退款成功后支付网关异步通知流量中心,流量中心修改订单状态为-退款成功;


3-3.当直充超时时,调用定时任务服务进行超时重试机制(第一次重试在10分钟后执行、第二次在30分钟后、第三次…..),直到最大超时重试次数后还得不到直充结果,订单状态会卡在支付成功状态,依赖T+1对账稽核流程保证最终一致性,订单状态根据对账结果流转为:已完成或待退款–>退款成功。


场景三:


直充到账后的消息通知(APP消息推送或短信通知),采用最大努力通知型,这个业务场景比较简单,在直充成功后,订单状态流转为已完成,此时通过消息服务进行到账通知业务的解耦,调用消息服务失败的情况下,使用定时任务努力通知。


场景四:


对账稽核:


按照支付账期每日进行T+1对账,对账原则:以支付交易记录为准,对流量中心订单记录+支付网关交易记录+省CRM充值记录三方比对,将某些中间状态的订单(例如:支付成功、待退款)核对后将订单状态流转完结(已完成、退款成功)。


结算稽核:


对账成功后的数据定期进入结算流程,对支付网关周期内的支付金额与结算数据的金额进行核对,稽核成功后进行财务结算流程,将钱结算给省公司,并提供结算明细给省公司,供省公司与直充成本记录进行复核。


Ps:以下是流量中心的部分架构设计,总体原则方向:微服务化


流量中心-架构设计


image.png


架构设计思想:在系统初期设计时以及部分硬性环境约束下,我们根据业务拆分为多个子系统(微服务):商品服务、订单服务、库存服务、支付网关、统一接口平台、对账服务、结算服务、网关对接服务等,后续还会增加:账户服务、虚拟货币服务、卡券服务等等…。


按照微服务的核心设计思想,所有服务完全独立、隔离,因此所有服务从上至下:请求接入(连接管理)、请求处理(计算服务)、数据存储(存储服务)进行拆分,接入与计算尽最大可能实现无状态,数据存储进行垂直+水平拆分,垂直拆分:商品库-mysql(读多写少,主从架构+读写分离)+redis(读多写少,集群方式)、订单库-mysql(读写均衡,多主多从+水平拆分)、库存专用库-redis(分布式+主备容灾)、外部交易系统-支付网关、外部办理系统-统一接口平台。


Ps:此架构目前已支撑总交易额3.6亿,总订单4680万,日均交易额500万,日订单量50万,后续业务量持续增加的情况下按照微服务思想继续拆分,例如将订单服务再拆分为:下单服务、查单服务,直到根据业务需求与系统关系耦合性拆分到最细粒度为止。


性能扩展:应用层计算服务(无状态应用)通过增加服务节点同比提升运算性能,配套质量(性能)监控服务dubbo monitor及整合Netflix的Hystrix熔断器对业务质量进行管理实现应用层的动态扩缩容。


容量扩展:数据层存储服务(有状态应用)通过对数据水平拆分实现容量的无限扩容,Nosql类方案:Codis中间件;关系型数据库:Mycat数据库分库分表中间件。目前项目中采用twitter的snowflake唯一ID生成器(根据业务场景优化后)自己实现数据的水平拆分和路由规则。


存储性能:Nosql:针对读多写少场景-使用淘宝的Tedis(多写随机读的特性提高性能),读写均衡使用-Codis;Mysql:读多写少场景使用一主多从架构(例如商品信息),读写均衡场景使用多主多从架构(例如订单信息)。


整体拆分原则如下图:


image.png


Never Give Up!


相关实践学习
通过轻量消息队列(原MNS)主题HTTP订阅+ARMS实现自定义数据多渠道告警
本场景将自定义告警信息同时分发至多个通知渠道的需求,例如短信、电子邮件及钉钉群组等。通过采用轻量消息队列(原 MNS)的主题模型的HTTP订阅方式,并结合应用实时监控服务提供的自定义集成能力,使得您能够以简便的配置方式实现上述多渠道同步通知的功能。
消息队列 MNS 入门课程
1、消息队列MNS简介 本节课介绍消息队列的MNS的基础概念 2、消息队列MNS特性 本节课介绍消息队列的MNS的主要特性 3、MNS的最佳实践及场景应用 本节课介绍消息队列的MNS的最佳实践及场景应用案例 4、手把手系列:消息队列MNS实操讲 本节课介绍消息队列的MNS的实际操作演示 5、动手实验:基于MNS,0基础轻松构建 Web Client 本节课带您一起基于MNS,0基础轻松构建 Web Client
相关文章
|
4月前
|
存储 安全 Java
管理 Spring 微服务中的分布式会话
在微服务架构中,管理分布式会话是确保用户体验一致性和系统可扩展性的关键挑战。本文探讨了在 Spring 框架下实现分布式会话管理的多种方法,包括集中式会话存储和客户端会话存储(如 Cookie),并分析了它们的优缺点。同时,文章还涵盖了与分布式会话相关的安全考虑,如数据加密、令牌验证、安全 Cookie 政策以及服务间身份验证。此外,文中强调了分布式会话在提升系统可扩展性、增强可用性、实现数据一致性及优化资源利用方面的显著优势。通过合理选择会话管理策略,结合 Spring 提供的强大工具,开发人员可以在保证系统鲁棒性的同时,提供无缝的用户体验。
|
5月前
|
监控 Java API
Spring Boot 3.2 结合 Spring Cloud 微服务架构实操指南 现代分布式应用系统构建实战教程
Spring Boot 3.2 + Spring Cloud 2023.0 微服务架构实践摘要 本文基于Spring Boot 3.2.5和Spring Cloud 2023.0.1最新稳定版本,演示现代微服务架构的构建过程。主要内容包括: 技术栈选择:采用Spring Cloud Netflix Eureka 4.1.0作为服务注册中心,Resilience4j 2.1.0替代Hystrix实现熔断机制,配合OpenFeign和Gateway等组件。 核心实操步骤: 搭建Eureka注册中心服务 构建商品
962 3
|
8月前
|
小程序 前端开发
2025商业版拓展校园圈子论坛网络的创新解决方案:校园跑腿小程序系统架构
校园跑腿小程序系统是一款创新解决方案,旨在满足校园配送需求并拓展校友网络。跑腿员可接单配送,用户能实时跟踪订单并评价服务。系统包含用户、客服、物流、跑腿员及订单模块,功能完善。此外,小程序增设信息咨询发布、校园社区建设和活动组织等功能,助力校友互动、经验分享及感情联络,构建紧密的校友网络。
341 1
2025商业版拓展校园圈子论坛网络的创新解决方案:校园跑腿小程序系统架构
|
3月前
|
Cloud Native Serverless API
微服务架构实战指南:从单体应用到云原生的蜕变之路
🌟蒋星熠Jaxonic,代码为舟的星际旅人。深耕微服务架构,擅以DDD拆分服务、构建高可用通信与治理体系。分享从单体到云原生的实战经验,探索技术演进的无限可能。
微服务架构实战指南:从单体应用到云原生的蜕变之路
|
9月前
|
人工智能 安全 Java
智慧工地源码,Java语言开发,微服务架构,支持分布式和集群部署,多端覆盖
智慧工地是“互联网+建筑工地”的创新模式,基于物联网、移动互联网、BIM、大数据、人工智能等技术,实现对施工现场人员、设备、材料、安全等环节的智能化管理。其解决方案涵盖数据大屏、移动APP和PC管理端,采用高性能Java微服务架构,支持分布式与集群部署,结合Redis、消息队列等技术确保系统稳定高效。通过大数据驱动决策、物联网实时监测预警及AI智能视频监控,消除数据孤岛,提升项目可控性与安全性。智慧工地提供专家级远程管理服务,助力施工质量和安全管理升级,同时依托可扩展平台、多端应用和丰富设备接口,满足多样化需求,推动建筑行业数字化转型。
339 5
|
4月前
|
消息中间件 缓存 监控
中间件架构设计与实践:构建高性能分布式系统的核心基石
摘要 本文系统探讨了中间件技术及其在分布式系统中的核心价值。作者首先定义了中间件作为连接系统组件的"神经网络",强调其在数据传输、系统稳定性和扩展性中的关键作用。随后详细分类了中间件体系,包括通信中间件(如RabbitMQ/Kafka)、数据中间件(如Redis/MyCAT)等类型。文章重点剖析了消息中间件的实现机制,通过Spring Boot代码示例展示了消息生产者的完整实现,涵盖消息ID生成、持久化、批量发送及重试机制等关键技术点。最后,作者指出中间件架构设计对系统性能的决定性影响,
|
8月前
|
监控 Linux 应用服务中间件
Linux多节点多硬盘部署MinIO:分布式MinIO集群部署指南搭建高可用架构实践
通过以上步骤,已成功基于已有的 MinIO 服务,扩展为一个 MinIO 集群。该集群具有高可用性和容错性,适合生产环境使用。如果有任何问题,请检查日志或参考MinIO 官方文档。作者联系方式vx:2743642415。
2872 57
|
9月前
|
机器学习/深度学习 并行计算 PyTorch
英伟达新一代GPU架构(50系列显卡)PyTorch兼容性解决方案
本文记录了在RTX 5070 Ti上运行PyTorch时遇到的CUDA兼容性问题,分析其根源为预编译二进制文件不支持sm_120架构,并提出解决方案:使用PyTorch Nightly版本、更新CUDA工具包至12.8。通过清理环境并安装支持新架构的组件,成功解决兼容性问题。文章总结了深度学习环境中硬件与框架兼容性的关键策略,强调Nightly构建版本和环境一致性的重要性,为开发者提供参考。
5828 64
英伟达新一代GPU架构(50系列显卡)PyTorch兼容性解决方案
|
6月前
|
缓存 Cloud Native Java
Java 面试微服务架构与云原生技术实操内容及核心考点梳理 Java 面试
本内容涵盖Java面试核心技术实操,包括微服务架构(Spring Cloud Alibaba)、响应式编程(WebFlux)、容器化(Docker+K8s)、函数式编程、多级缓存、分库分表、链路追踪(Skywalking)等大厂高频考点,助你系统提升面试能力。
344 0