一种用于保证多方子系统数据一致性的方法

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 目前我司的物联网平台是基于云原生架构的,目前主要用来对接第三方弱电子系统,比如海康ISC、大华ICC等。弱电子系统会提供人员、空间等开放接口,物联网平台通过调用开放平台的增删改接口,将我方数据同步到多个弱电子系统中。由于这多方系统都是独立的系统,具有独立的事务,当其中某个子系统发生异常后,前面调用的子系统并无感知,于是造成子系统产生**脏数据**,并且导致该类数据无法再次处理成功。

前言

目前我司的物联网平台是基于云原生架构的,目前主要用来对接第三方弱电子系统,比如海康ISC、大华ICC等。
弱电子系统会提供人员、空间等开放接口,物联网平台通过调用开放平台的增删改接口,将我方数据同步到多个弱电子系统中。
由于这多方系统都是独立的系统,具有独立的事务,当其中某个子系统发生异常后,前面调用的子系统并无感知,于是造成子系统产生脏数据,并且导致该类数据无法再次处理成功。

比如我方物联网平台同时对接了海康ISC、魔点门禁系统、富士停车系统,要使用这三方系统,需要先添加人员,并且提供了人员的增删改查开放接口。我方物联网平台也具备人员管理,为了能够达到一处管理多处使用的目的,人员管理的入口统一为我方物联网平台。在我方物联网平台添加人员张三后,物联网平台会依次同步调用三方子系统的新增人员接口,将人员添加到子系统中,该人员就可以使用对应子系统的功能。

这个流程看似没问题,实则有个大问题,如果最后一个子系统在执行新增人员的时候,发生了异常,该子系统自己具有一个事务,不会添加该人员,但是前面的两个子系统没发生异常,已经执行成功,那么这两个子系统是不是应该回退掉数据呢?如果不会退,我方物联网平台会收到调用子系统接口产生的异常,发生事务回滚,用户再次尝试添加该人员后,前面已经执行成功的子系统可能又会抛出“该人员已存在”的异常,添加人员还是无法成功,最后就产生了脏数据,此时这几方系统的数据情况是:我方:不存在张三,海康:存在张三,魔点:存在张三,富士:不存在张三,为了更好的理解这个流程,我画了一个流程图。
image.png

参考分布式事务

为了能够解决发生异常时,各个子系统数据不一致的情况,我们是不是可以参考分布式事务呢?分布式事务是如何处理的,这里以Seata为例,看看它是如何处理的。
image.png

上图是SEATA的分布式解决方案,这里有3个角色:TC、TM、RM

  • TC (Transaction Coordinator) - 事务协调者

维护全局和分支事务的状态,驱动全局事务提交或回滚。

  • TM (Transaction Manager) - 事务管理器

定义全局事务的范围:开始全局事务、提交或回滚全局事务。

  • RM (Resource Manager) - 资源管理器

管理分支事务处理的资源,与TC交谈以注册分支事务和报告分支事务的状态,并驱动分支事务提交或回滚。

这里不过多的深入SEATA,更多可以参考官方文档

实现自己三方事务

看了SEATA的分布式事务后,为了解决多方子系统数据一致性问题,同样也需要一个TC和TM,由于我们无法对第三方子系统进行任何操作,除了根据它的方法结果进行处理,因此这里不需要RM,我定义了一下TC和TM的职责:

  • TC:维护全局和三方事务的状态,驱动全局事务提交或回滚。
  • TM:定义全局事务的范围:开始全局事务、处理事务方法、提交或回滚全局事务。

同时为了能够让TM知道哪些接口需要处理事务,定义了一个注解ApiTx,有如下特性:

  • rollBackMethod:定义回退方法,不支持多参数
  • field:定义入参、出参字段映射
  • dependMethod:定义该接口依赖的接口,比如删除接口发生异常,回退方法为新增接口,依赖查询接口

定一个GlobalApiTx注解,用于开启全局事务,具有如下特性:

  • timeoutMills:回退超时时间,这里不支持
  • name:第三方接口事务名称
  • retryTimes:回退重试次数, 暂不支持

在介绍了TC、TM和两个自定义注解后,看一下自己实现三方事务的整体框架:
image.png

一共有4个模块:事务处理器,回退处理器,日志记录,业务逻辑。

  • 事务处理器(TC):具有一个注解ApiTx 用于标注需要处理的回退接口,该注解具有三个参数:反向回退方法、前置依赖方法、字段映射;一个全局事务注解GlobalTx用于标注该方法内所有三方接口是一个统一的事务,发生异常后需要统一回滚处理。
  • 回退处理器(TM):接收事务处理器的异常事件,通过ApiTx解析出反向接口、前置依赖方法、映射字段,调用反向接口对各子系统的脏数据进行处理。
  • 日志记录:记录正向接口请求记录和反向接口请求记录
  • 业务逻辑:处理其他相关的业务逻辑

有了整体框架图后,下面是该三方事务的具体流程图:
image.png

  1. 具体的,该装置随Spring启动,启动后监听GlobalTx和ApiTx注解的方法;
  2. 然后,拦截切点,进行前置处理,包括创建事务、处理回退依赖方法。
  3. 然后,执行第三方API接口,不发生异常,正常处理业务逻辑,记录日志,返回结果;发生异常,捕获异常,进入回退处理器,记录日志。
  4. 然后,回退处理器,获取回退方法,处理关联字段,填充参数;前置条件处理完毕后,执行第三方回退API,记录API执行时间、监听回退API超时时间,超时进行重试处理;如果在执行回退API的时候发生异常,抛出回退异常,提示用户进行手动处理;如果成功执行回退API,则抛出业务异常,记录日志。
  5. 最后,结束整个事务。

总结

该方法是一种用于保证多方子系统数据一致性的方法,优点是通过全局事务注解,异常回退统一处理,不侵入业务,可以作为通用逻辑处理,不耦合业务。

相关实践学习
阿里云AIoT物联网开发实战
本课程将由物联网专家带你熟悉阿里云AIoT物联网领域全套云产品,7天轻松搭建基于Arduino的端到端物联网场景应用。 开始学习前,请先开通下方两个云产品,让学习更流畅: IoT物联网平台:https://iot.console.aliyun.com/ LinkWAN物联网络管理平台:https://linkwan.console.aliyun.com/service-open
相关文章
|
机器学习/深度学习 人工智能 数据挖掘
Python在数据分析中的应用及未来发展趋势
【2月更文挑战第7天】传统的数据分析方法已经无法满足当今大数据时代的需求,Python作为一种高效、灵活的编程语言,在数据分析领域扮演着越来越重要的角色。本文将探讨Python在数据分析中的应用现状,并对其未来发展趋势进行展望。
263 0
|
缓存 Java 程序员
Spring中异步注解@Async的使用、原理及使用时可能导致的问题
本文主要介绍了Spring中异步注解的使用、原理及可能碰到的问题,针对每个问题文中也给出了方案。希望通过这篇文章能帮助你彻底掌握`@Async`注解的使用,知其然并知其所以然!
14342 4
|
6月前
|
JSON 数据挖掘 API
抖音电商新篇章:douyin.item_video API接口的介绍
抖音视频列表API接口简介:随着短视频发展,抖音成为全球重要平台,其视频数据对开发者、创作者和分析师意义重大。该API支持按关键词、分类等方式获取视频列表,通过HTTP请求(如GET)返回JSON格式数据,包含视频ID、播放量、作者信息等,助力构建推荐系统、分析趋势及挖掘用户行为,实现高效合法的数据利用。
|
8月前
|
人工智能 自然语言处理 算法
HippoRAG 2:开源RAG框架革新知识检索,多跳推理+持续学习全搞定
HippoRAG 2 是俄亥俄州立大学推出的检索增强生成框架,通过个性化PageRank算法和知识图谱技术,显著提升了RAG系统在复杂问答任务中的表现。
1038 2
HippoRAG 2:开源RAG框架革新知识检索,多跳推理+持续学习全搞定
|
JSON 数据挖掘 API
抖音商品详情API接口如何使用
使用抖音商品详情 API 需要先注册抖音开放平台账号并创建应用,获取 appkey 和 appsecret。接着阅读 API 文档,构建并发送 HTTP 请求,处理返回的 JSON 数据。注意保护密钥、处理错误和确保数据合规。
|
6月前
|
数据采集 Web App开发 JavaScript
Python爬虫如何获取JavaScript动态渲染后的网页内容?
Python爬虫如何获取JavaScript动态渲染后的网页内容?
|
9月前
|
存储 人工智能 并行计算
2025年阿里云弹性裸金属服务器架构解析与资源配置方案
🚀 核心特性与技术创新:提供100%物理机性能输出,支持NVIDIA A100/V100 GPU直通,无虚拟化层损耗。网络与存储优化,400万PPS吞吐量,ESSD云盘IOPS达100万,RDMA延迟<5μs。全球部署覆盖华北、华东、华南及海外节点,支持跨地域负载均衡。典型应用场景包括AI训练、科学计算等,支持分布式训练和并行计算框架。弹性裸金属服务器+OSS存储+高速网络综合部署,满足高性能计算需求。
|
机器学习/深度学习 JSON PyTorch
图神经网络入门示例:使用PyTorch Geometric 进行节点分类
本文介绍了如何使用PyTorch处理同构图数据进行节点分类。首先,数据集来自Facebook Large Page-Page Network,包含22,470个页面,分为四类,具有不同大小的特征向量。为训练神经网络,需创建PyTorch Data对象,涉及读取CSV和JSON文件,处理不一致的特征向量大小并进行归一化。接着,加载边数据以构建图。通过`Data`对象创建同构图,之后数据被分为70%训练集和30%测试集。训练了两种模型:MLP和GCN。GCN在测试集上实现了80%的准确率,优于MLP的46%,展示了利用图信息的优势。
422 1
C 作用域详解
在 C 语言中,作用域决定了变量和函数的可见性和生命周期,包括块作用域、函数作用域、文件作用域和全局作用域。块作用域内的变量仅在块内有效,函数作用域内的变量在整个函数内有效,文件作用域内的全局变量和函数在整个文件内有效,而全局作用域内的变量和函数在整个程序运行期间有效。作用域的优先级遵循局部变量优先的原则,局部变量会遮蔽同名的全局变量。变量的生命周期分为局部变量(函数调用时创建和销毁)、全局变量(程序开始时创建和结束时销毁)以及静态变量(整个程序期间有效)。理解作用域有助于避免命名冲突和错误,提高代码的可读性和可维护性。