刘伟光:全分布式架构引领核心系统架构转型新趋势

简介: 刘伟光:全分布式架构引领核心系统架构转型新趋势

多年来国内商业银行的核心系统主要采用集中式架构,随着银行内外部环境变化和业务发展,传统核心系统存在扩展性不足、拥有成本过高、运维管理风险高等问题,推动各行加速探索分布式转型路径。本文提出全分布式核心系统的架构和路径,为金融机构新一代核心系统规划建设提供参考。


新形势下核心系统建设的新思路

近年来,金融机构为应对复杂多变的内外部环境,积极实践数字化转型,并将分布式架构改造作为重要举措。分布式架构转型,尤其是核心系统的分布式改造,是商业银行转型升级的重要抓手。


1.核心系统分布式转型契合安全可控要求。我国金融行业长期依赖国外进口基础软硬件,在最高层提出维护国家金融安全的整体要求下,金融机构迫切需要逐步采用安全可控技术降低风险。2019年,人民银行发布《金融科技发展规划(2019-2021)》,将“安全可控”作为金融科技发展的指导思想,将建立加快分布式数据库研发应用列为重要发展方向。而近年来互联网厂商在自主研发方面发展较快,为金融业全面实现分布式架构转型奠定了良好的基础。


2.分布式核心系统是金融数字新基建的关键点。2020年4月,中央政治局常务委员会提出推动新型基础设施建设的要求,着力建设信息基础设施、融合基础设施和创新基础设施。核心系统是各金融机构、交易、清算、结算等场所得以顺畅运行的关键系统,分布式核心系统建设是构建新一代安全高效的产业融合基础设施的重要举措,也是新基建中最具挑战的任务。


3.分布式核心系统建设拉动产业生态建设。银行核心系统,对软硬件产品功能、性能、稳定性、安全可靠性等要求极为苛刻。由于核心系统连接各类外围应用,对相关技术和产品的适配性,以及技术服务能力体系也提出较高要求,因此,能够带动产业基础技术与产品的研发、应用、服务等一整套产业生态链的服务能力。此外,此类工程实施没有先例可循,需金融机构、金融科技公司及相关各方协同探索,形成最佳实践,并逐步沉淀形成新一代自主可控分布式核心架构与技术标准。


全分布式核心系统架构及其特点

全分布式架构是从前端服务、应用服务到后台数据库全部无单节点、可横向弹性扩展的分布式技术体系。


1.全分布式架构的核心理念是业务单元化。“单元”是指一个能完成所有业务操作的自包含集合,即包括各业务所需的服务和数据。单元作为部署的基本单位,可进行单元化流量封闭。单元化架构在分布式架构应用拆分和数据拆分的基础上可以有效解决单机房数据库连接限制、异地多活、容量预估和灰度发布等一系列问题(见图1)。

image.png

图1  单元化结构示意图


2.全分布式总体架构。该架构以“中台化+轻前台”的模式替换“瘦核心+大外围”的模式,对业务域的功能进行归纳、抽象,整合成符合业务语言的能力组件,将产品的生产过程从产品设计、系统架构、研发流程进行全链路的升级转变。可根据业务诉求快速组装出符合其要求的服务能力,降低试错成本,提供个性化服务。


该架构(见图2)将核心系统封装成三个服务平台:

image.png

图2  总体架构图


(1)资金平台保证事务一致性。该平台包括存款、贷款、理财、权益等多种核心业务,封装账务、清算、核算等原子能力,向上对业务产品层提供统一的资产处理服务;通过资金交换发起分布式事务,保障资产交换过程中的事务一致性。


(2)客户平台统一客户管理。统一定义客户、管理客户信息、身份识别、认证授权,具备360度客户视图信息模型,为基准客户洞察提供基础支撑。


(3)产品平台实现客户与产品的连接。将产品要素及处理流程抽象形成产品模型,提供各种产品的灵活定义及配置组装能力,将产品信息提供给业务产品层以及核心层的应用。具备定制化签约的能力,提供全局性的统一合约视图。


3.全分布式中台化架构的优势。具体如下。

(1)快速创新与试错。通过标准化业务建模、标准化能力和服务设计,抽取金融服务的核心要素沉淀在中台,构建全行级中台能力地图和业务全图,支持前台业务的快速迭代。


(2)隔离风险支持敏捷迭代。功能快速迭代时,可以通过流量调拨,在小规模生产流量范围内充分验证新版本后,再逐步扩大发布范围。发布过程中如验证有问题,可以及时回切,减少发布变更影响面。单元流量封闭逻辑隔离能力,可以隔离新老单元间调用,避免新老应用交叉访问兼容性问题。


(3)弹性扩展快速应对流量变化。单元化架构能实现无限弹性扩容,支持按单元进行全链路压测,便于容量预估,按单元进行应用和数据的弹入弹出,可灵活调配流量。数据库只需承载本单元的应用节点的请求,大大减少了数据库连接数,突破了单数据库连接数瓶颈不考虑机房限制的前提下,数据库可以无限扩展。


(4)全业务异地多活。业务按单元分散在多地域的多个数据中心数据进行水平拆分,通过采取自选举数据库,保证数据分片有同城和异地副本,灾难时支持自动切主,RPO可以实现等于0。自动化容灾平台可对接多产品的容灾切换和恢复操作,实现容灾过程自动化。


实践与思考

近年来,阿里云以分布式计算框架和分布式数据存储为基础,支持金融机构用户构建新型全分布式架构体系,能够以低成本,快速应对亿级用户数和PB级数据量的应用场景,在多家股份制商业银行、城商行和保险公司得到了验证,成为核心系统演进发展的最佳实践。


一是显著提升处理性能。某大型城商行,在互金平台上使用了“分布式中间件+分布式数据库”,达到99.99%的高可用效能,吞吐量提升到4000+TPS(吞吐量),弹性伸缩率提升100%,单账户成本下降至原来的1/5~1/10,日投放量从万级别增加到亿级别,为该行的普惠金融业务做出了巨大的贡献。


二是有效保障数据一致性。OceanBase数据库通过分布式引擎实现Paxos多数派协议和多副本特性,实现跨机房、跨地域部署,实现金融级可用性和事务的强一致性。支持多个数据库节点的读一致性(readconsistency)能力。中间件层面,支持多种分布式事务模式,蚂蚁金服TRaaS(技术风险防控服务)组件能够提供全链路资金一致性保障,提供小时级、分钟级和秒级的旁路核对能力。


三是构建开发运维一体化管理平台,实现数据化运营。为某保险公司的核心系统构建一站式智能研发平台,封装了持续交付、智能IDE、代码托管、配置变更、流程中心、项目协作、测试服务、洞察分析等功能模块,覆盖软件研发的各个阶段,兼具开放可扩展、灵活可配置的特性。


结合行业实践,建议各金融机构在建设分布式核心系统中,重点关注四个方面。


一是技术前瞻性。业务快速发展需要先进、稳定、高效的技术支撑,采用单元化全分布架构,能按需进行单元化组装与复制,构建弹性扩展能力。并支持跨地域容灾和异地多活。


二是以平台化思路满足业务多样性需求。中台化技术支持新核心能够服务于更为多样的处理需求,更为快速地支持业务变化。


三是合理评估风险,优先保障工程质量。核心系统是一项复杂工程,需综合评估单点风险和整体风险。各层次解耦在一定程度上能够降低技术路线更换的风险,但不同技术体系组合在适配性、性能调优、问题处置等方面同样存在风险,因此核心体系内选择相对统一的技术路线有助于控制项目复杂性,保证项目质量和进度。


四是选择能够长期共同发展的合作伙伴至关重要。成熟的服务商应能够提供经过充分检验的产品、适应行业特点的实施工艺,以及标准化的运营管理流程。多层次的合作除了有助于项目实施外,还将有助于形成配套的管理运营机制,推动业务模式创新,培养出一支强有力的技术服务队伍。

相关文章
|
5月前
|
人工智能 安全 Java
智慧工地源码,Java语言开发,微服务架构,支持分布式和集群部署,多端覆盖
智慧工地是“互联网+建筑工地”的创新模式,基于物联网、移动互联网、BIM、大数据、人工智能等技术,实现对施工现场人员、设备、材料、安全等环节的智能化管理。其解决方案涵盖数据大屏、移动APP和PC管理端,采用高性能Java微服务架构,支持分布式与集群部署,结合Redis、消息队列等技术确保系统稳定高效。通过大数据驱动决策、物联网实时监测预警及AI智能视频监控,消除数据孤岛,提升项目可控性与安全性。智慧工地提供专家级远程管理服务,助力施工质量和安全管理升级,同时依托可扩展平台、多端应用和丰富设备接口,满足多样化需求,推动建筑行业数字化转型。
185 5
|
4月前
|
监控 Linux 应用服务中间件
Linux多节点多硬盘部署MinIO:分布式MinIO集群部署指南搭建高可用架构实践
通过以上步骤,已成功基于已有的 MinIO 服务,扩展为一个 MinIO 集群。该集群具有高可用性和容错性,适合生产环境使用。如果有任何问题,请检查日志或参考MinIO 官方文档。作者联系方式vx:2743642415。
1206 57
|
8月前
|
存储 缓存 NoSQL
分布式系统架构8:分布式缓存
本文介绍了分布式缓存的理论知识及Redis集群的应用,探讨了AP与CP的区别,Redis作为AP系统具备高性能和高可用性但不保证强一致性。文章还讲解了透明多级缓存(TMC)的概念及其优缺点,并详细分析了memcached和Redis的分布式实现方案。此外,针对缓存穿透、击穿、雪崩和污染等常见问题提供了应对策略,强调了Cache Aside模式在解决数据一致性方面的作用。最后指出,面试中关于缓存的问题多围绕Redis展开,建议深入学习相关知识点。
576 8
|
4月前
|
消息中间件 缓存 算法
分布式开发:数字时代的高性能架构革命-为什么要用分布式?优雅草卓伊凡
分布式开发:数字时代的高性能架构革命-为什么要用分布式?优雅草卓伊凡
221 0
分布式开发:数字时代的高性能架构革命-为什么要用分布式?优雅草卓伊凡
|
6月前
|
消息中间件 人工智能 监控
文生图架构设计原来如此简单之分布式服务
想象一下,当成千上万的用户同时要求AI画图,如何公平高效地处理这些请求?文生图/图生图大模型的架构设计看似复杂,实则遵循简单而有效的原则:合理排队、分工明确、防患未然。
224 14
文生图架构设计原来如此简单之分布式服务
|
6月前
|
并行计算 PyTorch 算法框架/工具
融合AMD与NVIDIA GPU集群的MLOps:异构计算环境中的分布式训练架构实践
本文探讨了如何通过技术手段混合使用AMD与NVIDIA GPU集群以支持PyTorch分布式训练。面对CUDA与ROCm框架互操作性不足的问题,文章提出利用UCC和UCX等统一通信框架实现高效数据传输,并在异构Kubernetes集群中部署任务。通过解决轻度与强度异构环境下的挑战,如计算能力不平衡、内存容量差异及通信性能优化,文章展示了如何无需重构代码即可充分利用异构硬件资源。尽管存在RDMA验证不足、通信性能次优等局限性,但该方案为最大化GPU资源利用率、降低供应商锁定提供了可行路径。源代码已公开,供读者参考实践。
450 3
融合AMD与NVIDIA GPU集群的MLOps:异构计算环境中的分布式训练架构实践
JeecgBoot架构图 ● 技术架构图 ● 系统架构图
JeecgBoot架构图 ● 技术架构图 ● 系统架构图
|
6月前
|
人工智能 运维 监控
领先AI企业经验谈:探究AI分布式推理网络架构实践
当前,AI行业正处于快速发展的关键时期。继DeepSeek大放异彩之后,又一款备受瞩目的AI智能体产品Manus横空出世。Manus具备独立思考、规划和执行复杂任务的能力,其多智能体架构能够自主调用工具。在GAIA基准测试中,Manus的性能超越了OpenAI同层次的大模型,展现出卓越的技术实力。
|
8月前
|
存储 Prometheus Cloud Native
分布式系统架构6:链路追踪
本文深入探讨了分布式系统中的链路追踪理论,涵盖追踪与跨度的概念、追踪系统的模块划分及数据收集的三种方式。链路追踪旨在解决复杂分布式系统中请求流转路径不清晰的问题,帮助快速定位故障和性能瓶颈。文中介绍了基于日志、服务探针和边车代理的数据收集方法,并简述了OpenTracing、OpenCensus和OpenTelemetry等链路追踪协议的发展历程及其特点。通过理解这些概念,可以更好地掌握开源链路追踪框架的使用。
651 41
|
8月前
|
存储 缓存 安全
分布式系统架构7:本地缓存
这是小卷关于分布式系统架构学习的第10篇文章,主要介绍本地缓存的基础理论。文章分析了引入缓存的利弊,解释了缓存对CPU和I/O压力的缓解作用,并讨论了缓存的吞吐量、命中率、淘汰策略等属性。同时,对比了几种常见的本地缓存工具(如ConcurrentHashMap、Ehcache、Guava Cache和Caffeine),详细介绍了它们的访问控制、淘汰策略及扩展功能。
194 6

热门文章

最新文章