SOFAStack 背后的实践和思考|新一代分布式云 PaaS 平台,打造企业上云新体验

简介: 在越来越复杂的异构基础设施上,存量应用和增量应用应该如何上云?面对大量异构基础设施带来的挑战,企业如何最大化上云价值?

近几年云计算的发展如火箭般迅猛,异构变革日新月异,这是基础设施层明确的发展趋势。值得关注的是,随着基础设施的复杂度越来越高,也为整个基础设施的统一资源调度带来了极大挑战。

在越来越复杂的异构基础设施上,存量应用和增量应用应该如何上云?面对大量异构基础设施带来的挑战,企业如何最大化上云价值?

12 月 15 日,在以“引领分布式云变革,助力湾区数字经济”为主题的全球分布式云大会上,蚂蚁集团数字科技事业部产品总监马振雄分享了分布式云异构基础设施之上,蚂蚁集团在构建分布式云 PaaS 平台 SOFAStack 背后的实践和思考。

图片

PART. 1 服务网格定义新的应用上云路径

随着云原生的发展,企业在技术升级的过程中伴随着大量的历史包袱,这些历史包袱是所有存量的异构功能,这些异构功能有以下几个特征:技术架构异构、通信协议异构、开发框架异构。

这些存量的应用如何在异构的基础设施上统一纳管,背后就涉及到了应用的全生命周期,从研发时的应用改造成本,到运行时如何对异构应用做统一服务治理,再到运维时如何对基础设施进行统一元数据管理、统一变更、统一容灾、统一应急以及资金安全,这些都是存在于 PaaS 层的挑战。

如果说 IaaS 层的统一资源调度以资源为视角和出发点,那么在上层 PaaS 则需要以应用为视角思考整个分布式基础设施的复杂度到底会带来哪些挑战,以及企业应该如何应对。

企业存在大量的历史包袱,历史包袱五花八门,如果要把这些历史包袱全部改造成分布式应用或者云原生应用,背后需要的代价非常昂贵,很难有一家企业在短时间内愿意负担起这样的时间和成本,彻底将所有的历史包袱云原生化。

相比于其他上云方式,Service Mesh 能够实现跨平台、跨协议,并且业务代码无侵入改造,从而快速地将应用植入 Sidecar 完成 Mesh 化,获得分布式红利、安全可观测,并且整个架构平滑演进。企业在架构升级过程中可以按部就班、循序渐进,并且实现端到端的安全可信以及全链路可观测能力。

总体来说网格服务首先降低了传统应用改造成分布式、云原生应用的成本问题;其次是解决了所有企业新老系统的互联互通和统一纳管的问题;第三是让企业应用架构在升级过程变得更平滑;第四是让所有企业保留自己存量系统的技术栈,且保留了企业自身自主可控性要求。

Forrester 长期以来对蚂蚁集团的创新技术保持关注,Forrester 首席分析师、Serving Technology Executives 服务技术决策者戴鲲发布《蚂蚁集团服务网格总体经济影响》,并分享了他对于 Mesh 的研究,

未来要实现开发的智能化,需要通过微服务来进行智能化进程,不再像以前一样零敲碎打。对传统应用进行定制化,要通过网格服务动态地组装,实现云上开发。

通过对蚂蚁集团客户的访谈,Forrester 发现无论是传统金融机构还是互联网金融机构,都面临在混合架构下存在的共性挑战,包括基础设施升级换代、应用开发升级、云上云下交互等方方面面。Forrester 发现网格服务从单体应用改造成本节省到运维安全管理效率提升等方面都有明显的收益,通过研究三年数据测算,使用蚂蚁服务网格产品后,客户的投资回报率达到 99%。

PART. 2 SOFAStack 实现异构统一运维与弹性容灾

基于自身的技术积累和场景打磨,蚂蚁数字科技定义了分布式云 PaaS 平台在运维态的六大能力,包括统一元数据管理、统一集群资源管理、统一变更能力、统一应急能力、统一容灾能力,和统一端到端从业务、应用到基础设施的可观测能力。在此基础上,蚂蚁数字科技重新定义 SRE,实现统一应用运维能力。

行业一般认为 SRE 中的“R”(Reliability)是可靠性,蚂蚁数字科技结合自身十几年来对业务可用性和连续性的极致追求,经历了十多次双十一大规模验证,对 SRE 进行重新定义,将 SRE 里的 R 从 Reliability 转变为 Risk,意味着蚂蚁自身的保障体系是以风险为核心。最终通过十几年来的技术沉淀,打造了自己的技术风险保障平台 TRaaS。也正是因为这十几年沉淀的精华,才能让蚂蚁做到业务、应用、基础设施的运维无人值守,运维“自动驾驶”。

蚂蚁的技术风险防控体系从上到下分别代表了三个目标:高可用、资金安全、低成本。三个组织保障:团队、文化、制度。再到需求、研发、发布以及监控的四条防线,最终沉淀出一套完整的技术风险保障体系的平台能力,整个平台由四个能力板块组成,包括了从应急、变更到容量、资金安全。

图片

应急平台建立起了以风险为核心的事前、事中、事后的故障风险保障体系,分别对应故障风险检测能力、故障定位能力、故障应急和自愈能力,以及故障的回溯能力。变更平台建立起了以变更为核心的事前、事中、事后的变更风险自动分析、防御、阻断能力。容量平台建立起了对于全局数据中心和系统整体瓶颈的自动探测、容量规划和容量保鲜能力。最后的资金平台,通过对业务应用无侵入地建立起了资金核对第二道防线,帮助企业彻底规避资金安全风险,减少资损。

如果说第一个核心的挑战解决的是研发态和运行态的问题,第二个核心挑战解决运维态问题,第三个核心挑战,要解决的是从整体架构上解决容灾态的问题。

随着分布式云基础设施的蓬勃发展,企业数据中心从集中化走向离散化,这意味着企业任何一个应用随时随地可以跑在全国的任何一家数据中心机房的任何一个节点。这种变化背后,从应用视角来看,迫切需要整体的系统应用架构,支撑业务突破地域和城市级别的无限可扩展能力。基于蚂蚁对于业务连续性的极致追求,蚂蚁在支撑业务发展过程中,建立起了金融行业超大规模的三地五中心,并沉淀了一套异地多活单元化架构,解决企业在容灾、弹性、灰度方面的三大痛点。

容灾方面,可以支撑企业的数据中心架构彻底从单活走向同城双活、两地三中心、再走向多地多活。一个业务单元发生故障不会影响到另外一个业务单元,从架构本身原生保障了业务的可靠性和连续性。

弹性方面,由于灵活部署和快速扩容机制,能够结合灵活的流量调拨机制,支撑企业的数据中心突破城市和地域级别的扩展,做到真正意义上的无限可扩展。

灰度,结合跨单元的路由分发,可以轻易地做到蓝绿单元这样具有创新的业务灰度方式。

多地多活的架构非常复杂,从上至下包含了四层,从接入层做路由规则和路由分发,到应用层的中间件路由,再到数据层的数据分片和数据路由,最后到运维层的统一容灾、统一监控、单元拓扑。

以金融行业为例,大型银行在主机下移过程中,需要面临的重要课题就是如何将核心系统下沉到分布式集群,在分布式集群下移过程中如何匹配主机系统性能和稳定性,背后很重要的能力就是多地多活架构。

图片

最终,蚂蚁在以上三个核心挑战的实践过程中,沉淀出新一代分布式云 PaaS 平台 SOFAStack。平台在金融行业有非常多的头部客户案例,从原生能力就满足了金融行业远高于其他行业在容量、性能、规模、高可用、合规、降本提效等方面的高标准要求。更重要的是 SOFAStack 来源于金融行业,但不止于金融行业,蚂蚁希望通过 SOFAStack 赋能到更多的行业,完成更多企业的数字化转型。

PART. 3 SOFAStack 未来演进方向

Mesh 的未来会经历三个重要的发展阶段:

第一个阶段,不止是 Service Mesh,还有更多 Mesh 产品形态出现,包括消息 Mesh、缓存 Mesh、DB Mesh 等。在这个阶段,将会帮助企业更轻松地自主掌控异构运行时基础设施;

第二个阶段,在兼容异构运行时基础设施之上,尝试定义社区或者事实的 API 标准,这个标准能让企业拥有统一的编程界面。当企业开发完一个应用,底层的基础设施发生任何变更,对于应用来说都是无感的。在这个阶段的愿景是让应用 build once,run anywhere,一旦应用开发完成,就不再需要做任何变更,可以随时跑在全国任何一个机房的数据中心节点,并且这个节点向上承载的运行时基础设施是可变的;

第三个阶段,如果说前两个阶段是把基础服务范畴端到端下沉到基础设施,在第三个阶段更多要看到的是横向能力的下沉,包括资源调用和系统调用。在这个阶段,将会尝试尽可能把业务应用里更多和业务本身不相关的逻辑下沉到 Sidecar,彻底解放业务开发,让业务开发者关注能力编程,而不需要关注底层,回归业务本位,聚焦业务本身。

最后,蚂蚁集团一直致力于技术架构前瞻性布局和持续创新,会继续在异构基础设施上打磨端到端的可信原生能力。

未来,蚂蚁希望将 SOFAStack 打造成各行各业数字化转型的跨云操作系统。

本周推荐阅读

网商双十一基于 ServiceMesh 技术的业务链路隔离技术及实践

云原生运行时的下一个五年

积跬步至千里:QUIC 协议在蚂蚁集团落地之综述

Service Mesh 在中国工商银行的探索与实践

img

相关文章
|
3月前
|
人工智能 安全 Java
分布式 Multi Agent 安全高可用探索与实践
在人工智能加速发展的今天,AI Agent 正在成为推动“人工智能+”战略落地的核心引擎。无论是技术趋势还是政策导向,都预示着一场深刻的变革正在发生。如果你也在探索 Agent 的应用场景,欢迎关注 AgentScope 项目,或尝试使用阿里云 MSE + Higress + Nacos 构建属于你的 AI 原生应用。一起,走进智能体的新世界。
990 64
|
3月前
|
关系型数据库 Apache 微服务
《聊聊分布式》分布式系统基石:深入理解CAP理论及其工程实践
CAP理论指出分布式系统中一致性、可用性、分区容错性三者不可兼得,必须根据业务需求进行权衡。实际应用中,不同场景选择不同策略:金融系统重一致(CP),社交应用重可用(AP),内网系统可选CA。现代架构更趋向动态调整与混合策略,灵活应对复杂需求。
|
5月前
|
数据采集 消息中间件 监控
单机与分布式:社交媒体热点采集的实践经验
在舆情监控与数据分析中,单机脚本适合小规模采集如微博热榜,而小红书等大规模、高时效性需求则需分布式架构。通过Redis队列、代理IP与多节点协作,可提升采集效率与稳定性,适应数据规模与变化速度。架构选择应根据实际需求,兼顾扩展性与维护成本。
157 2
|
8月前
|
消息中间件 运维 Kafka
直播预告|Kafka+Flink双引擎实战:手把手带你搭建分布式实时分析平台!
在数字化转型中,企业亟需从海量数据中快速提取价值并转化为业务增长动力。5月15日19:00-21:00,阿里云三位技术专家将讲解Kafka与Flink的强强联合方案,帮助企业零门槛构建分布式实时分析平台。此组合广泛应用于实时风控、用户行为追踪等场景,具备高吞吐、弹性扩缩容及亚秒级响应优势。直播适合初学者、开发者和数据工程师,参与还有机会领取定制好礼!扫描海报二维码或点击链接预约直播:[https://developer.aliyun.com/live/255088](https://developer.aliyun.com/live/255088)
609 35
直播预告|Kafka+Flink双引擎实战:手把手带你搭建分布式实时分析平台!
|
8月前
|
人工智能 安全 应用服务中间件
阿里巴巴 MCP 分布式落地实践:快速转换 HSF 到 MCP server
本文分享了阿里巴巴内部将大规模HSF服务快速转换为MCP Server的实践经验,通过Higress网关实现MCP协议卸载,无需修改代码即可接入MCP生态。文章分析了MCP生态面临的挑战,如协议快速迭代和SDK不稳定性,并详细介绍了操作步骤及组件功能。强调MCP虽非终极解决方案,但作为AI业务工程化的起点具有重要意义。最后总结指出,MCP只是AI原生应用发展的第一步,未来还有更多可能性值得探索。
1358 48
|
8月前
|
消息中间件 运维 Kafka
直播预告|Kafka+Flink 双引擎实战:手把手带你搭建分布式实时分析平台!
直播预告|Kafka+Flink 双引擎实战:手把手带你搭建分布式实时分析平台!
266 11
|
4月前
|
消息中间件 监控 Java
Apache Kafka 分布式流处理平台技术详解与实践指南
本文档全面介绍 Apache Kafka 分布式流处理平台的核心概念、架构设计和实践应用。作为高吞吐量、低延迟的分布式消息系统,Kafka 已成为现代数据管道和流处理应用的事实标准。本文将深入探讨其生产者-消费者模型、主题分区机制、副本复制、流处理API等核心机制,帮助开发者构建可靠、可扩展的实时数据流处理系统。
485 4
|
4月前
|
消息中间件 缓存 监控
中间件架构设计与实践:构建高性能分布式系统的核心基石
摘要 本文系统探讨了中间件技术及其在分布式系统中的核心价值。作者首先定义了中间件作为连接系统组件的"神经网络",强调其在数据传输、系统稳定性和扩展性中的关键作用。随后详细分类了中间件体系,包括通信中间件(如RabbitMQ/Kafka)、数据中间件(如Redis/MyCAT)等类型。文章重点剖析了消息中间件的实现机制,通过Spring Boot代码示例展示了消息生产者的完整实现,涵盖消息ID生成、持久化、批量发送及重试机制等关键技术点。最后,作者指出中间件架构设计对系统性能的决定性影响,
|
8月前
|
监控 Linux 应用服务中间件
Linux多节点多硬盘部署MinIO:分布式MinIO集群部署指南搭建高可用架构实践
通过以上步骤,已成功基于已有的 MinIO 服务,扩展为一个 MinIO 集群。该集群具有高可用性和容错性,适合生产环境使用。如果有任何问题,请检查日志或参考MinIO 官方文档。作者联系方式vx:2743642415。
3003 57
|
8月前
|
安全 JavaScript 前端开发
HarmonyOS NEXT~HarmonyOS 语言仓颉:下一代分布式开发语言的技术解析与应用实践
HarmonyOS语言仓颉是华为专为HarmonyOS生态系统设计的新型编程语言,旨在解决分布式环境下的开发挑战。它以“编码创造”为理念,具备分布式原生、高性能与高效率、安全可靠三大核心特性。仓颉语言通过内置分布式能力简化跨设备开发,提供统一的编程模型和开发体验。文章从语言基础、关键特性、开发实践及未来展望四个方面剖析其技术优势,助力开发者掌握这一新兴工具,构建全场景分布式应用。
837 35