蚂蚁集团TRaaS技术风险防控平台入选中国信通院《信息系统稳定性保障能力建设指南(1.0)》最佳实践案例

简介: 近日,中国信息通信研究院分布式系统稳定性实验室正式发布了《信息系统稳定性保障能力建设指南》(以下简称《指南》)。蚂蚁集团应邀深度参与了《指南》的研讨编制,该指南收录了包括蚂蚁集团在内的多家知名机构在系统稳定性保障服务方面的优秀案例,旨在为各行业提升系统稳定性能力提供参考。

4.png

近日,中国信息通信研究院分布式系统稳定性实验室正式发布了《信息系统稳定性保障能力建设指南》(以下简称《指南》)。蚂蚁集团应邀深度参与了《指南》的研讨编制,该指南收录了包括蚂蚁集团在内的多家知名机构在系统稳定性保障服务方面的优秀案例,旨在为各行业提升系统稳定性能力提供参考。

随着各领域数字化转型的推进,信息系统的应用范围不断扩大、承载业务愈发关键,用户的高频访问成为常态。面对使用需求的不断增长,大多数信息系统通过分布式架构改造、DevOps体系建设、大量引入开源技术来不断突破自身处理能力上限,这些措施引入导致了信息系统架构复杂性呈指数上升,显著增加了稳定性风险。与此同时,信息系统的稳定性也受到国家高度重视,2021年出台的《关键信息基础设施安全保护条例》,就对我国关键信息基础设施的稳定性保障工作提出了明确要求。

在此背景下,《信息系统稳定性保障能力建设指南》应运而生。作为国内首个全方位梳理总结稳定性保障相关实践经验、方法论的研究成果,指南梳理了新阶段下信息系统稳定性保障能力建设工作的相关背景、基本原则、关键要素、核心能力以及评价体系,探讨了稳定性保障工作的未来发展趋势。

1.png

《指南》认为,信息系统是各行业的基础设施,而互联网技术的高速发展为系统稳定性带来了诸多新挑战,其中分布式系统面临着更高的稳定性风险。为此,指南开创性地提出了数字化时代下的信息系统稳定性保障体系,共包含“两个总体原则、三个关键要素、四类核心能力、五项重要工作”。

2.png

不仅如此,为帮助各行业完善系统稳定性保障体系,《指南》征集收录了多个信息系统稳定性最佳实践案例,其中蚂蚁集团稳定性保障体系被收录在互联网行业案例。

蚂蚁集团主要以支付宝客户端提供支付、理财、保险等业务,服务十亿级用户,业务场景复杂度高,同时涉及金融相关业务,因此对稳定性要求极高。伴随着业务的多年发展,蚂蚁集团逐渐建立稳定性保障方面的问题解决方案和风险防控体系TRaaS(Technological Risk-defense as a Service)。TRaaS关注整个研发运维过程可能产生的稳定性风险,从流程制度、文化宣导、技术方案、平台体系多个方面提供稳定性风险防控方案,实现风险的主动发现和自我恢复能力,助力业务高质量增长。

图片 1.png

简单来说,TRaaS 是把支付宝整个分布式架构和技术风险能力组合在一起的免疫系统,将高可用和资金安全能力结合AIOps,使系统实现故障自愈。此外,TRaaS还具备以下六大特性:

  • 统一变更管控,智能变更风险防御;
  • 基于chatops的标准SOP故障管理,精细化应急定位辅助;
  • 智能资源容量调度,实现稳定性和成本最优平衡;
  • 万亿级资金证账实智能实时核对;
  • 大规模混沌工程驱动稳定性技术演进,技术风险文化宣导;
  • AIOps在可控风险下提升运维效率;

事实上,TRaaS 诞生于蚂蚁集团超大规模系统的实战经验之中,是在经历了严酷的“双十一”等千锤百炼的考验下一步一步逐渐成长起来的技术风险防控平台,保障了内部超大规模系统的稳定性。

蚂蚁技术风险总架构李铮表示,过去十几年,因为对系统稳定和安全的重视,蚂蚁集团已经累计了无数的经验和技术。TRaaS是蚂蚁在内部大规模复杂业务中多年积累和打磨的技术风险平台能力。未来,我们将逐步开放更多技术和产品,帮助各方构建稳定的数字化系统。

目前,蚂蚁集团TRaaS技术风险防控平台正通过商业化及开源项目等形式对外输出,蚂蚁希望将自身在技术风险防控中的平台积累及实践经验分享给各行业的合作伙伴,让伙伴们能通力合作、共享风险保障技术,一起为企业系统稳定性保驾护航。

相关文章
|
设计模式 架构师 大数据
我的架构师之路——阿里云 MVP 沈剑
沈剑,公众号“架构师之路”的作者,曾任百度高级工程师和58同城高级架构师、技术委员会主席、技术学院优秀讲师,现为到家集团技术委员会主席和技术VP,同时也是快狗打车(原58速运)的CTO。本文是沈剑老师在阿里云的直播中分享的一些自己关于架构师的看法和成为架构师的心路历程的第一部分。
7524 0
我的架构师之路——阿里云 MVP 沈剑
|
7月前
|
人工智能 缓存 供应链
森马如何用阿里云 AI 网关,轻松实现“AI+业务”高效落地
森马快速实现 AI 转型,通过阿里云 AI 网关(即 Higress 企业版)及注册配置中心 Nacos3.0 实现了多模型多 MCP server 统一接入统一管理统一配置,将存量服务一键转换为 MCP server,使 AI 与生产业务相结合,综合提效 30%。
978 67
|
1月前
|
人工智能 自然语言处理 监控
AI Agent 会写代码后,为什么更需要 Harness Engineering?
过去一年,AI从写函数跃升为参与全流程研发,但随之而来的是交付失控风险。Harness Engineering应运而生——它不是新提示词,而是构建可约束、可校验、可协作的AI工程系统,让智能体真正融入研发质量闭环。
|
5月前
|
人工智能 程序员 API
2026 AI 元年:从“单兵作战”到“智能体集群”,程序员的生存与重构
2026 年是真正的“AI Agent 元年”。大模型已从单一的文本生成进化为具备自主执行能力的“智能体集群”。本文将深度解析中国 AI 产业在这一进程中的技术贡献,探讨开发者如何从底层代码编写者转型为智能体编排专家,并揭示未来三年的行业重构路径。
617 1
|
6月前
|
运维 Prometheus 监控
运维不是救火队
运维不是救火队
282 6
|
5月前
|
数据采集 人工智能 监控
AI智能体是刚需还是噱头?3大争议辨真相
AI智能体赛道冰火两重天:微软豪掷百亿押注,Cerebras却黯然退场。资本狂热背后,是生产力革命还是泡沫?西门子、蚂蚁等落地案例展现潜力,但多数企业困于集成成本与技术瓶颈。低代码平台降低门槛,也引发生态锁死担忧。短期ROI难算清,长期价值需战略定力。智能体不是万能药,唯有回归业务本质,方能穿越 hype,走向真正落地。
256 0
|
存储 安全 区块链
去中心化存储:数据存储的新范式
去中心化存储:数据存储的新范式
873 91
|
人工智能 运维 监控
独家 | 蚂蚁金服TRaaS技术风险防控平台解密
蚂蚁金服技术风险防控平台TRaaS的前世今生。
6321 0
|
机器学习/深度学习 数据采集 人工智能
人工智能在变更管理中的应用:变革的智能化之路
人工智能在变更管理中的应用:变革的智能化之路
712 13
|
Java Linux Maven
Maven 仓库
Maven仓库管理依赖,包括本地、中央和远程仓库。本地仓库在首次运行时创建,默认位于用户目录的`.m2/repository`。若本地缺少构件,Maven会从远程仓库下载,中央仓库是默认的远程源,包含大量开源Java构件。中央仓库无需配置,可通过HTTP访问,[search.maven.org](http://search.maven.org/#browse)可浏览其内容。

热门文章

最新文章