蚂蚁集团TRaaS技术风险防控平台入选中国信通院《信息系统稳定性保障能力建设指南(1.0)》最佳实践案例

简介: 近日,中国信息通信研究院分布式系统稳定性实验室正式发布了《信息系统稳定性保障能力建设指南》(以下简称《指南》)。蚂蚁集团应邀深度参与了《指南》的研讨编制,该指南收录了包括蚂蚁集团在内的多家知名机构在系统稳定性保障服务方面的优秀案例,旨在为各行业提升系统稳定性能力提供参考。

4.png

近日,中国信息通信研究院分布式系统稳定性实验室正式发布了《信息系统稳定性保障能力建设指南》(以下简称《指南》)。蚂蚁集团应邀深度参与了《指南》的研讨编制,该指南收录了包括蚂蚁集团在内的多家知名机构在系统稳定性保障服务方面的优秀案例,旨在为各行业提升系统稳定性能力提供参考。

随着各领域数字化转型的推进,信息系统的应用范围不断扩大、承载业务愈发关键,用户的高频访问成为常态。面对使用需求的不断增长,大多数信息系统通过分布式架构改造、DevOps体系建设、大量引入开源技术来不断突破自身处理能力上限,这些措施引入导致了信息系统架构复杂性呈指数上升,显著增加了稳定性风险。与此同时,信息系统的稳定性也受到国家高度重视,2021年出台的《关键信息基础设施安全保护条例》,就对我国关键信息基础设施的稳定性保障工作提出了明确要求。

在此背景下,《信息系统稳定性保障能力建设指南》应运而生。作为国内首个全方位梳理总结稳定性保障相关实践经验、方法论的研究成果,指南梳理了新阶段下信息系统稳定性保障能力建设工作的相关背景、基本原则、关键要素、核心能力以及评价体系,探讨了稳定性保障工作的未来发展趋势。

1.png

《指南》认为,信息系统是各行业的基础设施,而互联网技术的高速发展为系统稳定性带来了诸多新挑战,其中分布式系统面临着更高的稳定性风险。为此,指南开创性地提出了数字化时代下的信息系统稳定性保障体系,共包含“两个总体原则、三个关键要素、四类核心能力、五项重要工作”。

2.png

不仅如此,为帮助各行业完善系统稳定性保障体系,《指南》征集收录了多个信息系统稳定性最佳实践案例,其中蚂蚁集团稳定性保障体系被收录在互联网行业案例。

蚂蚁集团主要以支付宝客户端提供支付、理财、保险等业务,服务十亿级用户,业务场景复杂度高,同时涉及金融相关业务,因此对稳定性要求极高。伴随着业务的多年发展,蚂蚁集团逐渐建立稳定性保障方面的问题解决方案和风险防控体系TRaaS(Technological Risk-defense as a Service)。TRaaS关注整个研发运维过程可能产生的稳定性风险,从流程制度、文化宣导、技术方案、平台体系多个方面提供稳定性风险防控方案,实现风险的主动发现和自我恢复能力,助力业务高质量增长。

图片 1.png

简单来说,TRaaS 是把支付宝整个分布式架构和技术风险能力组合在一起的免疫系统,将高可用和资金安全能力结合AIOps,使系统实现故障自愈。此外,TRaaS还具备以下六大特性:

  • 统一变更管控,智能变更风险防御;
  • 基于chatops的标准SOP故障管理,精细化应急定位辅助;
  • 智能资源容量调度,实现稳定性和成本最优平衡;
  • 万亿级资金证账实智能实时核对;
  • 大规模混沌工程驱动稳定性技术演进,技术风险文化宣导;
  • AIOps在可控风险下提升运维效率;

事实上,TRaaS 诞生于蚂蚁集团超大规模系统的实战经验之中,是在经历了严酷的“双十一”等千锤百炼的考验下一步一步逐渐成长起来的技术风险防控平台,保障了内部超大规模系统的稳定性。

蚂蚁技术风险总架构李铮表示,过去十几年,因为对系统稳定和安全的重视,蚂蚁集团已经累计了无数的经验和技术。TRaaS是蚂蚁在内部大规模复杂业务中多年积累和打磨的技术风险平台能力。未来,我们将逐步开放更多技术和产品,帮助各方构建稳定的数字化系统。

目前,蚂蚁集团TRaaS技术风险防控平台正通过商业化及开源项目等形式对外输出,蚂蚁希望将自身在技术风险防控中的平台积累及实践经验分享给各行业的合作伙伴,让伙伴们能通力合作、共享风险保障技术,一起为企业系统稳定性保驾护航。

相关文章
|
运维 监控 算法
稳定性保障6步走:高可用系统大促作战指南!
年年有大促,大家对于大促稳定性保障这个词都不陌生,业务场景尽管各不相同,“套路”往往殊路同归,全链路压测、容量评估、限流、紧急预案等,来来去去总少不了那么几板斧。跳出这些“套路”,回到问题的本质,我们为什么要按照这些策略来做?除了口口相传的历史经验,我们还能做些什么?又有什么理论依据?
稳定性保障6步走:高可用系统大促作战指南!
|
人工智能 开发框架 Java
重磅发布!AI 驱动的 Java 开发框架:Spring AI Alibaba
随着生成式 AI 的快速发展,基于 AI 开发框架构建 AI 应用的诉求迅速增长,涌现出了包括 LangChain、LlamaIndex 等开发框架,但大部分框架只提供了 Python 语言的实现。但这些开发框架对于国内习惯了 Spring 开发范式的 Java 开发者而言,并非十分友好和丝滑。因此,我们基于 Spring AI 发布并快速演进 Spring AI Alibaba,通过提供一种方便的 API 抽象,帮助 Java 开发者简化 AI 应用的开发。同时,提供了完整的开源配套,包括可观测、网关、消息队列、配置中心等。
7424 124
|
人工智能 运维 监控
独家 | 蚂蚁金服TRaaS技术风险防控平台解密
蚂蚁金服技术风险防控平台TRaaS的前世今生。
6014 0
|
SQL 数据采集 运维
蚂蚁第三代混沌工程助力风险防控提升
蚂蚁第三代混沌工程助力风险防控提升
2872 1
蚂蚁第三代混沌工程助力风险防控提升
|
机器学习/深度学习 人工智能 自然语言处理
人工智能(AI)在决策支持系统(DSS)中的作用变得越来越重要
人工智能(AI)在决策支持系统(DSS)中的作用变得越来越重要
|
自然语言处理 Kubernetes 监控
ChaosBlade:从混沌工程实验工具到混沌工程平台
ChaosBlade 是阿里巴巴 2019 年开源的混沌工程项目,已加入到 CNCF Sandbox 中。起初包含面向多环境、多语言的混沌工程实验工具 ChaosBlade,到现在发展到面向多集群、多环境、多语言的混沌工程平台 chaosblade-box,平台支持实验工具托管和工具自动化部署,通过统一用户实验界面,将用户的精力聚焦在通过混沌工程解决云原生过程中高可用问题上。本文从混沌实验模型抽象、混沌实验工具开源和混沌工程平台升级项目三阶段出发,详细介绍 ChaosBlade。
821 84
ChaosBlade:从混沌工程实验工具到混沌工程平台
|
存储 运维 监控
蚂蚁超大规模分布式系统稳定性体系实践
大规模分布式系统的稳定性建设,是确保业务服务不受硬件、人为等风险因素影响而中断的核心工作,随着业务规模增大和复杂度的提升,系统稳定性的重要程度和难度也随之增大。在蚂蚁集团业务发展过程中,业务复杂度、用户规模以及业务重要性都逐步增大,相应的稳定性建设也伴随着业务的发展进行了不断地建设和提升。
2628 1
蚂蚁超大规模分布式系统稳定性体系实践
|
算法 BI
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.2故障分体系
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.2故障分体系
551 0
|
SQL 监控 专有云
分布式服务架构下的混沌工程实践
本文来自阿里巴巴高可用架构团队高级开发工程师肖长军(花名穹谷)在 GIAC(全球互联网架构大会)上的分享,包含三部分内容:(阿里巴巴中间件公众号对话框发送“混沌工程”,获取分享PPT) 混沌工程的定义、价值、原则和流程; 混沌工程如何在企业中落地,以及 ChaosBlade 和混沌实验平台 AHAS Chaos 架构设计; 结合两个具体案例介绍了分布式服务下的混沌工程实践; 大家好,我是来自阿里的肖长军,今天给大家分享混沌工程在分布式服务架构下的具体实践。
22128 121
|
监控 Java 编译器
【jvm系列-13】jvm性能调优篇---参数设置以及日志分析
【jvm系列-13】jvm性能调优篇---参数设置以及日志分析
1013 0