蚂蚁集团TRaaS技术风险防控平台入选中国信通院《信息系统稳定性保障能力建设指南(1.0)》最佳实践案例

简介: 近日,中国信息通信研究院分布式系统稳定性实验室正式发布了《信息系统稳定性保障能力建设指南》(以下简称《指南》)。蚂蚁集团应邀深度参与了《指南》的研讨编制,该指南收录了包括蚂蚁集团在内的多家知名机构在系统稳定性保障服务方面的优秀案例,旨在为各行业提升系统稳定性能力提供参考。

4.png

近日,中国信息通信研究院分布式系统稳定性实验室正式发布了《信息系统稳定性保障能力建设指南》(以下简称《指南》)。蚂蚁集团应邀深度参与了《指南》的研讨编制,该指南收录了包括蚂蚁集团在内的多家知名机构在系统稳定性保障服务方面的优秀案例,旨在为各行业提升系统稳定性能力提供参考。

随着各领域数字化转型的推进,信息系统的应用范围不断扩大、承载业务愈发关键,用户的高频访问成为常态。面对使用需求的不断增长,大多数信息系统通过分布式架构改造、DevOps体系建设、大量引入开源技术来不断突破自身处理能力上限,这些措施引入导致了信息系统架构复杂性呈指数上升,显著增加了稳定性风险。与此同时,信息系统的稳定性也受到国家高度重视,2021年出台的《关键信息基础设施安全保护条例》,就对我国关键信息基础设施的稳定性保障工作提出了明确要求。

在此背景下,《信息系统稳定性保障能力建设指南》应运而生。作为国内首个全方位梳理总结稳定性保障相关实践经验、方法论的研究成果,指南梳理了新阶段下信息系统稳定性保障能力建设工作的相关背景、基本原则、关键要素、核心能力以及评价体系,探讨了稳定性保障工作的未来发展趋势。

1.png

《指南》认为,信息系统是各行业的基础设施,而互联网技术的高速发展为系统稳定性带来了诸多新挑战,其中分布式系统面临着更高的稳定性风险。为此,指南开创性地提出了数字化时代下的信息系统稳定性保障体系,共包含“两个总体原则、三个关键要素、四类核心能力、五项重要工作”。

2.png

不仅如此,为帮助各行业完善系统稳定性保障体系,《指南》征集收录了多个信息系统稳定性最佳实践案例,其中蚂蚁集团稳定性保障体系被收录在互联网行业案例。

蚂蚁集团主要以支付宝客户端提供支付、理财、保险等业务,服务十亿级用户,业务场景复杂度高,同时涉及金融相关业务,因此对稳定性要求极高。伴随着业务的多年发展,蚂蚁集团逐渐建立稳定性保障方面的问题解决方案和风险防控体系TRaaS(Technological Risk-defense as a Service)。TRaaS关注整个研发运维过程可能产生的稳定性风险,从流程制度、文化宣导、技术方案、平台体系多个方面提供稳定性风险防控方案,实现风险的主动发现和自我恢复能力,助力业务高质量增长。

图片 1.png

简单来说,TRaaS 是把支付宝整个分布式架构和技术风险能力组合在一起的免疫系统,将高可用和资金安全能力结合AIOps,使系统实现故障自愈。此外,TRaaS还具备以下六大特性:

  • 统一变更管控,智能变更风险防御;
  • 基于chatops的标准SOP故障管理,精细化应急定位辅助;
  • 智能资源容量调度,实现稳定性和成本最优平衡;
  • 万亿级资金证账实智能实时核对;
  • 大规模混沌工程驱动稳定性技术演进,技术风险文化宣导;
  • AIOps在可控风险下提升运维效率;

事实上,TRaaS 诞生于蚂蚁集团超大规模系统的实战经验之中,是在经历了严酷的“双十一”等千锤百炼的考验下一步一步逐渐成长起来的技术风险防控平台,保障了内部超大规模系统的稳定性。

蚂蚁技术风险总架构李铮表示,过去十几年,因为对系统稳定和安全的重视,蚂蚁集团已经累计了无数的经验和技术。TRaaS是蚂蚁在内部大规模复杂业务中多年积累和打磨的技术风险平台能力。未来,我们将逐步开放更多技术和产品,帮助各方构建稳定的数字化系统。

目前,蚂蚁集团TRaaS技术风险防控平台正通过商业化及开源项目等形式对外输出,蚂蚁希望将自身在技术风险防控中的平台积累及实践经验分享给各行业的合作伙伴,让伙伴们能通力合作、共享风险保障技术,一起为企业系统稳定性保驾护航。

相关文章
|
消息中间件 缓存 监控
系统稳定性建设实践总结
2020年,注定是个不平凡的一年。疫情的蔓延打乱了大家既定的原有的计划,同时也催生了一些在线业务办理能力的应用诉求,作为技术同学,需要在短时间内快速支持建设系统能力并保障其运行系统稳定性。恰逢年终月份,正好梳理总结下自己的系统稳定性建设经验和思考。
系统稳定性建设实践总结
|
运维 监控 算法
稳定性保障6步走:高可用系统大促作战指南!
年年有大促,大家对于大促稳定性保障这个词都不陌生,业务场景尽管各不相同,“套路”往往殊路同归,全链路压测、容量评估、限流、紧急预案等,来来去去总少不了那么几板斧。跳出这些“套路”,回到问题的本质,我们为什么要按照这些策略来做?除了口口相传的历史经验,我们还能做些什么?又有什么理论依据?
稳定性保障6步走:高可用系统大促作战指南!
|
人工智能 开发框架 Java
重磅发布!AI 驱动的 Java 开发框架:Spring AI Alibaba
随着生成式 AI 的快速发展,基于 AI 开发框架构建 AI 应用的诉求迅速增长,涌现出了包括 LangChain、LlamaIndex 等开发框架,但大部分框架只提供了 Python 语言的实现。但这些开发框架对于国内习惯了 Spring 开发范式的 Java 开发者而言,并非十分友好和丝滑。因此,我们基于 Spring AI 发布并快速演进 Spring AI Alibaba,通过提供一种方便的 API 抽象,帮助 Java 开发者简化 AI 应用的开发。同时,提供了完整的开源配套,包括可观测、网关、消息队列、配置中心等。
7087 123
|
人工智能 运维 监控
独家 | 蚂蚁金服TRaaS技术风险防控平台解密
蚂蚁金服技术风险防控平台TRaaS的前世今生。
5993 0
|
机器学习/深度学习 人工智能 自然语言处理
人工智能(AI)在决策支持系统(DSS)中的作用变得越来越重要
人工智能(AI)在决策支持系统(DSS)中的作用变得越来越重要
十年磨一剑:蚂蚁集团可观测性平台 AntMonitor 揭秘
蚂蚁集团的业务种类繁多,兼具金融级的“稳” 和互联网的 “快”,支撑又快又稳的业务发展需要完善的稳定性保障体系, 这个体系的基石就是可观测性平台-AntMonitor 。 早在2011年前,监控平台就已经完成初代建设,在2012到2017年这五年间,蚂蚁监控技术团队抽象出了业务视角监控牵引的模式,大大提升了核心业务的故障发现能力,同期研发了可视化引擎与易用的配置系统。为了支撑双11等大规模海量计算场景,在底层数据技术上做到了实时稳定的大规模日志和指标处理能力。随着这些能力的完成,可观测平台的产品也逐渐成熟。
|
SQL 数据采集 运维
蚂蚁第三代混沌工程助力风险防控提升
蚂蚁第三代混沌工程助力风险防控提升
2765 1
蚂蚁第三代混沌工程助力风险防控提升
|
自然语言处理 Kubernetes 监控
ChaosBlade:从混沌工程实验工具到混沌工程平台
ChaosBlade 是阿里巴巴 2019 年开源的混沌工程项目,已加入到 CNCF Sandbox 中。起初包含面向多环境、多语言的混沌工程实验工具 ChaosBlade,到现在发展到面向多集群、多环境、多语言的混沌工程平台 chaosblade-box,平台支持实验工具托管和工具自动化部署,通过统一用户实验界面,将用户的精力聚焦在通过混沌工程解决云原生过程中高可用问题上。本文从混沌实验模型抽象、混沌实验工具开源和混沌工程平台升级项目三阶段出发,详细介绍 ChaosBlade。
805 81
ChaosBlade:从混沌工程实验工具到混沌工程平台
|
算法 BI
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.2故障分体系
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.2故障分体系
538 0
|
监控 Java 编译器
【jvm系列-13】jvm性能调优篇---参数设置以及日志分析
【jvm系列-13】jvm性能调优篇---参数设置以及日志分析
931 0