近日,中国信息通信研究院分布式系统稳定性实验室正式发布了《信息系统稳定性保障能力建设指南》(以下简称《指南》)。蚂蚁集团应邀深度参与了《指南》的研讨编制,该指南收录了包括蚂蚁集团在内的多家知名机构在系统稳定性保障服务方面的优秀案例,旨在为各行业提升系统稳定性能力提供参考。
随着各领域数字化转型的推进,信息系统的应用范围不断扩大、承载业务愈发关键,用户的高频访问成为常态。面对使用需求的不断增长,大多数信息系统通过分布式架构改造、DevOps体系建设、大量引入开源技术来不断突破自身处理能力上限,这些措施引入导致了信息系统架构复杂性呈指数上升,显著增加了稳定性风险。与此同时,信息系统的稳定性也受到国家高度重视,2021年出台的《关键信息基础设施安全保护条例》,就对我国关键信息基础设施的稳定性保障工作提出了明确要求。
在此背景下,《信息系统稳定性保障能力建设指南》应运而生。作为国内首个全方位梳理总结稳定性保障相关实践经验、方法论的研究成果,指南梳理了新阶段下信息系统稳定性保障能力建设工作的相关背景、基本原则、关键要素、核心能力以及评价体系,探讨了稳定性保障工作的未来发展趋势。
《指南》认为,信息系统是各行业的基础设施,而互联网技术的高速发展为系统稳定性带来了诸多新挑战,其中分布式系统面临着更高的稳定性风险。为此,指南开创性地提出了数字化时代下的信息系统稳定性保障体系,共包含“两个总体原则、三个关键要素、四类核心能力、五项重要工作”。
不仅如此,为帮助各行业完善系统稳定性保障体系,《指南》征集收录了多个信息系统稳定性最佳实践案例,其中蚂蚁集团稳定性保障体系被收录在互联网行业案例。
蚂蚁集团主要以支付宝客户端提供支付、理财、保险等业务,服务十亿级用户,业务场景复杂度高,同时涉及金融相关业务,因此对稳定性要求极高。伴随着业务的多年发展,蚂蚁集团逐渐建立稳定性保障方面的问题解决方案和风险防控体系TRaaS(Technological Risk-defense as a Service)。TRaaS关注整个研发运维过程可能产生的稳定性风险,从流程制度、文化宣导、技术方案、平台体系多个方面提供稳定性风险防控方案,实现风险的主动发现和自我恢复能力,助力业务高质量增长。
简单来说,TRaaS 是把支付宝整个分布式架构和技术风险能力组合在一起的免疫系统,将高可用和资金安全能力结合AIOps,使系统实现故障自愈。此外,TRaaS还具备以下六大特性:
- 统一变更管控,智能变更风险防御;
- 基于chatops的标准SOP故障管理,精细化应急定位辅助;
- 智能资源容量调度,实现稳定性和成本最优平衡;
- 万亿级资金证账实智能实时核对;
- 大规模混沌工程驱动稳定性技术演进,技术风险文化宣导;
- AIOps在可控风险下提升运维效率;
事实上,TRaaS 诞生于蚂蚁集团超大规模系统的实战经验之中,是在经历了严酷的“双十一”等千锤百炼的考验下一步一步逐渐成长起来的技术风险防控平台,保障了内部超大规模系统的稳定性。
蚂蚁技术风险总架构李铮表示,过去十几年,因为对系统稳定和安全的重视,蚂蚁集团已经累计了无数的经验和技术。TRaaS是蚂蚁在内部大规模复杂业务中多年积累和打磨的技术风险平台能力。未来,我们将逐步开放更多技术和产品,帮助各方构建稳定的数字化系统。
目前,蚂蚁集团TRaaS技术风险防控平台正通过商业化及开源项目等形式对外输出,蚂蚁希望将自身在技术风险防控中的平台积累及实践经验分享给各行业的合作伙伴,让伙伴们能通力合作、共享风险保障技术,一起为企业系统稳定性保驾护航。