阿里云故障演练平台获得可信云最高等级认证,为企业数字韧性能力保驾护航

本文涉及的产品
云原生网关 MSE Higress,422元/月
注册配置 MSE Nacos/ZooKeeper,182元/月
任务调度 XXL-JOB 版免费试用,400 元额度,开发版规格
简介: 7月27日,2021可信云大会在北京召开。会上,阿里云故障演练平台入选可信云最佳技术实践,并首批通过可信云混沌工程平台能力要求最高等级-先进级认证。同时,由信通院牵头,阿里云计算有限公司联合多家企业共同发起的“混沌工程实验室”宣布成立。

7月27日,2021可信云大会在北京召开。会上,阿里云故障演练平台入选可信云最佳技术实践,并首批通过可信云混沌工程平台能力要求最高等级-先进级认证。同时,由信通院牵头,阿里云计算有限公司联合多家企业共同发起的“混沌工程实验室”宣布成立。


AD4AEA94-497D-4AE5-92B1-CDC5B5858D29.png


双项认证,阿里云故障演练平台获可信云最高等级认证


随着企业对于云计算的理解和实践不断深入,基于云计算的分布式架构成为越来越多企业应用构建的首选方案,如何通过混沌工程提升云原生系统稳定性和保障业务连续性成为业内普遍关注的话题。


混沌工程是主要通过故障注入的方式,提前发现系统稳定性等问题,旨在提升系统和组织韧性,打造韧性的架构,保障业务连续性。在信通院可信云混沌工程平台测评中,阿里云故障演练平台以最高分成绩通过资源支持、故障场景、场景管理、实验流程、实验防护、实验度量、权限管理、安全审计等8项能力测评,并入选2021可信云最佳技术实践,双项认证,再一次证明了阿里云在混沌工程领域的技术和产品实力。


image.jpeg


故障演练随着阿里巴巴系统架构从微服务,到容器化,再到云原生一起发展,内部已有近10年的混沌工程落地实践经验。阿里云故障演练平台将阿里巴巴内部的实践经验以产品化的方式对外输出,提供丰富的实验场景和专家经验库、领域化的解决方案,满足用户的故障场景需求,在灵活的流程编排和开放的集成能力下,提供监控、报告等实现混沌工程实施闭环,通过权限管控和演练防护来控制故障演练的风险,帮助企业在云迁移、云就绪、云原生过程中提升系统稳定性和业务连续性。


1.png


自混沌工程理论提出以来,很多企业在探索和实践,但落地形式不同,阿里云故障演练平台有何不同?


  • 灵活的流程编排:制订了一套标准化的演练流程,在此基础上可以添加所需的流程节点。同时支持多场景的运行方式。


  • 可视化故障演练:与架构感知集成,在架构拓扑可视化的基础上,实现故障注入,同时可以配合架构巡检,发现系统风险点,使用故障演练进行验证。


  • 多样的专家经验库:将阿里巴巴内部多年的故障演练经验沉淀到演练模板中,具备演练场景的真实性和实用性,极大的提升演练创建的效率,同时解决用户上手混沌工程难的问题。


  • 领域化的解决方案:提供对服务组件、系统架构等稳定性验证的产品化解决方案,通过架构感知、依赖分析等动态识别组件和架构,自动生成演练方案,达到快、准、全的演练目的。


使用故障演练平台做混沌工程,可以衡量微服务的容错能力,估算系统容错红线,衡量系统容错能力。并且,故障演练平台可以验证容器编排配置是否合理,测试PaaS层是否健壮,验证监控告警的时效性,提升监控告警的准确和时效性。通过故障突袭,随机对系统注入故障,考察相关人员对问题的应急能力,以及问题上报、处理流程是否合理,达到以战养战,锻炼人定位与解决问题的能力。通过故障注入的方式,提前发现系统稳定性等问题,旨在提升系统和组织韧性,打造韧性的架构,保障业务连续性。


阿里云故障演练平台自2019年商业化以来,通过多样化的实验工具,自动化的工具部署,多维度的演练方式,灵活的流程编排,丰富的故障场景,实用的演练模板,专业的解决方案,安全的演练防护,深度的云产品集成,已经拥有近千个企业客户,服务了包括华泰证券、比心科技、亲宝宝等客户,助力企业在云原生时代构建数字韧性能力。


推动标准统一,打造ChaosBlade 开源工具,缩短构建混沌工程路径


近几年,越来越多的企业开始关注并探索混沌工程,渐渐成为测试系统高可用,构建对系统信息不可缺少的工具。但混沌工程领域目前还处于一个快速演进的阶段,最佳实践和工具框架没有统一标准。实施混沌工程可能会带来一些潜在的业务风险,经验和工具的缺失也将进一步阻止 DevOps 人员实施混沌工程。混沌工程领域目前也有很多优秀的开源工具,分别覆盖某个领域,但这些工具的使用方式千差万别,其中有些工具上手难度大,学习成本高,混沌实验能力单一,使很多人对混沌工程领域望而却步。


阿里巴巴集团在混沌工程领域已经实践多年,为了帮助企业更好地构建混沌工程路径,阿里巴巴在2019年开源了混沌工程项目 ChaosBlade,并在今年成为 CNCF Sandbox 项目。将"自研技术"、"开源项目"、"商业产品"形成统一的技术体系,阿里云通过三位一体的正向循环,实现了技术价值的最大化。


ChaosBlade 是一款遵循混沌工程原理的开源工具,包含混沌工程实验工具 chaosblade 和混沌工程平台 chaosblade-box,旨在通过混沌工程帮助企业解决云原生过程中高可用问题。实验工具 chaosblade 支持 3 大系统平台,4 种编程语言应用,共涉及 200 多个实验场景,3000 多个实验参数,可以精细化地控制实验范围。ChaosBlade 已成为阿里云故障演练平台基础能力底座服务众多企业客户。


2.png


未来,ChaosBlade 将继续以云原生为基础,提供面向多集群、多环境、多语言的混沌工程平台和混沌工程实验工具;后续会托管更多的混沌实验工具和兼容主流的平台,实现场景推荐,提供业务、系统监控集成,输出实验报告,在易用的基础上完成混沌工程操作闭环。


业内首个混沌工程实验室正式成立,推动混沌工程实践落地


在数字化产业对系统稳定性和云计算高可用要求越来越高的大背景下,由中国信通院牵头,阿里云等众多企业共同参与的混沌工程实验室正式成立。混沌工程实验室将推动混沌工程在各领域典型应用场景中的实践落地,联动云计算上下游企业来共同推进混沌工程快速发展。


阿里云拥有国内最丰富的混沌工程实践经验,并致力于打造云原生时代的混沌工程标准体系。阿里云在海量互联网服务以及历年双11场景的实践过程中,沉淀出了包括全链路压测、线上流量管控、故障演练等高可用核心技术,并通过开源和云上服务的形式对外输出,以帮助企业用户和开发者享受技术红利,提高开发效率,缩短业务的构建流程。  

相关文章
|
Kubernetes 监控 Cloud Native
首批+最佳!阿里云云原生以最高分通过6项可信云测评认证
在2021年可信云大会中,中国信通院公布了多项可信云认证的评估结果。阿里云原生在可信云最佳实践中斩获三项大奖,在专业能力测评中更是拿到了一系列首批通过的先进级认证!
|
4月前
|
机器学习/深度学习 传感器 搜索推荐
《洞察因果本质:解锁智能体大模型精准预测的底层逻辑》
因果表征学习作为新兴领域,致力于挖掘数据背后的因果结构,突破传统基于相关性的表征学习局限,为智能体大模型提供更精准的预测能力。通过揭示数据生成机制、打破相关性局限和整合多源信息,它在工业故障预测、农业产量优化、电商推荐等领域展现巨大潜力。尽管面临数据挖掘与框架融合等挑战,但其未来前景广阔,有望推动医疗、金融、智慧城市等多领域实现更深层次的理解与决策优化。
126 11
|
10月前
|
负载均衡 监控 开发者
深入浅出:掌握 Docker Compose 的高级用法
【10月更文挑战第22天】本文深入探讨了 Docker Compose 的高级用法,包括环境变量、服务扩展、网络配置和数据卷管理。通过实例详细介绍了如何利用这些功能提升开发效率和应用部署的灵活性。适合希望深入了解 Docker Compose 的开发者阅读。
|
11月前
|
监控 测试技术 项目管理
减少技术债务的8个KPI
减少技术债务的8个KPI
|
11月前
|
前端开发 JavaScript API
React进阶高级指南(一)
React进阶高级指南(一)
105 1
|
存储 网络协议 安全
阿里云hpc8ae实例商业化发布详解
近日,全球领先的云计算厂商阿里云宣布最新HPC优化实例hpc8ae的正式商业化,该实例依托阿里云自研的「飞天+CIPU」架构体系,搭载第四代AMD EPYC处理器,专为高性能计算应用优化,特别适用于计算流体、有限元分析、多物理场模拟等仿真类应用,CAE场景下的性价比最少提升50%。
|
11月前
|
SQL 监控 关系型数据库
SQL语句性能分析:实战技巧与详细方法
在数据库管理中,分析SQL语句的性能是优化数据库查询、提升系统响应速度的重要步骤
1067 0
|
Arthas 存储 监控
性能监控之常见 Java Heap Dump 方法
【6月更文挑战8天】性能监控之常见 Java Heap Dump 方法
662 7
|
缓存 网络协议 安全
计算机网络:传输层(TCP详解)
计算机网络:传输层(TCP详解)
310 0
|
存储 安全 算法
【回顾】蚂蚁链自研TEE技术全项通过国家金融科技认证中心认证
2022年3月,蚂蚁集团自研TEE技术(HyperEnclave)通过了北京国家金融科技认证中心认证
【回顾】蚂蚁链自研TEE技术全项通过国家金融科技认证中心认证