阿里云故障演练平台获得可信云最高等级认证,为企业数字韧性能力保驾护航

本文涉及的产品
可观测监控 Prometheus 版,每月50GB免费额度
可观测可视化 Grafana 版,10个用户账号 1个月
Serverless 应用引擎免费试用套餐包,4320000 CU,有效期3个月
简介: 7月27日,2021可信云大会在北京召开。会上,阿里云故障演练平台入选可信云最佳技术实践,并首批通过可信云混沌工程平台能力要求最高等级-先进级认证。同时,由信通院牵头,阿里云计算有限公司联合多家企业共同发起的“混沌工程实验室”宣布成立。混沌工程是主要通过故障注入的方式,提前发现系统稳定性等问题,旨在提升系统和组织韧性,打造韧性的架构,保障业务连续性。

7月27日,2021可信云大会在北京召开。会上,阿里云故障演练平台入选可信云最佳技术实践,并首批通过可信云混沌工程平台能力要求最高等级-先进级认证。同时,由信通院牵头,阿里云计算有限公司联合多家企业共同发起的“混沌工程实验室”宣布成立。

lALPDgfLSAcLsDLNBTXNB9Y_2006_1333.png_720x720g.jpg

双项认证,阿里云故障演练平台获可信云最高等级认证

随着企业对于云计算的理解和实践不断深入,基于云计算的分布式架构成为越来越多企业应用构建的首选方案,如何通过混沌工程提升云原生系统稳定性和保障业务连续性成为业内普遍关注的话题。

混沌工程是主要通过故障注入的方式,提前发现系统稳定性等问题,旨在提升系统和组织韧性,打造韧性的架构,保障业务连续性。在信通院可信云混沌工程平台测评中,阿里云故障演练平台以最高分成绩通过资源支持、故障场景、场景管理、实验流程、实验防护、实验度量、权限管理、安全审计等8项能力测评,并入选2021可信云最佳技术实践,双项认证,再一次证明了阿里云在混沌工程领域的技术和产品实力。

图片 1.png

故障演练随着阿里巴巴系统架构从微服务,到容器化,再到云原生一起发展,内部已有近10年的混沌工程落地实践经验。阿里云故障演练平台将阿里巴巴内部的实践经验以产品化的方式对外输出,提供丰富的实验场景和专家经验库、领域化的解决方案,满足用户的故障场景需求,在灵活的流程编排和开放的集成能力下,提供监控、报告等实现混沌工程实施闭环,通过权限管控和演练防护来控制故障演练的风险,帮助企业在云迁移、云就绪、云原生过程中提升系统稳定性和业务连续性。

2.png

自混沌工程理论提出以来,很多企业在探索和实践,但落地形式不同,阿里云故障演练平台有何不同?

  • 灵活的流程编排:制订了一套标准化的演练流程,在此基础上可以添加所需的流程节点。同时支持多场景的运行方式。
  • 可视化故障演练:与架构感知集成,在架构拓扑可视化的基础上,实现故障注入,同时可以配合架构巡检,发现系统风险点,使用故障演练进行验证。
  • 多样的专家经验库:将阿里巴巴内部多年的故障演练经验沉淀到演练模板中,具备演练场景的真实性和实用性,极大的提升演练创建的效率,同时解决用户上手混沌工程难的问题。
  • 领域化的解决方案:提供对服务组件、系统架构等稳定性验证的产品化解决方案,通过架构感知、依赖分析等动态识别组件和架构,自动生成演练方案,达到快、准、全的演练目的。

使用故障演练平台做混沌工程,可以衡量微服务的容错能力,估算系统容错红线,衡量系统容错能力。并且,故障演练平台可以验证容器编排配置是否合理,测试PaaS层是否健壮,验证监控告警的时效性,提升监控告警的准确和时效性。通过故障突袭,随机对系统注入故障,考察相关人员对问题的应急能力,以及问题上报、处理流程是否合理,达到以战养战,锻炼人定位与解决问题的能力。通过故障注入的方式,提前发现系统稳定性等问题,旨在提升系统和组织韧性,打造韧性的架构,保障业务连续性。

阿里云故障演练平台自2019年商业化以来,通过多样化的实验工具,自动化的工具部署,多维度的演练方式,灵活的流程编排,丰富的故障场景,实用的演练模板,专业的解决方案,安全的演练防护,深度的云产品集成,已经拥有近千个企业客户,服务了包括华泰证券、比心科技、亲宝宝等客户,助力企业在云原生时代构建数字韧性能力。

推动标准统一,打造ChaosBlade 开源项目,缩短构建混沌工程路径

近几年,越来越多的企业开始关注并探索混沌工程,渐渐成为测试系统高可用,构建对系统信息不可缺少的工具。但混沌工程领域目前还处于一个快速演进的阶段,最佳实践和工具框架没有统一标准。实施混沌工程可能会带来一些潜在的业务风险,经验和工具的缺失也将进一步阻止 DevOps 人员实施混沌工程。混沌工程领域目前也有很多优秀的开源工具,分别覆盖某个领域,但这些工具的使用方式千差万别,其中有些工具上手难度大,学习成本高,混沌实验能力单一,使很多人对混沌工程领域望而却步。

阿里巴巴集团在混沌工程领域已经实践多年,为了帮助企业更好地构建混沌工程路径,阿里巴巴在2019年开源了混沌工程项目 ChaosBlade,并在今年成为 CNCF Sandbox 项目。将"自研技术"、"开源项目"、"商业产品"形成统一的技术体系,阿里云通过三位一体的正向循环,实现了技术价值的最大化。

ChaosBlade 是一款遵循混沌工程原理的开源工具,包含混沌工程实验工具 chaosblade 和混沌工程平台 chaosblade-box,旨在通过混沌工程帮助企业解决云原生过程中高可用问题。实验工具 chaosblade 支持 3 大系统平台,4 种编程语言应用,共涉及 200 多个实验场景,3000 多个实验参数,可以精细化地控制实验范围。ChaosBlade 已成为阿里云故障演练平台基础能力底座服务众多企业客户。

3.png

未来,ChaosBlade 将继续以云原生为基础,提供面向多集群、多环境、多语言的混沌工程平台和混沌工程实验工具;后续会托管更多的混沌实验工具和兼容主流的平台,实现场景推荐,提供业务、系统监控集成,输出实验报告,在易用的基础上完成混沌工程操作闭环。

业内首个混沌工程实验室正式成立,推动混沌工程实践落地

在数字化产业对系统稳定性和云计算高可用要求越来越高的大背景下,由中国信通院牵头,阿里云等众多企业共同参与的混沌工程实验室正式成立。混沌工程实验室将推动混沌工程在各领域典型应用场景中的实践落地,联动云计算上下游企业来共同推进混沌工程快速发展。

阿里云拥有国内最丰富的混沌工程实践经验,并致力于打造云原生时代的混沌工程标准体系。阿里云在海量互联网服务以及历年双11场景的实践过程中,沉淀出了包括全链路压测、线上流量管控、故障演练等高可用核心技术,并通过开源和云上服务的形式对外输出,以帮助企业用户和开发者享受技术红利,提高开发效率,缩短业务的构建流程。

相关文章
|
运维 监控 算法
稳定性保障6步走:高可用系统大促作战指南!
年年有大促,大家对于大促稳定性保障这个词都不陌生,业务场景尽管各不相同,“套路”往往殊路同归,全链路压测、容量评估、限流、紧急预案等,来来去去总少不了那么几板斧。跳出这些“套路”,回到问题的本质,我们为什么要按照这些策略来做?除了口口相传的历史经验,我们还能做些什么?又有什么理论依据?
稳定性保障6步走:高可用系统大促作战指南!
|
存储 监控 前端开发
Java实现根据概率中奖率怎么算
【4月更文挑战第24天】本文介绍了如何使用Java实现基于概率的中奖率计算,涵盖权重分配法和轮盘法。通过实例代码展示了使用Java的权重分配法进行计算,并讨论了常见问题和解决办法,如概率设置错误、浮点数比较误差和随机数生成。此外,还探讨了性能优化、动态调整概率、支持多种抽奖模式以及确保公平性与监管合规的方法。最后,提到了构建一个完整的抽奖系统涉及的奖品管理、抽奖服务、用户接口、日志记录与审计等核心组件。
519 0
Java实现根据概率中奖率怎么算
|
6月前
|
机器学习/深度学习 并行计算 PyTorch
英伟达新一代GPU架构(50系列显卡)PyTorch兼容性解决方案
本文记录了在RTX 5070 Ti上运行PyTorch时遇到的CUDA兼容性问题,分析其根源为预编译二进制文件不支持sm_120架构,并提出解决方案:使用PyTorch Nightly版本、更新CUDA工具包至12.8。通过清理环境并安装支持新架构的组件,成功解决兼容性问题。文章总结了深度学习环境中硬件与框架兼容性的关键策略,强调Nightly构建版本和环境一致性的重要性,为开发者提供参考。
2842 64
英伟达新一代GPU架构(50系列显卡)PyTorch兼容性解决方案
|
负载均衡 监控 Go
使用Golang框架构建分布式系统
本文探讨了使用Golang构建分布式系统的方法。Golang因其高效、简洁的语法和并发支持成为理想的开发语言。文中列举了几个常用的Golang框架,如Echo、Gin、gRPC和NATS等,并强调了服务拆分、通信机制、负载均衡等构建分布式系统的关键要素。通过选择合适的框架,遵循需求分析、技术选型、服务设计等步骤,开发者可以构建出高性能、高可用和可扩展的系统。此外,文中还提供了一个使用gRPC和etcd的简单代码案例来说明实现过程。
788 4
|
9月前
|
数据采集 供应链 API
Python爬虫与1688图片搜索API接口:深度解析与显著收益
在电子商务领域,数据是驱动业务决策的核心。阿里巴巴旗下的1688平台作为全球领先的B2B市场,提供了丰富的API接口,特别是图片搜索API(`item_search_img`),允许开发者通过上传图片搜索相似商品。本文介绍如何结合Python爬虫技术高效利用该接口,提升搜索效率和用户体验,助力企业实现自动化商品搜索、库存管理优化、竞品监控与定价策略调整等,显著提高运营效率和市场竞争力。
359 3
|
搜索推荐 程序员 开发工具
Emacs Verilog mode 简单使用指南
【6月更文挑战第17天】Emacs Verilog mode 提升Verilog编程体验,提供语法高亮、代码补全、自动缩进等功能。安装可通过`M-x package-install RET verilog-mode`。常见问题包括补全不生效、高亮不准确,可通过调整配置解决。支持模板插入、代码折叠、错误高亮、代码跳转。通过个性化配置、整合Git、集成其他工具和社区资源,实现高效Verilog开发。Emacs学习曲线虽陡,但效能提升显著。
381 4
|
分布式计算 Kubernetes Spark
米哈游大数据云原生实践
近年来,容器、微服务、Kubernetes 等各项云原生技术的日渐成熟,越来越多的公司开始选择拥抱云原生,并开始将 AI、大数据等类型的企业应用部署运行在云原生之上。以 Spark 为例,在云上运行 Spark 可以充分享有公共云的弹性资源、运维管控和存储服务等,并且业界也涌现了不少 Spark 。
|
存储 人工智能 运维
ChaosMeta for AI:混沌工程让AI稳定性更上一层楼
1.混沌工程不仅仅是技术过关的利器,更是AI系统完美运转的“防火墙”。ChaosMeta通过全方位、多层次的故障注入和演练,帮助AI系统在复杂多变的环境中维持高稳定性。 2.结合混沌工程的思想,我们不仅可以在开发阶段找到和修复问题,还能在运维阶段持续提升系统的鲁棒性。在这个高速发展的AI年代,ChaosMeta将为AI系统提供稳定性保障,让AI系统走得更远、更稳。 3.抽空试试ChaosMeta,也许下一个故障发生时,你会发现,原来一切尽在掌握。
777 0
ChaosMeta for AI:混沌工程让AI稳定性更上一层楼
|
SQL 关系型数据库 MySQL
如何查看本地公网 IP 地址?
如何找到本地的公网IP?这篇文章帮到你。
770 3
|
消息中间件 弹性计算 Kubernetes
Knative 架构解析
【2月更文挑战第29天】Knative作为构建无服务器产品的基础设施,建立在Kubernetes和Istio之上,提供从源代码到服务的编排、流量管理、自动扩缩容和事件绑定等功能,分为Build、Eventing和Serving三个模块,旨在确保编程模型的可移植性。