【混沌工程】2022 混沌工程状态(下)

本文涉及的产品
容器服务 Serverless 版 ACK Serverless,952元额度 多规格
可观测可视化 Grafana 版,10个用户账号 1个月
容器服务 Serverless 版 ACK Serverless,317元额度 多规格
简介: 【混沌工程】2022 混沌工程状态

您的组织中有多少百分比使用混沌工程?


百分比
76%+ 7.3%
51-75% 17.7%
26-50% 21%
<25% 54%

你在什么环境下进行过混沌实验?



Dev/Test 63%
Staging 50%
Production 34%

 

按类型划分的攻击百分比



Network 46%
Resource 38%
State 15%
Application 1%

按目标类型划分的攻击百分比



Host 70%
Container 29%
Application 1%

混沌实验结果

混沌工程最令人兴奋和最有价值的方面之一是发现或验证错误。 这种做法可以更容易地在未知问题影响客户之前发现它们并确定事件的真正原因,从而加快修补过程。 对我们调查的回复中显示的另一个主要好处是更好地理解架构。 运行混沌实验有助于识别对我们的应用程序产生不利影响的紧密耦合或未知依赖关系,并且通常会消除创建微服务应用程序的许多好处。 从我们自己的产品中,我们发现客户经常发现事件、缓解问题并使用 Chaos Engineering 验证修复。 我们的调查受访者经常发现他们的应用程序在减少 MTTR 的同时提高了可用性。

使用混沌工程后,你体验到了什么好处?



提高可用性 47%

缩短平均解决时间 (MTTR)

mean time to resolution

45%

缩短平均检测时间 (MTTD)

mean time to detection

41%
减少了交付到生产环境的错误数量 38%
减少中断次数 37%
减少页面数 25%

 

混沌工程的未来

采用/扩展混沌工程的最大障碍是什么?



缺乏认识 20%
其他优先事项 20%
缺乏经验 20%
时间不够 17%
安全问题 12%
害怕出事 11%

采用混沌工程的最大障碍是缺乏意识和经验。紧随其后的是“其他优先事项”,但有趣的是,超过 10% 的人提到担心可能出现问题也是一个禁忌。确实,在实践混沌工程时,我们正在将故障注入系统,但使用遵循科学原理的现代方法,并有条不紊地将实验隔离到单一服务中,我们可以有意识地实践而不破坏客户体验。

我们相信混沌工程的下一阶段涉及向更广泛的受众开放这一重要的测试过程,并使其更容易在更多环境中安全地进行实验。随着实践的成熟和工具的发展,我们希望工程师和操作员能够更容易和更快地设计和运行实验,以提高其系统跨环境的可靠性——今天,30% 的受访者正在生产中运行混沌实验。我们相信,混沌实验将变得更有针对性和自动化,同时也变得更加普遍和频繁。

我们对混沌工程的未来及其在使系统更可靠方面的作用感到兴奋。

人口统计

本报告的数据源包括一项包含 400 多个回复的综合调查和 Gremlin 的产品数据。 调查受访者来自各种规模和行业,主要是软件和服务。 混沌工程的采用已经冲击了企业,近 50% 的受访者为员工人数超过 1,000 人的公司工作,近 20% 的受访者为员工人数超过 10,000 人的公司工作。

该调查强调了云计算的一个转折点,近 60% 的受访者在云中运行大部分工作负载,并使用 CI/CD 管道。 容器和 Kubernetes 正在达到类似的成熟度,但调查证实服务网格仍处于早期阶段。 最常见的云平台是 AWS,占比接近 40%,GCP、Azure 和本地云平台紧随其后,占比约为 11-12%。

400 多名合格的受访者

贵公司有多少员工?



>10,000 21.4%
5,001-10,000 9.3%
1,001-5,000 17.7%
100-1,000 31.4%
<100 20.1%

你的公司几岁了?



Over 25 years old 25.8%
10 to 25 years old 32.9%
2 to 10 years old 27.3%
Less than 2 years old 14%

贵公司属于哪个行业?



Software & Services 50.2%
Banks, Insurance & Financial Services 23.2%
Energy Equipment & Services 0.7%
Retail & eCommerce 18.3%
Technology Hardware, Semiconductors, & Related Equipment 7.6%

你的职位是什么?



Software Engineer 32.2%
SRE 25.3%
Engineering Manager 18.2%
System Administrator 8.8%
Non-technical Executive (ex: CEO, COO, CMO, CRO) 4.9%
Technical Executive (ex: CTO, CISO, CIO) 10.6%

 

云中占生产工作负载的百分比是多少?



>75% 35.1%
51-75% 23.1%
25-50% 21.4%
<25% 20.4%

 

使用 CI/CD 管道部署的生产工作负载的百分比是多少?



>75% 39.8%
51-75% 21.1%
25-50% 20.4%
<25% 18.7%

百分之几的生产工作负载使用容器?



>75% 27.5%
51-75% 19.9%
25-50% 23.6%
<25% 29%

百分之几的生产工作负载使用 Kubernetes(或其他容器编排器)?

 



>75% 19.4%
51-75% 22.4%
25-50% 18.4%
<25% 39.8%

百分之多少的生产环境路由利用了服务网格?



>75% 0.1%
51-75% 116.5%
25-50% 17.9%
<25% 55.5%

 

除了检查调查结果外,我们还汇总了有关 Gremlin 用户技术环境的信息,以了解哪些特定工具和堆栈层最常成为混沌工程实验的目标。 这些发现如下。

您的云提供商是什么?



Amazon Web Services 38%
Google Cloud Platform 12%
Microsoft Azure 12%
Oracle 2%
Private Cloud (On Premises) 11%

你的容器编排器是什么?



Amazon Elastic Container Service 13%
Amazon Elastic Kubernetes Service 19%
Custom Kubernetes 16%
Google Kubernetes Engine 12%
OpenShift 6%

您的消息传递提供者( messaging provider)是什么?



ActiveMQ 5%
AWS SQS 17%
Kafka 25%
IBM MQ 1%
RabbitMQ 13%

 

    你的监控工具是什么?



    Amazon CloudWatch 28%
    Datadog 13%
    Grafana 18%
    New Relic 9%
    Prometheus 18%

     

    你的数据库是什么?



    Cassandra 5%
    DynamoDb 14%
    MongoDB 16%
    MySQL 22%
    Postgres 22%

     

    贡献者

    Dynatrace

    Dynatrace 提供软件智能以简化云复杂性并加速数字化转型。 借助自动和智能的大规模可观察性,我们的一体化平台可提供有关应用程序性能和安全性、底层基础架构以及所有用户体验的准确答案,使组织能够更快地创新、更有效地协作并交付更多 以更少的努力获得价值。

    Epsagon

    Epsagon 使团队能够立即可视化、理解和优化他们的微服务架构。 借助我们独特的轻量级自动仪表,消除了与其他 APM 解决方案相关的数据和手动工作方面的空白,从而显着减少了问题检测、根本原因分析和解决时间。

    Grafana Labs

    Grafana Labs 提供了一个围绕 Grafana 构建的开放且可组合的监控和可观察性平台,Grafana 是用于仪表板和可视化的领先开源技术。 超过 1,000 家客户(如 Bloomberg、JP Morgan Chase、eBay、PayPal 和 Sony)使用 Grafana Labs,全球有超过 600,000 个 Grafana 活跃安装。 商业产品包括 Grafana Cloud,一个集成了 Prometheus 和 Graphite(指标)的托管堆栈,Grafana Enterprise,一个具有企业功能、插件和支持的 Grafana 增强版; Loki(原木)和 Tempo(痕迹)与 Grafana; 和 Grafana Metrics Enterprise,它为大规模运行的大型组织提供 Prometheus 即服务。

    LaunchDarkly

    LaunchDarkly 由 Edith Harbaugh 和 John Kodumal 于 2014 年创立,是软件团队用来构建更好的软件、更快、风险更低的功能管理平台。 开发团队使用功能管理作为将代码部署与功能发布分开的最佳实践。 使用 LaunchDarkly,团队可以控制从概念到发布再到价值的整个功能生命周期。 每天为超过 1 万亿个功能标志提供服务,LaunchDarkly 被 Atlassian、Microsoft 和 CircleCI 的团队使用。

    PagerDuty

    PagerDuty, Inc. (NYSE:PD) 是数字运营管理领域的领导者。 在一个永远在线的世界中,各种规模的组织都信任 PagerDuty 可以帮助他们每次都为客户提供完美的数字体验。 团队使用 PagerDuty 实时识别问题和机会,并召集合适的人员更快地解决问题并在未来预防问题。 知名客户包括 GE、思科、基因泰克、艺电、Cox Automotive、Netflix、Shopify、Zoom、DoorDash、Lululemon 等。

    相关实践学习
    通过Ingress进行灰度发布
    本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
    容器应用与集群管理
    欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
    相关文章
    |
    6月前
    |
    运维 负载均衡 Kubernetes
    为什么需要混沌工程
    【5月更文挑战第10天】混沌工程旨在评估系统在生产环境中的稳定性,通过模拟基础设施故障、网络故障和应用程序故障来测试系统的弹性。
    |
    6月前
    |
    运维 安全 数据库
    混沌工程
    混沌工程
    139 0
    |
    监控 数据可视化 网络协议
    自动化混沌工程 ChaosMeta V0.6 版本发布
    混沌工程 ChaosMeta 的全新版本 V0.6.0 现已正式发布!新增了DNS异常、日志注入等故障能力,并且在可视化编排界面中提供了对流量注入、度量等各类节点的支持,提供自动化混沌工程的支撑能力。
    478 0
    自动化混沌工程 ChaosMeta V0.6 版本发布
    |
    Dubbo Java 应用服务中间件
    无论多忙,都要掌握混沌工程入门方法
    无论多忙,都要掌握混沌工程入门方法
    |
    缓存 运维 监控
    【混沌工程】2022 混沌工程状态(上)
    【混沌工程】2022 混沌工程状态
    |
    运维 监控 安全
    混沌工程-初识
    接受“系统越复杂,越脆弱”的事实,让系统在每一次失败中获益,然后不断进化。在实践中,用一系列的实验来真实的验证系统在各类故障场景下的表现,通过频繁大量的实验,使得系统本身的“反脆弱性”持续增强,让组织建立对系统抵御生产环境中失控条件的能力以及信心。
    混沌工程-初识
    |
    监控 安全 Devops
    学习笔记之初识混沌工程
    最早由Netflix的技术团队提出,现已经演变成计算机科学的一门新兴学科,即“混沌工程”。
    学习笔记之初识混沌工程
    |
    存储 分布式计算 Kubernetes
    【混沌工程】什么是混沌工程? 介绍、定义及更多
    软件和系统开发是创新和解决未知问题的练习。 软件和系统是容易出错的,因为它们是由具有不同观点和技能的人(很可能是多人)制作的。 技术变得越来越分散和复杂,尤其是随着微服务的推动。 很少有人拥有完整的端到端知识 […]
    |
    存储 运维 监控
    【混沌工程】什么是混沌工程?
    混沌工程让您可以将您认为会发生的事情与系统中实际发生的事情进行比较。 您实际上是“故意破坏”以学习如何构建更具弹性的系统。
    |
    消息中间件 Prometheus 监控
    【混沌工程】2023 混沌工程状态
    在过去的十二年里,我有机会参与并见证了混沌工程的发展。出身卑微,最常遇到的问题是“你为什么要这样做?”到今天的位置,帮助确保世界顶级公司的可靠性,这是一段相当长的旅程。