您的组织中有多少百分比使用混沌工程?
百分比 | |
76%+ | 7.3% |
51-75% | 17.7% |
26-50% | 21% |
<25% | 54% |
你在什么环境下进行过混沌实验?
Dev/Test | 63% |
Staging | 50% |
Production | 34% |
按类型划分的攻击百分比
Network | 46% |
Resource | 38% |
State | 15% |
Application | 1% |
按目标类型划分的攻击百分比
Host | 70% |
Container | 29% |
Application | 1% |
混沌实验结果
混沌工程最令人兴奋和最有价值的方面之一是发现或验证错误。 这种做法可以更容易地在未知问题影响客户之前发现它们并确定事件的真正原因,从而加快修补过程。 对我们调查的回复中显示的另一个主要好处是更好地理解架构。 运行混沌实验有助于识别对我们的应用程序产生不利影响的紧密耦合或未知依赖关系,并且通常会消除创建微服务应用程序的许多好处。 从我们自己的产品中,我们发现客户经常发现事件、缓解问题并使用 Chaos Engineering 验证修复。 我们的调查受访者经常发现他们的应用程序在减少 MTTR 的同时提高了可用性。
使用混沌工程后,你体验到了什么好处?
提高可用性 | 47% |
缩短平均解决时间 (MTTR) mean time to resolution |
45% |
缩短平均检测时间 (MTTD) mean time to detection |
41% |
减少了交付到生产环境的错误数量 | 38% |
减少中断次数 | 37% |
减少页面数 | 25% |
混沌工程的未来
采用/扩展混沌工程的最大障碍是什么?
缺乏认识 | 20% |
其他优先事项 | 20% |
缺乏经验 | 20% |
时间不够 | 17% |
安全问题 | 12% |
害怕出事 | 11% |
采用混沌工程的最大障碍是缺乏意识和经验。紧随其后的是“其他优先事项”,但有趣的是,超过 10% 的人提到担心可能出现问题也是一个禁忌。确实,在实践混沌工程时,我们正在将故障注入系统,但使用遵循科学原理的现代方法,并有条不紊地将实验隔离到单一服务中,我们可以有意识地实践而不破坏客户体验。
我们相信混沌工程的下一阶段涉及向更广泛的受众开放这一重要的测试过程,并使其更容易在更多环境中安全地进行实验。随着实践的成熟和工具的发展,我们希望工程师和操作员能够更容易和更快地设计和运行实验,以提高其系统跨环境的可靠性——今天,30% 的受访者正在生产中运行混沌实验。我们相信,混沌实验将变得更有针对性和自动化,同时也变得更加普遍和频繁。
我们对混沌工程的未来及其在使系统更可靠方面的作用感到兴奋。
人口统计
本报告的数据源包括一项包含 400 多个回复的综合调查和 Gremlin 的产品数据。 调查受访者来自各种规模和行业,主要是软件和服务。 混沌工程的采用已经冲击了企业,近 50% 的受访者为员工人数超过 1,000 人的公司工作,近 20% 的受访者为员工人数超过 10,000 人的公司工作。
该调查强调了云计算的一个转折点,近 60% 的受访者在云中运行大部分工作负载,并使用 CI/CD 管道。 容器和 Kubernetes 正在达到类似的成熟度,但调查证实服务网格仍处于早期阶段。 最常见的云平台是 AWS,占比接近 40%,GCP、Azure 和本地云平台紧随其后,占比约为 11-12%。
400 多名合格的受访者
贵公司有多少员工?
>10,000 | 21.4% |
5,001-10,000 | 9.3% |
1,001-5,000 | 17.7% |
100-1,000 | 31.4% |
<100 | 20.1% |
你的公司几岁了?
Over 25 years old | 25.8% |
10 to 25 years old | 32.9% |
2 to 10 years old | 27.3% |
Less than 2 years old | 14% |
贵公司属于哪个行业?
Software & Services | 50.2% |
Banks, Insurance & Financial Services | 23.2% |
Energy Equipment & Services | 0.7% |
Retail & eCommerce | 18.3% |
Technology Hardware, Semiconductors, & Related Equipment | 7.6% |
你的职位是什么?
Software Engineer | 32.2% |
SRE | 25.3% |
Engineering Manager | 18.2% |
System Administrator | 8.8% |
Non-technical Executive (ex: CEO, COO, CMO, CRO) | 4.9% |
Technical Executive (ex: CTO, CISO, CIO) | 10.6% |
云中占生产工作负载的百分比是多少?
>75% | 35.1% |
51-75% | 23.1% |
25-50% | 21.4% |
<25% | 20.4% |
使用 CI/CD 管道部署的生产工作负载的百分比是多少?
>75% | 39.8% |
51-75% | 21.1% |
25-50% | 20.4% |
<25% | 18.7% |
百分之几的生产工作负载使用容器?
>75% | 27.5% |
51-75% | 19.9% |
25-50% | 23.6% |
<25% | 29% |
百分之几的生产工作负载使用 Kubernetes(或其他容器编排器)?
>75% | 19.4% |
51-75% | 22.4% |
25-50% | 18.4% |
<25% | 39.8% |
百分之多少的生产环境路由利用了服务网格?
>75% | 0.1% |
51-75% | 116.5% |
25-50% | 17.9% |
<25% | 55.5% |
除了检查调查结果外,我们还汇总了有关 Gremlin 用户技术环境的信息,以了解哪些特定工具和堆栈层最常成为混沌工程实验的目标。 这些发现如下。
您的云提供商是什么?
Amazon Web Services | 38% |
Google Cloud Platform | 12% |
Microsoft Azure | 12% |
Oracle | 2% |
Private Cloud (On Premises) | 11% |
你的容器编排器是什么?
Amazon Elastic Container Service | 13% |
Amazon Elastic Kubernetes Service | 19% |
Custom Kubernetes | 16% |
Google Kubernetes Engine | 12% |
OpenShift | 6% |
您的消息传递提供者( messaging provider)是什么?
ActiveMQ | 5% |
AWS SQS | 17% |
Kafka | 25% |
IBM MQ | 1% |
RabbitMQ | 13% |
你的监控工具是什么?
Amazon CloudWatch | 28% |
Datadog | 13% |
Grafana | 18% |
New Relic | 9% |
Prometheus | 18% |
你的数据库是什么?
Cassandra | 5% |
DynamoDb | 14% |
MongoDB | 16% |
MySQL | 22% |
Postgres | 22% |
贡献者
Dynatrace
Dynatrace 提供软件智能以简化云复杂性并加速数字化转型。 借助自动和智能的大规模可观察性,我们的一体化平台可提供有关应用程序性能和安全性、底层基础架构以及所有用户体验的准确答案,使组织能够更快地创新、更有效地协作并交付更多 以更少的努力获得价值。
Epsagon
Epsagon 使团队能够立即可视化、理解和优化他们的微服务架构。 借助我们独特的轻量级自动仪表,消除了与其他 APM 解决方案相关的数据和手动工作方面的空白,从而显着减少了问题检测、根本原因分析和解决时间。
Grafana Labs
Grafana Labs 提供了一个围绕 Grafana 构建的开放且可组合的监控和可观察性平台,Grafana 是用于仪表板和可视化的领先开源技术。 超过 1,000 家客户(如 Bloomberg、JP Morgan Chase、eBay、PayPal 和 Sony)使用 Grafana Labs,全球有超过 600,000 个 Grafana 活跃安装。 商业产品包括 Grafana Cloud,一个集成了 Prometheus 和 Graphite(指标)的托管堆栈,Grafana Enterprise,一个具有企业功能、插件和支持的 Grafana 增强版; Loki(原木)和 Tempo(痕迹)与 Grafana; 和 Grafana Metrics Enterprise,它为大规模运行的大型组织提供 Prometheus 即服务。
LaunchDarkly
LaunchDarkly 由 Edith Harbaugh 和 John Kodumal 于 2014 年创立,是软件团队用来构建更好的软件、更快、风险更低的功能管理平台。 开发团队使用功能管理作为将代码部署与功能发布分开的最佳实践。 使用 LaunchDarkly,团队可以控制从概念到发布再到价值的整个功能生命周期。 每天为超过 1 万亿个功能标志提供服务,LaunchDarkly 被 Atlassian、Microsoft 和 CircleCI 的团队使用。
PagerDuty
PagerDuty, Inc. (NYSE:PD) 是数字运营管理领域的领导者。 在一个永远在线的世界中,各种规模的组织都信任 PagerDuty 可以帮助他们每次都为客户提供完美的数字体验。 团队使用 PagerDuty 实时识别问题和机会,并召集合适的人员更快地解决问题并在未来预防问题。 知名客户包括 GE、思科、基因泰克、艺电、Cox Automotive、Netflix、Shopify、Zoom、DoorDash、Lululemon 等。