Chaos带你快速上手混沌工程

简介: 场景主要介绍混沌工程的思想及其原理,体验故障演练(AHAS Chaos),阿里云在混沌工程领域的产品。,11 月 9 日至 11 月 23 日期间,,完成体验即可获得“TOMY 多美卡合金车模一辆”。

场景主要介绍混沌工程的思想及其原理,体验故障演练(AHAS Chaos),阿里云在混沌工程领域的产品。,11 月 9 日至 11 月 23 日期间,,完成体验即可获得“TOMY 多美卡合金车模一辆”。

O1CN019If3vm1vDFjunR9QE_!!2921416138-0-cib.jpg

地址:https://developer.aliyun.com/adc/series/activity/1111

本场景涉及到以下技术或产品:

容器服务ACK:
容器服务Kubernetes版(简称ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理;是国内唯一入选2020年Gartner公共云容器报告的产品,并在2019年Forrester容器报告中获国内排名第一;整合了阿里云虚拟化、存储、网络和安全能力,助力企业高效运行云端Kubernetes容器化应用。

故障演练Chaos:
故障演练(Chaos)是云原生混沌工程平台,提供了大规模、低成本、影响可控、形式多样化的故障演练服务。Chaos提供一站式架构分析、故障巡检、故障注入、系统稳态度量等功能,帮助用户增强分布式系统的容错性和可恢复性,帮助系统平稳上云。

原理介绍
相信您一定有在新闻联播里看到过解放军某某兵团在某地进行军事实战演练的新闻,对于军队来说,最好的训练方式就是实兵演习。即使平时的训练已经已经非常系统和完善,但到了真正的实战中仍然可能会出现各种各样平时训练预想不到的问题。所以只有真正的实战演练才能发现问题,才能更好的规划下一阶段的训练,提高军队的战斗力。

面向失败设计
我们的软件系统不也是一样吗?“Everything fails, all the time.” 在平时的开发过程中,即使我们已经预想了各种各样的场景,修复好了所有的bug,但一旦上线总会出现各种各样的情况。我们的软件系统,同样也需要这样的实战演练。您需要在一开始的系统设计阶段就考虑到各种失败场景,把面向失败当成系统设计的一部分,并且准备好从失败中恢复的策略,这有助于更好地提升整个系统的可用性。只有您意识到事情会随着时间的推移而失败,并将这种思想融入到体系结构中,那么在失败发生的时候您才能完全不受影响或者将失败损失降到最低。

故障演练
混沌工程正是在这种面向失败设计思想下催生的。面对失败设计,要求我们提前为失败做好准备,但是我们准备的这些措施在故障真实发生时是否真的有效?恢复故障的工具是否实现了容灾?处理故障的人员是否熟练?这些问题,很难得到验证,却往往会在真实的故障中暴露出来。而这就是混沌工程的意义所在,混沌工程就像演习一样,通过有目的的制造故障,找出系统可能存在的弱点,从而验证在真实复杂的环境下,系统、人员应对各种突发问题的能力是否符合预期,提升系统的免疫能力。故障演练(Chaos)提供的正是这样的能力。

创建实验资源

阿里云提供ACK+Chaos云产品资源
4小时资源链接:
https://developer.aliyun.com/adc/scenario/e9b27357ab9c4785bc7f43fb62f872e3

安装探针

1回到容器服务控制台页面,单击左侧导航栏上方的< 图标。

76c315a15b9b4787929141dc4633b803.png

2在集群列表页面的左侧导航栏中,单击应用目录。
f53782b28d674e4ca1d7a5b70d97196f.png

3在应用目录页面,单击ack-ahas-pilot。

e87e1f109c1848158eca35fb3bf15713.png

4在ack-ahas-pilot的详情页面,单击创建。

1523a13deea14e3c99bbcb81cc353293.png

返回如下页面,表示探针已经部署完成。
d5a3e1eaf30d488682b4eaf46cd287bd.png

通过架构感知查看系统整体架构

1复制应用高可用服务控制台地址,在Firefox浏览器打开新页签,粘贴并访问容器服务应用高可用服务控制台。

https://chaos.console.aliyun.com/

2在概览页面顶部,选择资源所在地域。例如下图中,地域切换为华东1(杭州)。
d536ef0514f44af09de23a720f882fc9.png

3在左侧导航栏,单击故障演练>架构感知。
5edc582007064773808ec07a7ba656ae.png

4在架构地图页面,单击Kubernetes监控视图卡片中的查看视图。

e168142b0fa7475eb7f99435f4161728.png

5在架构地图页面,打开Kubernetes监控视图下拉列表,选择命令空间为default,然后单击确定即可查看实验资源的Kubernetes监控视图。

dcec043704084852a466af2021e47995.png

自动恢复场景演练

在分布式系统设计中有一种容错策略是故障恢复(failback),通过健康检查等机制,能在机器或者应用出现问题时自动的进行重新部署。我们利用Chaos进行故障演练,测试我们的系统是否具有这样的能力

1.进行稳态假设。定义一个稳态指标,来评估系统的健康状态并且在实施混沌过程当中进行监控和处理。
我们将稳态定义为 能访问我们的frontend界面,并正常使用各种购物车、下单等功能。

2模拟真实事件。
2.1 切换回应用高可用服务控制台。在左侧导航栏中,单击我的空间。
abcc48e7e2274c48a12a6619a204ac86.png

2.2 在我的空间页面,在新建演练下拉列表中单击新建空白演练。
1.png

2.3 在演练配置页面,完成以下操作:

(1)设置演练名称。

2.png

(2)在演练对象配置向导中,演练应用选择frontend,应用分组选择frontend-group,机器列表选择任意一台机器,单击添加演练内容。
3.png

(3)在选择演练故障对话框中,选择JAVA应用>延迟>容器内Java延迟,单击确定。

ade05ec2a70b42349f7691b7f77f915a.png

(4)在演练配置页面,单击容器内Java延迟。
506f1f5195394baf83f787312fabb8e1.png

(5)在容器内Java延迟面板中,依次输入类的全限定名、方法名、进程关键字和目标容器名称,单击关闭。

类的全限定名:输入com.alibabacloud.hipstershop.web.HealthController。
方法名:输入health。
进程关键字:输入java。
目标容器名称:选择frontend。

0654c5ffcb654b8aaca7da446d06f0cb.png
57becf9267db477b936f624f7b9db4aa.png

(6)在演练内容区域中,单击保存。
a3a0799efda44e55a57d51860a1e9c78.png

(7)单击下一步。
90271c2c4d374d03a32c3bfe9b7d380f.png

(8)在全局配置的监控策略区域,单击新增策略。

ca744290ccbb4529a908d12e9d3d4abd.png

(9)在新增策略对话框中,选择业务监控>业务状态观察(Http),单击确定。

6da02f54f1f24a6d81699894ef243019.png

(10)在业务状态观察(Http)面板中,请求类型选择get,URL输入http://&lt;frontend的外部端点>/。

说明 :

frontend的外部端点在容器服务ACK控制台frontend服务的访问方式页签中获取。

934a1ff9a4a44281bf60b7af2495072c.png
4fb02b36b2c94c95bd8db1a13571b871.png

(11)在全局配置配置向导中,单击下一步。

efb99dc68f55442384cc97f6617afe57.png

(12)在成功对话框中,单击演练详情。

dc240fc578f84bfca33d0a6bcf205bd1.png

2.4 在演练详情页面,单击演练。

f825027103b34a05bed7a1517a0ffb71.png

2.5 在开始执行演练对话框中,单击确认。
a5c5731b231344fdb785e0a45cc79def.png

3检测实验影响。
3.1 在演练记录详情页面,查看业务状态观测(Http)时序图。您可以看到health接口的调用在遇到故障之后,先降低,然后马上自动恢复至正常状态,说明我们的设计奏效了。
ee82784dd82a41048c1b59da7f98ed8f.png

3.2 切换回容器服务ACK控制台,在frontend服务页面,单击事件页签。

您可以看到frontend自动的进行了扩容。
48247bb5e4df429a8f182f44977be44f.png

4终止实验。
4.1 切换回应用高可用服务控制台。在演练记录详情页面中,单击终止。

537d8f68de554d4ba5ac20669768acc1.png

4.2 在停止演练对话框中,单击确定。

44d215fe638c49f8977152c4b4c26198.png

4.3 等待演练场景终止之后,在结果反馈对话框中,单击确定。

c801a93a189245469aafe21bd29d5a36.png

强弱依赖场景演练

在微服务架构中,各个服务之间存在许多依赖关系。但是当一个不重要的弱依赖宕机时,一个健壮的系统应该仍然能够正常的运行。我们利用Chaos进行故障演练,测试我们的系统处理强弱依赖的能力如何。

1.进行稳态假设。
1.1 切换回容器服务ACK控制台,单击frontend的外部端点。
6882c3f08a4848ba926dbf895e7b3bfa.png

1.2 在Hipster Shop页面,多次刷新页面。您可以看到页面商品的排序每一次都不一样。您可以理解为商品推荐服务会根据个性化进行推荐,使产品存在优先级。因此我们将稳态定义为,每次刷新页面,商品的排序不同。

2.模拟真实事件。
2.1 切换回应用高可用服务控制台。在左侧导航栏,单击我的空间。
454eba63d2f24d7c8ff6fba3e89c03ca.png

2.2 在我的空间页面,在新建演练下拉列表中单击新建空白演练。
50b54c557c9144afac809ebfa2734c03.png

2.3 在演练配置页面,完成以下操作:

(1)设置演练名称。
b76d0ccb9d774467ae2547e61222971d.png

(2)在演练对象配置向导中,演练应用选择recommendationservice,应用分组选择recommendationservice-group,机器列表选择机器,单击添加演练内容。

d8c9c082950a494a8d04b611cf65fce1.png

(3)在选择演练故障对话框中,选择JAVA应用>延迟>容器内Java延迟,单击确定。

2fe369e6da634b3989e75f89307d36e6.png

(4)在演练内容区域中,单击容器内Java延迟。

21b95e1d593d4b7ea0d886249a6cf42e.png

(5)在容器内Java延迟面板中,依次输入类的全限定名、方法名、进程关键字和目标容器名称,单击关闭。

类的全限定名:输入com.alibabacloud.hipstershop.recomendationservice.service.RecommendationServiceImpl。
方法名:输入sortProduct。
进程关键字:输入java。
目标容器名称:选择recommendationservice。
962984f87fc24fce9da32e9e60e6125e.png

eca8c8c8ff9346deab8b2f246b256c2e.png

(6)在演练对象中,单击保存。
e99b806654c546fe942a1292fcb5dcc8.png

(7)单击下一步。

9fdc8319a2a44e42b38d5b727e149959.png

(8)在全局配置中,单击下一步。
3a1cad00274146108e486304bb0c1885.png

(9)在成功对话框中,单击演练详情。

562d1b0f607742ab85dad927d3eb8f6b.png

2.4 在演练详情页面,单击演练。

b65fd5dc5d6348d4a16db54f3996b7fd.png

2.5 在开始执行演练对话框中,单击确认。

5e58c47921c943e6a36b55e9d23503df.png

检测实验影响。
3.1 切换回容器服务ACK控制台。在无状态页面,单击frontend。

9f0423734c31497789ef2404d3aa961e.png

3.2 在frontend页面,单击访问方式页签,然后单击frontend的外部端点。

1d0adb59747048cca6ef83879fa311c8.png

3.3 在Hipster Shop页面,多次刷新页面。您可以发现每次刷新,产品顺序不会改变。说明推荐服务宕机,但并没有影响别的服务。

终止实验。
4.1 切换至应用高可用服务控制台,在演练记录详情页面,单击终止。
c34fec6ef49e429788019c3476c83a0e.png

4.2 在停止演练对话框中,单击确定。

9a2103586c7f464dac30d2be5599f5d5.png

4.3 在结果反馈对话框中,单击确定。

b328a7c036c94add8ed6206bb462fee6.png

失败重试场景演练

在微服务架构中,一个大系统被拆分成多个小服务,小服务之间存在大量RPC调用,经常可能因为网络抖动等原因导致RPC调用失败,这时候使用重试机制可以提高请求的最终成功率,减少故障影响,让系统运行更稳定。我们通过利用Chaos,给系统注入失败,看看系统失败重试的性能如何。

进行稳态假设。
1.1 切换回容器服务ACK控制台,在无状态页面,单击cartservice。

30b9682b3e9045da9d22db7ffc8a0f88.png

1.2 在cartservice页面,单击伸缩。

ee56617dc8154995a6ef98a7a4f25dca.png

1.3 在伸缩对话框中,将所需容器组数量更改为2,单击确定。

02d2030b92534c8286a4f07f5433dee2.png

待状态变为Running,表示容器组扩容成功。

3b9992ca41e84277a33b68787505cdc0.png

1.4 切换至Hispter Shop页面,单击购物车。

22fb88dee3b94f7384aca3808e4702b4.png

返回如下页面,表示购物车服务正常。因此我们将稳态定义为,能够正常使用frontend的购物车功能。

3eb2fd7fbf5644bcb86fb3322e490f02.png

模拟真实事件。
2.1 切换回应用高可用服务控制台,在左侧导航栏,单击我的空间。

20c401e13c9147ed9a2d47dafb401658.png

2.2 在我的空间页面,在新建演练下拉列表中单击新建空白演练。

520c5f9d4ab24a078ec05d7d91f330fe.png

2.3 在演练配置页面,完成以下操作:

(1)设置演练名称。

3bb4c0636ffa4403b39c467835ae4b3e.png

(2)在演练对象中,演练应用选择cartservice,应用分组选择cartservice-group,机器列表选择任意一台机器,单击添加演练内容。

333e33b7913449258f2b05d41e0279e6.png

(3)在选择演练故障对话框中, 选择JAVA应用>抛异常>容器内Java延迟抛出自定义异常,单击确定。

7ffb660c65bb4935baa36452c9813ad9.png

(4)在演练内容区域中,单击容器内Java延迟抛出自定义异常。

d6cd5b9fba8d4a52bc212422c5e87773.png

(5)在容器内Java延迟抛出自定义异常面板中,依次输入方法名、类的全限定名、异常、进程关键字和目标容器名称,单击关闭。

方法名:输入viewCart。
类的全限定名:输入com.alibabacloud.hipstershop.cartserviceprovider.service.CartServiceImpl。
异常:输入java.lang.Exception。
进程关键字:输入java。
目标容器名称:选择cartservice。
a445f61c52aa4410a7ae441f8dda0a53.png
cae204457d9a4f8daf0f9ff6c68e3d8a.png

(6)在演练对象中,单击保存。

921b2f6733124d77b847c8a5e6aa835b.png

(7)单击下一步。

5431ee77b52745dc9bd59c484baf7377.png

(8)在全局配置中,单击下一步。
b9bd89120fed42c6867645b7cdec0b2c.png

(9)在成功对话框中,单击演练详情。

e7c5b16769a2412aa85f4b7dbb56c758.png

2.4 在演练详情页面,单击演练。

9dd877ca5255465e853539b98eb558a1.png

2.5 在开始执行演练对话框中,单击确认。
fc5979235ea34e13823f9b21bd15d178.png

检测实验影响。
3.1 切换至Hispter Shop页面,单击购物车。

9e64cd6b4da5499daf7493831d7289ea.png

返回如下页面,您发现无法访问购物车。这是因为流量并没有切换到没有宕机的那台机器,同时 说明我们的系统并没有失败重试的能力,或者是一开始就没有设计,或者是没有生效。通过这次故障注入,我们发现了系统的缺陷。

5c49ebdf460944a8bd3f0158f0805ed5.png

3.2 切换至应用高可用服务控制台,在演练记录详情页面,单击终止。

f7e2bb7b599041ea89b852056b94a115.png

3.3 在停止演练对话框中,单击确定。

3c08150ffbce4e0897bc78bcb3fa9308.png

3.4 在结果反馈对话框中,单击确定。

72c2c52f87d04e83990956c4dc8c3274.png

返回如下页面,表示演练结束。

5d12e45acfdf4e1ab74a39a1f93c35f7.png

微服务演练

在体验了上述三个场景演练之后,我们对混沌工程有了初步的了解,也掌握了应用高可用服务的基本功能。但是这样手动部署参数的过程还是比较繁琐的。接下来我们体验一下更为方便快捷的强弱依赖治理。

1切换至应用高可用服务控制台。在左侧导航栏中,单击微服务演练。
188f6419c8514fab9b8193e2a6af92c5.png

并选择强弱依赖治理页面。
b877aa752650405dad56ab9c412bf871.png

2在强弱依赖治理页面中,单击创建治理方案。

3d337a27ea064d5fa1d1d7c8f6923141.png

3在创建治理方案的配置向导页面,完成以下操作。
3.1 在应用接入中,自定义方案名称,治理应用选择frontend,单击下一步。

082fbe4719f2409d8274afa78eaa38a3.png

3.2 在强弱依赖治理以30天为治理周期对话框中,单击确认。

739901ebcc024298b50991c07629782e.png

3.3 在依赖分析中,等待分析完成,单击下一步。
faafab47ab084a988b348af88436976b.png

3.4 在依赖预判中,自行选择依赖对象的强弱依赖预判,例如nacos-standalone和checkoutservice的强弱依赖预判可选择强依赖,其他依赖对象默认弱依赖,然后单击下一步。

750ab1fadd134a9ab3c515737c339360.png

3.5 在依赖验证中,选择任意用例进行验证。例如选择frontend与nacos-standalone强弱依赖验证用例,单击去验证。
b3e7f341f3d14c17a975638096591831.png

3.6 在去验证前的参数确认对话框中,单击确定验证。

4bec12ce9f26431b87fcf69f64a64bf2.png

注意:

如果窗口没有跳转,请注意跳转是否被拦截,请手动解除

4在演练详情页面中,单击演练。
4d82a6035fe0433dad18fcc31c308651.png

5在开始执行演练对话框中,单击确认。
b5035c8bd82c4ed284da42b74824c053.png

6切换至Hipster Shop页面,单击网页的任意功能。您可以发现Hipster Shop网页和相关功能均可以正常访问,说明frontend服务与nacos-standalone服务是弱依赖关系。
7切换至应用高可用服务控制台,在演练记录详情页面,单击终止。

8在停止演练对话框中,单击确定。

64ee68d156d14da394e6243ed74a0d02.png

9在结果反馈对话框中,结论选择不符合预期,验证结果选择弱依赖,单击确定,返回强弱依赖治理。

a7f75406b8e049418dc13c5cb74ab3da.png

10在依赖验证中,您可以验证其他用例,验证完成后,单击方案归档。
2935319e4060454685e081274f1f125b.png

11在您确定要归档此方案吗对话框中,单击确认归档。

a3ec4e3b59704439bf416f8f9ca36cf0.png

返回如下页面,表示归档完毕。

06b710597a5e474fb5ebd2c6d062b214.png

相关场景

基于EMR离线数据分析
容器服务ACK+容器网络文件系统CNFS快速搭建NGINX网站

相关实践学习
Docker镜像管理快速入门
本教程将介绍如何使用Docker构建镜像,并通过阿里云镜像服务分发到ECS服务器,运行该镜像。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
相关文章
|
21天前
|
Kubernetes 监控 容器
K8S故障注入混沌工程开源平台ChaosMesh
总之,ChaosMesh作为一个Kubernetes混沌工程平台,为用户提供了测试和验证Kubernetes集群的可靠性的工具和框架,有助于提高系统的稳定性和性能。
39 0
|
1月前
|
tengine 算法 安全
ChaosBlade 是阿里巴巴开源的混沌工程工具
【2月更文挑战第23天】ChaosBlade 是阿里巴巴开源的混沌工程工具
16 1
|
缓存 Kubernetes Cloud Native
混沌实施工具ChaosBlade实践
项目介绍 ChaosBlade 是阿里巴巴开源的混沌工程原理和混沌实验模型的实验注入工具。 ChaosBlade 使用比较简单,而且支持丰富的实验场景,场景包括: 基础资源:比如 CPU、内存、网络、磁盘、进程等实验场景; Java 应用:比如数据库、缓存、消息、JVM 本身、微服务等,还可以指定任意类方法注入各种复杂的实验场景; C++ 应用:比如指定任意方法或某行代码注入延迟、变量和返回值篡改等实验场景; Docker 容器:比如杀容器、容器内 CPU、内存、网络、磁盘、进程等实验场景; 云原生平台:比如 Kubernetes 平台节点上 CPU、内存、网络、磁盘、进程实验场景,Pod
174 0
|
Dubbo Java 应用服务中间件
无论多忙,都要掌握混沌工程入门方法
无论多忙,都要掌握混沌工程入门方法
|
监控 安全 Devops
学习笔记之初识混沌工程
最早由Netflix的技术团队提出,现已经演变成计算机科学的一门新兴学科,即“混沌工程”。
学习笔记之初识混沌工程
|
容器 Cloud Native Perl
面向云原生的混沌工程工具-ChaosBlade
作者 | 肖长军(穹谷)阿里云智能事业群技术专家   导读:随着云原生系统的演进,如何保障系统的稳定性受到很大的挑战,混沌工程通过反脆弱思想,对系统注入故障,提前发现系统问题,提升系统的容错能力。ChaosBlade 工具可以通过声明式配置执行混沌实验,简单高效。
|
Web App开发 数据安全/隐私保护 容器
Chaos带你快速上手混沌工程实验报告
Chaos带你快速上手混沌工程实验报告
163 0
Chaos带你快速上手混沌工程实验报告
|
监控 Java 容器
Chaos带你快速上手混沌工程-学习记录
Chaos带你快速上手混沌工程-学习记录
116 0
|
监控 搜索推荐 容灾
Chaos带你快速上手混沌工程实战体验2
Chaos带你快速上手混沌工程实战体验2
373 0
Chaos带你快速上手混沌工程实战体验2
|
Web App开发 Kubernetes 监控
Chaos带你快速上手混沌工程实战体验
Chaos带你快速上手混沌工程实战体验
179 0
Chaos带你快速上手混沌工程实战体验

热门文章

最新文章