冬季实战营第四期学习报告3:Chaos带你快速上手混沌工程

本文涉及的产品
容器服务 Serverless 版 ACK Serverless,317元额度 多规格
容器服务 Serverless 版 ACK Serverless,952元额度 多规格
简介: 本场景主要介绍混沌工程的思想及其原理,体验故障演练(AHAS Chaos),阿里云在混沌工程领域的产品。

简介
本场景涉及到以下技术或产品:

容器服务ACK:
容器服务Kubernetes版(简称ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理;是国内唯一入选2020年Gartner公共云容器报告的产品,并在2019年Forrester容器报告中获国内排名第一;整合了阿里云虚拟化、存储、网络和安全能力,助力企业高效运行云端Kubernetes容器化应用。

故障演练Chaos:
故障演练(Chaos)是云原生混沌工程平台,提供了大规模、低成本、影响可控、形式多样化的故障演练服务。Chaos提供一站式架构分析、故障巡检、故障注入、系统稳态度量等功能,帮助用户增强分布式系统的容错性和可恢复性,帮助系统平稳上云。

原理介绍
相信您一定有在新闻联播里看到过解放军某某兵团在某地进行军事实战演练的新闻,对于军队来说,最好的训练方式就是实兵演习。即使平时的训练已经已经非常系统和完善,但到了真正的实战中仍然可能会出现各种各样平时训练预想不到的问题。所以只有真正的实战演练才能发现问题,才能更好的规划下一阶段的训练,提高军队的战斗力。

面向失败设计
我们的软件系统不也是一样吗?“Everything fails, all the time.” 在平时的开发过程中,即使我们已经预想了各种各样的场景,修复好了所有的bug,但一旦上线总会出现各种各样的情况。我们的软件系统,同样也需要这样的实战演练。您需要在一开始的系统设计阶段就考虑到各种失败场景,把面向失败当成系统设计的一部分,并且准备好从失败中恢复的策略,这有助于更好地提升整个系统的可用性。只有您意识到事情会随着时间的推移而失败,并将这种思想融入到体系结构中,那么在失败发生的时候您才能完全不受影响或者将失败损失降到最低。

故障演练
混沌工程正是在这种面向失败设计思想下催生的。面对失败设计,要求我们提前为失败做好准备,但是我们准备的这些措施在故障真实发生时是否真的有效?恢复故障的工具是否实现了容灾?处理故障的人员是否熟练?这些问题,很难得到验证,却往往会在真实的故障中暴露出来。而这就是混沌工程的意义所在,混沌工程就像演习一样,通过有目的的制造故障,找出系统可能存在的弱点,从而验证在真实复杂的环境下,系统、人员应对各种突发问题的能力是否符合预期,提升系统的免疫能力。故障演练(Chaos)提供的正是这样的能力。

还可以通过使用MSHA快速体验异地、同城多活容灾。动手实验室地址:
https://developer.aliyun.com/adc/scenario/998a993afe624e3eadcf5f8f6b791064

体验收获
体验该场景后,可以学习到:通过故障演练给系统快速注入故障,通过架构感知直观地观察系统架构以及通过Chaos一站式实现微服务强弱依赖治理。与此同时,还可以获得任务积分并完成任务进度。

相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
相关文章
|
测试技术 调度 C++
六年打磨!阿里开源混沌工程工具 ChaosBlade
减少故障的最好方法就是让故障经常性的发生。通过不断重复失败过程,持续提升系统的容错和弹性能力。今天,阿里巴巴把六年来在故障演练领域的创意和实践汇浓缩而成的工具进行开源,它就是 “ChaosBlade”。如果你想要提升开发效率,不妨来了解一下。
11918 0
|
9月前
|
运维 关系型数据库 MySQL
九五从零开始的运维之路(其三十五)
MHA(MasterHigh Availability)是一套优秀的MySQL高可用环境下故障切换和主从复制的软件。 MHA 的出现就是解决MySQL 单点的问题。 MySQL故障切换过程中,MHA能做到0-30秒内自动完成故障切换操作。 MHA能在故障切换的过程中最大程度上保证数据的一致性,以达到真正意义上的高可用。
60 2
|
9月前
|
运维 安全 Linux
九五从零开始的运维之路(其二十二)
SSH服务是Linux系统中重要的远程访问和管理工具,通过深入探索其原理、配置、安全性和常见问题解决方法,读者可以更好地理解和使用SSH服务,提高系统的安全性和效率。
44 0
|
9月前
|
存储 运维 网络协议
九五从零开始的运维之路(其二十五)
iscsi全称:Internet Small Computer System Interface——互联网小型计算机接口 通过网络获取磁盘设备在本地进行存储使用。
61 0
|
9月前
|
运维 安全 网络协议
九五从零开始的运维之路(其二十一)
本篇将简述的内容:Linux系统下的文件共享服务器
51 0
|
9月前
|
运维 关系型数据库 MySQL
九五从零开始的运维之路(其二十八)
数据库用户权限管理是数据库系统中非常重要的一个方面,它用于控制不同用户访问和操作数据库的权限范围。数据库用户权限管理可以保护敏感数据和数据库结构,确保只有被授权的用户才可以操作和使用数据库,防止数据被修改或泄露,并最大程度地保证数据库的安全。为了保护数据库的安全性,合理管理MySQL服务用户的权限是至关重要的。
41 0
|
9月前
|
存储 运维 Linux
九五从零开始的运维之路(其三十一)
计划任务是在指定的时间间隔内自动执行的任务。在Linux系统中,常用的计划任务工具是crond(cron daemon)。用户可以通过创建计划任务来定期执行指定的命令或脚本。
53 0
|
9月前
|
存储 运维 关系型数据库
九五从零开始的运维之路(其二十九)
数据库备份是指将数据库中的数据、表格、视图、存储过程、触发器等信息备份到另一个地方,以便在数据库丢失或损坏时进行恢复。数据库备份是数据库管理中必不可少的一项工作,通过备份可以保护数据库中的数据和业务
63 0
|
9月前
|
运维 应用服务中间件 网络安全
九五从零开始的运维之路(其十八)
本篇将简述的内容:Linux系统下的Nginx基本部署
35 0
|
9月前
|
存储 运维 网络安全
九五从零开始的运维之路(其十七)
通过这篇博客总结,可以了解到关于Apache服务器的基本知识和使用技巧
64 0