混沌工程平台ChaosBlade-Box 新版重磅发布

本文涉及的产品
函数计算FC,每月15万CU 3个月
注册配置 MSE Nacos/ZooKeeper,118元/月
可观测可视化 Grafana 版,10个用户账号 1个月
简介: 从早期的单机架构到微服务架构,再到现在的云原生架构,系统架构越来越复杂。在这样复杂的系统架构里如何快速定位问题,或将问题前置以提前暴露解决从而提高整个系统的韧性,变得尤为重要。

混沌工程平台ChaosBlade-Box

新版重磅发布

——蔡铭霞

ChaosBlade Maintainer

一、混沌工程是什么

image.png

2020 11 月,AWS 服务大面积故障,多个云服务受到影响,最终问题定位花费 4 小时,完全修复花费 15 小时。在不到一月时间里,谷歌出现了当年第三次大规模宕机,持续45 分钟,波及 20 亿用户,预估损失 170 万美元广告收入。


从早期的单机架构到微服务架构,再到现在的云原生架构,系统架构越来越复杂。在这样复杂的系统架构里如何快速定位问题,或将问题前置以提前暴露解决从而提高整个系统的韧性,变得尤为重要。

image.png

混沌工程通过主动注入故障的方式来暴露系统薄弱点,从而提高系统韧性一种方法。


云原生架构的原则可以与混沌工程原则实现多对多匹配。


以服务化原则为例,服务化潜在挑战是服务如何治理,也可以转化为强弱依赖问题,即服务之间是强依赖还是弱依赖。混沌工程通过不断最小化其爆炸半径,从机器到应用再到某个接口,通过对应用接口进行故障注入判断服务之间的调用是否正常,最终判断其依赖关系是强还是弱。

image.png

混沌工程的目标是打造韧性架构,包括韧性系统韧性组织两个维度


韧性系统包括冗余性、扩展性、不可变基础设施以及避免级联故障。比如,系统有多个单元或集群,对某单元或集群进行断网演练,通过整个系统是否能够自动扩展或自动扩缩容,是否能够正常提供服务来判断其是否具有冗余和扩展性。


韧性组织指高效交付效率、面向失败设计和应急响应机制。阿里内部主要通过1-5-10演练以及红蓝攻防演练来不断打造组织的韧性。


综上所述,混沌工程即通过主动注入故障的方式,提前发现系统薄弱点,推进架构改进,最后实现业务韧性。

image.png

混沌工程对于不同身份都能够带来不同的业务价值:对于价架构师而言,它可以验证系统架构的容错能力;对于开发或运维而言,它能够不断提高故障应急效率;对于测试人员而言,它能够提早暴露线上问题,降低故障复发率;对于产品和设计而言,它能够提高提升客户体验。


二、如何落地混沌工程


企业或业务如何快速落地混沌工程?

可以通过混沌工程实验实施工具 ChaosBlade

image.png

ChaosBlade 提供了 3+4 环境、200+ 场景以及 3000 + 参数。3+4 环境能够支持在 Linux 环境、Linux 环境的物理机或虚拟机上、 Docker 以及 K8S 环境下进行部署,支持 JavaC++Node.js 等不同应用层的故障注入。


ChaosBlade 是一个端侧工具,在业务实际落地过程中还会遇到其他问题,比如如何方便地、可视化地进行故障注入,如何对多个集群进行故障注入,如何整体演练统计信息等。想要解决上述问题,需要在故障注入工具层上再加一层平台侧来管控和编排这些演练工具,从而帮助企业进行落地。

image.png

上图为 ChaosBlade 新版开源平台架构。主要分为前端用户界面交互层、后端逻辑处理层、部署在不同业务集群或业务主机上Agent 层以及端侧故障注入工具ChaosBlade


后端服务侧包括以下几个部分:

  • 演练引擎:包括流量编排、安全管控、演练报告等功能。
  • 演练执行:能够支持不同工具,不仅支持 ChaosBlade,也支持开源工具LitmusChaos
  • 演练经验库:将演练编排沉淀成经验库,供其他人复用。
  • 探针管理:支持主机和 K8S 不同环境下部署,并且能够对探针进行自动安装部署以及应用管理功能。

探针侧主要提供以下几个功能:

  • 对外提供 API 接口。
  • server 侧进行注册建联。
  • server 保持心跳。
  • 上报 k8s pod 数据。
  • 作为演练命令下发通道。

image.png

上图为新版ChaosBlade 平台概览。此次新版ChaosBlade支持中英文切换、全局命名空间切换,提供了快速启动导航,能够对演练记录进行统计以及提供演练日志大屏。


演练空间指对演练进行管理与统计,并且可以进行演练编排和故障注入。演练场景罗列了支持的所有演练场景,演练经验库即将历史演练沉淀为经验库,探针管理会对对探针上报的数据在应用管理侧进行统一管理,以及对探针进行自动安装和卸载等管理,支持主机和 k8s 环境。一键迁移功能支持从社区版一键迁移到企业版。

image.png

应用管理支持主机和k8s两种环境。在 k8s环境下,能够主动收集 Pod 相关数据,根据 pod 标签判断其属于哪一些应用并进行自动分类,不再需要获取集群上所有 pod 信息或 content 信息再进行演练,无须手动填写参数,而是以自动填充或选择和筛选的方式取而代之。

image.png

演练场景包括k8s和主机,可以分为系统资源和 Java 应用资源。演练经验库能够将之前编排好演练沉淀为演练经验库,供其他用户复用。

image.png

新版ChaosBlade-Box 演练流程如下:首先需要选择k8s 主机演练,k8s 又分为应用和非应用演练。应用演练可以通过应用管理来筛选具体的应用,此处选择非应用。然后选择集群,再选择演练场景。演练场景包括两种,分别是节点上 CPU 满载以及节点上网络乱序。


演练可支持两种编排模式,分别是顺序执行和阶段执行。顺序执行指先执行 CPU 满载再对 CPU 满载进行恢复,再进行网络乱序对网络乱序进行恢复,两种故障依次生效;阶段执行指同时进行 CPU 满载和网络乱序,执行生效后再进行恢复,两种故障同时生效。

image.png

执行演练后可查看演练结果,如上图。页面上方展示演练整体进度,支持自动停止和手动触发两种方式终止演练,能够避免因为系统问题导致演练意外故障而无法停止演练。比如可以设置为 15 分钟后自动恢复,如果server 端与 agent 失联,即使平台侧无法点击手动恢复按钮,可以通过设置好的 15 分钟自动恢复策略自动恢复。


页面展示的结果确认包括执行结果、错误信息、执行日志以及配置参数。

image.png

新版 ChaosBlade-box 还支持从社区版到企业版一键迁移,可将数据同步到企业版。


三、新版优势是什么?

image.png

新版 ChaosBlade 与企业版进行了内核统一,其优势主要体现在以下三个方面:


用户前端界面与企业版进行统一,支持更完善的中英文切换,并且支持命名空间切换。


后端侧提供了更流畅的演练编排、更完善的应用管理以及更好的对探针的管控。此外,还包括多种故障恢复策略以保障安全可恢复,支持一键迁移到社区版。


Agent 侧支持了多环境部署,支持不同环境演练通道,提供了更加完善的 API ,支持自动安装和卸载功能,能够主动收集数据并上报 server 端。

 

相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
相关文章
|
6月前
|
运维 监控 Android开发
应用研发平台EMAS产品常见问题之热更新和云发布不能共存如何解决
应用研发平台EMAS(Enterprise Mobile Application Service)是阿里云提供的一个全栈移动应用开发平台,集成了应用开发、测试、部署、监控和运营服务;本合集旨在总结EMAS产品在应用开发和运维过程中的常见问题及解决方案,助力开发者和企业高效解决技术难题,加速移动应用的上线和稳定运行。
|
消息中间件 存储 数据可视化
云工作流 CloudFlow 重磅发布,流程式开发让云上应用构建更简单
云工作流 CloudFlow 重磅发布,流程式开发让云上应用构建更简单
|
Kubernetes 前端开发 Cloud Native
混动工程平台 ChaosBlade-Box 新版重磅发布 | 学习笔记
快速学习混动工程平台 ChaosBlade-Box 新版重磅发布
混动工程平台 ChaosBlade-Box 新版重磅发布 | 学习笔记
|
测试技术 调度 C++
六年打磨!阿里开源混沌工程工具 ChaosBlade
减少故障的最好方法就是让故障经常性的发生。通过不断重复失败过程,持续提升系统的容错和弹性能力。今天,阿里巴巴把六年来在故障演练领域的创意和实践汇浓缩而成的工具进行开源,它就是 “ChaosBlade”。如果你想要提升开发效率,不妨来了解一下。
11959 0
|
6月前
|
Kubernetes 安全 Go
对于阿里开源混沌工程工具chaosblade-box-agent心跳报错问题的分析与解决
摘要: 本文记录了一个由chaosblade-box平台后台发现的偶发的chaosblade-box-agent不发送心跳的问题,从报错日志入手,结合chaosblade-box-agent源码进行分析,最终解决问题并修复打包的过程。
428 7
|
6月前
|
人工智能 Kubernetes Cloud Native
ChaosMeta V0.7.0 版本发布 & 进入CNCF混沌工程全景图
混沌工程 ChaosMeta 的全新版本 V0.7.0 现已正式发布!该版本包含了许多新特性和增强功能,在编排界面提供了多集群管理,在代码层面支持多命令下发通道的选择。另外由蚂蚁集团发起的ChaosMeta于北京时间2024年1月10日正式进入CNCF混沌工程全景图。
113 0
|
Kubernetes 监控 Cloud Native
蚂蚁集团混沌工程 ChaosMeta V0.5 版本发布
ChaosMeta V0.5 版本包含了许多新特性和增强功能,为用户提供了支撑混沌工程各个阶段的平台能力,以及降低使用门槛的用户界面
351 0
蚂蚁集团混沌工程 ChaosMeta V0.5 版本发布
|
6月前
|
tengine 算法 安全
ChaosBlade 是阿里巴巴开源的混沌工程工具
【2月更文挑战第23天】ChaosBlade 是阿里巴巴开源的混沌工程工具
134 1
|
6月前
|
IDE 小程序 开发工具
【社区每周】商家平台数据中心功能升级;IDE 3.4.1 Beta 版本上线(1月第一期)
【社区每周】商家平台数据中心功能升级;IDE 3.4.1 Beta 版本上线(1月第一期)
67 11

热门文章

最新文章

下一篇
无影云桌面