ChaosBlade 发布对 C++ 应用混沌实验的支持

本文涉及的产品
Serverless 应用引擎免费试用套餐包,4320000 CU,有效期3个月
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
注册配置 MSE Nacos/ZooKeeper,118元/月
简介: 前言为满足 C++ 应用系统故障演练,阿里妈妈安全生产团队开源了 C++ 混沌实验执行器,填补了 C++ 应用混沌工程实验的空白,其遵循《混沌实验模型》,可通过 ChaosBlade 工具直接执行。

lALPDgQ9q35gOP_NAdbNAwk_777_470_png_620x10000q90g

前言

为满足 C++ 应用系统故障演练,阿里妈妈安全生产团队开源了 C++ 混沌实验执行器,填补了 C++ 应用混沌工程实验的空白,其遵循《混沌实验模型》,可通过 ChaosBlade 工具直接执行。项目详情点击这里! 。

本文重点介绍该执行器的架构图、支持的实验场景,并以 Demo 为例介绍具体的使用方式,附录介绍了阿里妈妈内部混沌实验流程。

新版本 chaosblade 下载地址在这里!

实验场景

目前支持的 C++ 混沌实验场景如下,具体使用方式可详见下文:

  • 针对某个方法,或者某行代码注入延迟故障;
  • 针对某个方法,或者某行代码注入替换变量,或者对象值,可以制造调用第三方接口返回结果中包含错误码等等故障;
  • 针对某个方法,或者某行代码注入立刻退出方法并返回指定值(可以是错误值)的故障;

架构图

lALPDgQ9q35MxU7NA9jNBQA_1280_984_png_620x10000q90g
解释说明:

  • C++ 混沌实验执行器包括 8 个模块:模型匹配器模块、应用状态获取模块、流程控制模块、在应用运行中注入故障模块、应用未启动状态启动应用并注入故障模块、故障恢复模块、卸载实验器模块 和 日志记录模块;
  • 模型匹配器模块:会把用户传入的参数匹配《混沌实验模型》,发现不符合规范的参数,将停止执行,并返回用户相应提示;
  • 应用状态获取模块:获取待注入故障的 C++ 应用目前的状态;
  • 流程控制模块:可以控制整个实验器的运行流程;
  • 在应用运行中注入故障模块:在 C++ 应用运行状态时,在不改变应用原有代码,和编译文件的情况下,直接注入故障到进程;
  • 应用未启动状态启动应用并注入故障模块:在 C++ 应用未启动状态,在不改变应用原有代码,和编译文件的情况下,启动应用,并同时注入故障;
  • 故障恢复模块:当某一个实验或演练场景完成,基于该模块移除该场景的故障;
  • 卸载实验器模块:当所有实验或演练场景都完成,基于该模块移除应用所有故障,并退出 C++ 混沌实验执行器的进程;
  • 日志记录模块:可以把 C++ 混沌实验执行器运行过程中的情况记录到日志中;
  • C++ 应用:待注入故障的应用,在故障注入过程中,C++ 混沌实验执行器通过 attach 方式把 C++ 应用做为自己的子进程进行状态跟踪;
  • ChaosBlade:混沌实验注入工具;

使用方法

可以通过如下三种方式对 C++ 应用注入故障:

  • 登录待注入故障的机器,使用 chaosblade 提供的命令行方式实施演练;
  • 登录待注入故障的机器,手动启动 C++ 应用混沌实验执行器,直接调用执行器提供的 api 实施演练;
  • 通过混沌实验平台,可以很方便的对多台机器,甚至整个分组集群同时注入故障,阿里云 AHAS 后续会支持此执行器;

接下来,通过一个 C++ 应用混沌实验 DEMO 给大家介绍前两种方式怎样实现一次 C++ 应用的混沌实验。

C++ 应用混沌实验DEMO

这次实验,我们演练 linux 系统下 C++ 实现的 socket server 应用和 socket client 应用通讯的过程中,socket server 接口延迟 3 秒。接下来我们下载所需要的 Socket Demo:
Socket-server.tar.gz下载地址,详情参考这里

下载完成后,解压并编译:

g++ -g -c tcp_server.cpp -o tcp_server.o
g++ -g tcp_server.o main.cpp -I. -o server

Socket-client.tar.gz下载地址,详情参考这里

下载完成后,解压并编译:

g++ -g -c tcp_client.cpp -o tcp_client.o
g++ -g tcp_client.o main.cpp -I. -o client

启动 socket server:

./server 9527

启动 socket client:

./client 127.0.0.1 9527

启动成功以后会提示:"send message to server"

接下来输入想传给 socket server 内容比如:666

socket server 应用收到消息以后提示:

Received a connection from 127.0.0.1

Received message: 666
完成以上步骤表示 socket server 应用和 socket client 应用部署成功。

通过 chaosblade 的命令行方式实施演练
接下来我们要使用 blade 工具进行混沌实验,在执行实验前,我们需要先执行 prepare 命令,挂载所需要的 c++ agent:

./blade prepare cplus --port 8370 --wait-time 10

返回以下结果,表示实验准备成功:

{"code":200,"success":true,"result":"e669d57f079a00cc"}

我们开始实施混沌实验,调用 socket server 接口延迟 3 秒,我们执行以下命令:

./blade create cplus delay --delayDuration 3 --breakLine tcp_server.cpp:33 --fileLocateAndName /home/admin/socketServer/server --forkMode child --processName server --initParams 9527 --libLoad /home/lib

返回以下结果,表示执行成功;

{"code":200,"success":true,"result":"ec695fee1e458fc6"}

对实施实验的命令进行解析:

  • --delayDuration: 3,表示延迟 3 s;单位是 s (delay action 特有的过滤条件)
  • --breakLine: tcp_server.cpp:33, 加入断点的位置,可以是某一行,也可以是某个方法名 (对应混沌实验模型的 Matcher:实验规则匹配器)
  • --fileLocateAndName: /home/admin/socketServer/server,C++应用可执行文件的位置和名字 (对应混沌实验模型的 Matcher:实验规则匹配器)
  • --forkMode: child,表示我们把故障注入到子进程还是父进程 (对应混沌实验模型的 Matcher:实验规则匹配器)
  • --processName: server,可以唯一标识出C++应用进程的标识,比如进程名 (对应混沌实验模型的 Matcher:实验规则匹配器)
  • --initParams: 9527,C++ 进程正常启动的时候,启动命令中执行文件后面的参数 (对应混沌实验模型的 Matcher:实验规则匹配器)
  • --libLoad: /home/lib,如果启动C++ 进程的时候如果需要设置类库文件夹地址,可以在这里设置(比如 /home/lib),如果启动时,不需要加载自定义类库,该项可以填入空格 (对应混沌实验模型的 Matcher:实验规则匹配器)

完成实验后,可以执行如下命令停止当前延迟的混沌实验:

./blade destroy ec695fee1e458fc6

ec695fee1e458fc6 是之前创建实验返回的 UID

注:接收到 destroy 请求后,会删除与 UID 相对应的混沌实验规则。

不尽兴的话,我们再实施对 server 内部变量的修改,把 server 对外开放的监听端口 9527 改成 9529。

和刚才延迟命令参数差不多,因为相同的参数是演练 C++ 应用所需要的,不同的是没有了 --delayDuration,多了个 --varaibleName 和 --varaibleValue 参数。我们模拟调用刚才的服务对外开放的监听端口 9527 改成 9529:

./blade c cplus modify --varaibleName listen_port --varaibleValue 9529 --breakLine tcp_server.cpp:11 --fileLocateAndName /home/admin/socketServer/server --forkMode child --processName server --initParams 9527 --libLoad /home/lib

返回以下结果,并在 socket client 可验证端口是否被修改。

{"code":200,"success":true,"result":"09dd96f4c062df69"}

停止此次试验:

./blade destroy 09dd96f4c062df69

最后,我们撤销刚才的实验准备,即卸载 c++ Agent:

./blade revoke e669d57f079a00cc

直接调用执行器提供的 api 实施演练
挂载所需要的 c++ agent:

nohup java -jar chaosblade-exec-cplus.jar --server.port=8703 --script.location=/home/staragent/plugins/monkeyking/chaosblade/lib/cplus/ &

开始故障注入,发送 url 请求:

chaosblade/create?suid=e669d57f079a00cc&target=cplus&action=delay&breakLine=tcp_server.cpp:33&fileLocateAndName=/home/admin/socketServer/server&forkMode=child&processName=server&delayDuration=3&initParams=9527&libLoad=

其中请求参数为

{
    "suid": "e669d57f079a00cc",
    "target": "cplus",
    "action": "delay",
    "breakLine": "tcp_server.cpp:33",
    "fileLocateAndName": "/home/admin/socketServer/server",
    "forkMode": "child",
    "processName": "server",
    "delayDuration": “3”,
    "initParams": "9527",
    "libLoad": ""
}

这种方式增加了几个参数,解析如下:

create: 创建混沌实验请求

suid: 请求参数,实验的 ID,后续停止实验会用到此 ID

target: 请求参数,实验的组件目标,cplus 代表 针对 C++ 应用的实验

action: 请求参数,执行实验的场景,delay

注:

suid、target、action 是 create 请求的必要参数, breakLine、fileLocateAndName、forkMode、processName、delayDuration、initParams、libLoad 参数根据 target 和 action 的不同而不同。

接收到请求,会根据 target 和 action 调用参数校验器,验证参数值是否合法,如果合法,则记录此次试验;

对应组件埋点触发时,如果查询到有此组件的实验,则获取匹配器所需参数,和下发的实验规则进行匹配,匹配成功,则调用场景执行器触发实验。

停止此次试验,通过发url 请求:chaosblade/destroy?suid=ec695fee1e458fc6

其中请求参数是:

{
    "suid": "ec695fee1e458fc6"
}

suid: 请求参数,之前创建实验返回的 UID

最后,我们撤销刚才的实验准备,即卸载 c++ Agent,通过发url 请求:chaosblade/remove

后续规划

后续会加入更多混沌实验场景,也欢迎大家试用,提 issue、pr,star, 一起交流、探索和完善。

chaosblade github 地址点击这里

github 地址点击这里

附录

实验流程 & 原理

lADPDgQ9q35MxUrNBt7NBLI_1202_1758_jpg_620x10000q90g
解释说明:

以上流程中,在实际的故障模拟演练,或突袭演练中,实验准备阶段,故障注入阶段,故障恢复阶段 和 实验器卸载阶段,为故障注入方(或蓝军)操作,故障效果采集监控项有效性验证,故障处置阶段为故障模拟成功以后,故障注入方(或蓝军)确认故障注入效果,也是故障处置方(或红军)接收报警,定位,并处置故障的阶段;

实验执行器底层基于 GDB 实现,故障注入阶段有提到启动 gdb 一步。

本文作者:
周鹏飞,花名鹏毅(@leonardo669),C++混沌实验执行器作者,阿里巴巴技术专家。

相关文章
|
2月前
|
存储 并行计算 安全
C++多线程应用
【10月更文挑战第29天】C++ 中的多线程应用广泛,常见场景包括并行计算、网络编程中的并发服务器和图形用户界面(GUI)应用。通过多线程可以显著提升计算速度和响应能力。示例代码展示了如何使用 `pthread` 库创建和管理线程。注意事项包括数据同步与互斥、线程间通信和线程安全的类设计,以确保程序的正确性和稳定性。
|
6月前
|
存储 安全 C++
C++中的引用和指针:区别与应用
引用和指针在C++中都有其独特的优势和应用场景。引用更适合简洁、安全的代码,而指针提供了更大的灵活性和动态内存管理的能力。在实际编程中,根据需求选择适当的类型,能够编写出高效、可维护的代码。理解并正确使用这两种类型,是掌握C++编程的关键一步。
77 1
|
6月前
|
算法 开发工具 计算机视觉
【零代码研发】OpenCV实验大师工作流引擎C++ SDK演示
【零代码研发】OpenCV实验大师工作流引擎C++ SDK演示
85 1
|
7月前
|
C++
C++中的封装、继承与多态:深入理解与应用
C++中的封装、继承与多态:深入理解与应用
152 1
|
2月前
|
存储 编译器 C++
【C++篇】揭开 C++ STL list 容器的神秘面纱:从底层设计到高效应用的全景解析(附源码)
【C++篇】揭开 C++ STL list 容器的神秘面纱:从底层设计到高效应用的全景解析(附源码)
57 2
|
3月前
|
编译器 C++
【C++核心】函数的应用和提高详解
这篇文章详细讲解了C++函数的定义、调用、值传递、常见样式、声明、分文件编写以及函数提高的内容,包括函数默认参数、占位参数、重载等高级用法。
23 3
|
4月前
|
存储 算法 C++
C++ STL应用宝典:高效处理数据的艺术与实战技巧大揭秘!
【8月更文挑战第22天】C++ STL(标准模板库)是一组高效的数据结构与算法集合,极大提升编程效率与代码可读性。它包括容器、迭代器、算法等组件。例如,统计文本中单词频率可用`std::map`和`std::ifstream`实现;对数据排序及找极值则可通过`std::vector`结合`std::sort`、`std::min/max_element`完成;而快速查找字符串则适合使用`std::set`配合其内置的`find`方法。这些示例展示了STL的强大功能,有助于编写简洁高效的代码。
52 2
|
4月前
|
存储 搜索推荐 Serverless
【C++航海王:追寻罗杰的编程之路】哈希的应用——位图 | 布隆过滤器
【C++航海王:追寻罗杰的编程之路】哈希的应用——位图 | 布隆过滤器
37 1
|
4月前
|
JSON Android开发 C++
Android c++ core guideline checker 应用
Android c++ core guideline checker 应用
|
6月前
|
关系型数据库 MySQL 测试技术
技术分享:深入C++时间操作函数的应用与实践
技术分享:深入C++时间操作函数的应用与实践
47 1
下一篇
无影云桌面