简述:
我是一名云运维工程师,在日常工作中负责对各个业务系统的运维工作,包括服务ecs实例,监控告警,网络排查等;这次在阿里的社区了解到云服务诊断这个功能,与我的工作内容有很大的贴合性,就在官方文档的说明下,简单测试一下该功能的实用性,欢迎社区各位技术大牛一起讨论~~~
准备工作:
- 建议先了解下官方文档,在文档中可以先初步了解下云服务诊断这个功能的说明,简单的说就是知道他是干嘛的,然后才能为后面的操作奠定一个基础思路。
- 申请一台阿里云账号,试用或者自主申请一台测试ecs服务器(可以自己随意操作),在服务器创建好后,操作前可以做一个快照备份,避免操作测试后想要恢复却没有备份!
- 了解首页的功能点的作用,选择想要诊断的项目;可以通过创建诊断任务,来观察检测各方面的状态。
在这个诊断的功能中有很多项目可以进行操作,选择自己想要尝试的或者常见的进行下模拟,这样和之前的感受可以做一个对比;这里我选了两种工作中比较常见的项目进行诊断!
- --Ecs远程无法访问诊断--
首先我找了一台测试服务器把网卡down掉后(也可以使用防火墙/iptables配置阻止规则模拟),导致的结果是这台服务器现在是无法访问的,这种无法远程的场景在日 常工作中比较常见(例如机器重启后网卡配置文件识别有问题,就会导致网卡起不来),然后我就使用了检测平台的诊断功能;
查看当前机器网卡名称
ip a
关掉网卡
ip link set down 网卡名称
下面是诊断结果:
在整个诊断下来的过程是很快速的,在时间的反馈上很及时;诊断下来后给了我两个结果提供了一定的解决思路,包括检测内网连通性和云上安全组配置,dns配置的排查步骤,但是与我实际发生的情况还是有一定出入的,希望在这可以补充常见基于实例本身的排查思路,以及一些常见问题的解决方法!
总体来说这输出的解决思路适用的范围比较广泛,该故障诊断给的参考性是比较好的;如果要逐一细心排查,希望补充一部分不限于平台上网络安全产品的排查思路作为参考。
- --Ecs实例负载高诊断--
服务器:测试ecs
模拟工具: stress
操作步骤:
更新最新yum库:
yum update -y
安装模拟测试软件:
yum install stress -y
创建cpu模拟:
stress --cpu $(nproc) --timeout 300s
创建内存模拟:
stress --vm 1 --vm-bytes 1024M --timeout 300s
下面我们来看诊断结果
在执行命令后,机器的负载已经开始到达高水位,进行诊断操作从开始到结束很快速,准确的定位到了问题的点,这一点给使用者一个很好的反馈;可以根据结果对后面的信息进行详情查看。
本次模拟测试我只使用了一台服务器,这样看下来效率提升不是很直观,因为直接就可以在实例控制台就能看见;但如果是一个大的生产环境,涉及多套业务系统,几十台或者上百台服务器,那这个监控诊断给的效率可以说是大大提高!
最后来看一下我的服务器整个健康状态:
每个记录都很详细,可以准确的看出来我的服务问题的点,简洁方便。
总体来说,这个云服务诊断的功能是很不错的,在日常工作运维中可以提供不少的帮助和参考内容~~~