一、引言
我是一名运维开发工程师,平时会涉及到云资源的运维。本次测评旨在体验阿里云提供的云服务诊断工具,该工具面向运维工程师及开发者,旨在帮助用户快速定位和解决云资源问题。工具包含「健康状态」和「诊断」两大核心功能,能够实时查看云资源健康状态并排查多种问题。
当业务系统出现问题时,可第一时间查看账号下云资源(每个实例)「健康状态」是否正常。若正常则可快速排除阿里云云服务的异常,转而及时排查其它方面原因。可通过「诊断」实时排查网站无法访问、ECS无法访问、错误配置、安全风险、高负载、宕机、超限、欠费等问题,并根据修复建议及时解决问题,快速恢复业务。
二、帮助文档评估
1、 文档清晰度:帮助文档清晰的描述了健康状态和诊断的定义、意义、使用。
文档里描写逻辑比较清晰,针对各个产品的不可用定义,可以列举些实际的例子,可以辅助读者更好的理解。比如这个读写性能严重下降,大抵下降多少才算严重。是否有具体的数字指导,希望描述都可以量化。
2、 功能描述准确性:检查文档中对云资源健康状态及诊断功能的描述是否准确。
这里画红线中是说云资源异常都是阿里云这边引起的吗?或者只有阿里云自身引起的故障才会在云资源健康状态标记为异常?
三、云资源健康状态功能体验
1、 开通流程:记录开通云资源健康状态功能的步骤和体验。
开通比较简单,操作也很便捷明了。
1)访问云服务诊断控制台,点击确认。
2)健康概览。
3)点击资源,可以查看每个具体资源的健康状态,比如这里的函数计算。
2、ECS实例健康状态查看:
- 详细描述查看ECS实例健康状态的过程和界面。
可用性解释:
ECS状态变化可以精确到秒,但是不知道如何查看秒级的状态。
3、功能评价:
可以快速看到自己保有云资源的健康状态,一旦使用出问题,可以优先来判断是否阿里云自身引起的,至少提高了50%的工作效率。
问题1:FC函数计算的可用性不太理解,比如s-service函数没有调用,服务器自然也没有收到请求,那么这个可用性是怎么计算的,还有参考意义吗?
问题2:我账号有下有12个函数计算,但云资源健康状态只能识别到11个,这个是什么原因。
四、诊断功能体验
1、场景诊断/一键诊断:
两三步就可以构建场景诊断,操作简单易用。
1)一键诊断。一键为您全方位诊断云上资源,一次性解决问题,免去您逐个排查的烦恼。当前只支持ECS产品。
诊断出实例底层存在网络丢包,需要重启解决。
系统防火墙检查配置可以自动修复,并可以选择是否执行。
诊断任务存档。
2)场景诊断。根据问题现象,选择匹配的诊断工具进行专项诊断,快速定位原因和修复。
针对网站的可用性诊断,需要开通云拨测服务。
诊断场景:ECS 远程无法访问
2、 诊断结果分析:
诊断结果会把异常问题分级,同时会给出异常详情及解决方案,甚至还可以进行自动化修复。
诊断结果值得商榷,比如这个诊断ECS远程无法访问,其实当前时间段是正常的。但提供诊断结果该实例在2024年12月11日 07:24:00遇到了底层网络链路丢包问题,可能导致实例性能受损,目前该问题已恢复。和要诊断的场景没有关系。
3、修复建议:
提供的修复建议感觉不太科学,正常的防火墙都需要开启的,通过安全组来按需开放要使用的端口,但自动化修复却让关闭防火墙,这会引起安全问题。
4、 功能评价:
目前一键诊断和ECS无法访问的诊断项是相同的,诊断结果也是一样,没有看出有什么区别。
我理解一键诊断应该包括所有的基础诊断内容,等诊断到某一类问题的时候,比如ECS实例负载高,然后再从这个场景去深度进行诊断,比如是CPU负载高还是IO负载高等等。所以一键诊断与特定场景的诊断项应该设置为不同的,看看是否能进行优化。
五、总结与建议
1、 总体评价:
- 可以快速查看到自己所拥有的云资源健康状态,且细分至每一个实例的每一个小时。
- 云资源有故障问题时,可以通过看板直接明了的来排除是否为阿里云服务的问题引起,提升排障效率,快速恢复业务。
- 有一键诊断和场景诊断,可以生成诊断结果、异常详情和修复建议,这种根因分析完全是运维人员的福音。
2、 改进建议:
针对体验过程中发现的问题或不足,提出些建议。
- 是否可以给每个云资源设置一个健康度的指标,可以用来评估它发生故障的频率。
- 是否可以展示函数计算中API调用情况的健康情况。
- 在异常的时候,需要阿里云工程师介入处理,是否可以在异常提示处直接带入相关故障信息跳转到工单。
- 诊断结果是否可以支持导出PDF来做本地存档。
- 进一步优化一键诊断的诊断项,这个功能应该比场景诊断使用的多。
3、推荐程度:
- 四颗星推荐,作为一款免费工具,大大降低了用户的运维成本。当云资源出现异常时,用户能第一时间得到通知,从而迅速采取措施。
- 用户界面友好,易于上手,可以享受到更加高效、准确和智能的诊断服务。