产品测评 | ECS的健康保障新助手——云服务诊断

本文涉及的产品
函数计算FC,每月15万CU 3个月
简介: 本文评测了阿里云的云服务诊断工具,该工具旨在帮助运维工程师和开发者快速定位和解决云资源问题。工具提供了“健康状态”和“诊断”两大核心功能,能够实时监控云资源状态,排查如网站无法访问、ECS故障等多种问题,并给出修复建议。该工具显著提升了排障效率,但在文档清晰度、功能描述准确性及部分功能实现上仍有改进空间。总体而言,该工具值得推荐给其他用户或团队使用。

一、引言

我是一名运维开发工程师,平时会涉及到云资源的运维。本次测评旨在体验阿里云提供的云服务诊断工具,该工具面向运维工程师及开发者,旨在帮助用户快速定位和解决云资源问题。工具包含「健康状态」和「诊断」两大核心功能,能够实时查看云资源健康状态并排查多种问题。

当业务系统出现问题时,可第一时间查看账号下云资源(每个实例)「健康状态」是否正常。若正常则可快速排除阿里云云服务的异常,转而及时排查其它方面原因。可通过「诊断」实时排查网站无法访问、ECS无法访问、错误配置、安全风险、高负载、宕机、超限、欠费等问题,并根据修复建议及时解决问题,快速恢复业务。

二、帮助文档评估

1、 文档清晰度:帮助文档清晰的描述了健康状态和诊断的定义、意义、使用。

image.png

image.png

文档里描写逻辑比较清晰,针对各个产品的不可用定义,可以列举些实际的例子,可以辅助读者更好的理解。比如这个读写性能严重下降,大抵下降多少才算严重。是否有具体的数字指导,希望描述都可以量化。
image.png

2、 功能描述准确性:检查文档中对云资源健康状态及诊断功能的描述是否准确。

这里画红线中是说云资源异常都是阿里云这边引起的吗?或者只有阿里云自身引起的故障才会在云资源健康状态标记为异常?
image.png

三、云资源健康状态功能体验

1、 开通流程:记录开通云资源健康状态功能的步骤和体验。

开通比较简单,操作也很便捷明了。
1)访问云服务诊断控制台,点击确认。
image.png

2)健康概览。
image.png

3)点击资源,可以查看每个具体资源的健康状态,比如这里的函数计算。

image.png

2、ECS实例健康状态查看
  • 详细描述查看ECS实例健康状态的过程和界面。

image.png

  • 可用性解释:
    image.png

  • ECS状态变化可以精确到秒,但是不知道如何查看秒级的状态。
    image.png
    image.png

3、功能评价

可以快速看到自己保有云资源的健康状态,一旦使用出问题,可以优先来判断是否阿里云自身引起的,至少提高了50%的工作效率。

问题1:FC函数计算的可用性不太理解,比如s-service函数没有调用,服务器自然也没有收到请求,那么这个可用性是怎么计算的,还有参考意义吗?
image.png
image.png

问题2:我账号有下有12个函数计算,但云资源健康状态只能识别到11个,这个是什么原因。
image.png
image.png

四、诊断功能体验

1、场景诊断/一键诊断

两三步就可以构建场景诊断,操作简单易用。

1)一键诊断。一键为您全方位诊断云上资源,一次性解决问题,免去您逐个排查的烦恼。当前只支持ECS产品。
image.png

诊断出实例底层存在网络丢包,需要重启解决。
image.png

系统防火墙检查配置可以自动修复,并可以选择是否执行。
image.png

诊断任务存档。
image.png

2)场景诊断。根据问题现象,选择匹配的诊断工具进行专项诊断,快速定位原因和修复。
image.png
image.png
image.png

针对网站的可用性诊断,需要开通云拨测服务。
image.png
image.png

诊断场景:ECS 远程无法访问
image.png
image.png

2、 诊断结果分析

诊断结果会把异常问题分级,同时会给出异常详情及解决方案,甚至还可以进行自动化修复。

诊断结果值得商榷,比如这个诊断ECS远程无法访问,其实当前时间段是正常的。但提供诊断结果该实例在2024年12月11日 07:24:00遇到了底层网络链路丢包问题,可能导致实例性能受损,目前该问题已恢复。和要诊断的场景没有关系。
image.png

3、修复建议

提供的修复建议感觉不太科学,正常的防火墙都需要开启的,通过安全组来按需开放要使用的端口,但自动化修复却让关闭防火墙,这会引起安全问题。
image.png

image.png

4、 功能评价

目前一键诊断和ECS无法访问的诊断项是相同的,诊断结果也是一样,没有看出有什么区别。
image.png
我理解一键诊断应该包括所有的基础诊断内容,等诊断到某一类问题的时候,比如ECS实例负载高,然后再从这个场景去深度进行诊断,比如是CPU负载高还是IO负载高等等。所以一键诊断与特定场景的诊断项应该设置为不同的,看看是否能进行优化。

五、总结与建议

1、 总体评价
  • 可以快速查看到自己所拥有的云资源健康状态,且细分至每一个实例的每一个小时。
  • 云资源有故障问题时,可以通过看板直接明了的来排除是否为阿里云服务的问题引起,提升排障效率,快速恢复业务。
  • 有一键诊断和场景诊断,可以生成诊断结果、异常详情和修复建议,这种根因分析完全是运维人员的福音。
2、 改进建议

针对体验过程中发现的问题或不足,提出些建议。

  • 是否可以给每个云资源设置一个健康度的指标,可以用来评估它发生故障的频率。
  • 是否可以展示函数计算中API调用情况的健康情况。
  • 在异常的时候,需要阿里云工程师介入处理,是否可以在异常提示处直接带入相关故障信息跳转到工单。
  • 诊断结果是否可以支持导出PDF来做本地存档。
  • 进一步优化一键诊断的诊断项,这个功能应该比场景诊断使用的多。
3、推荐程度
  • 四颗星推荐,作为一款免费工具,大大降低了用户的运维成本。当云资源出现异常时,用户能第一时间得到通知,从而迅速采取措施。
  • 用户界面友好,易于上手,可以享受到更加高效、准确和智能的诊断服务。
相关实践学习
2分钟自动化部署人生模拟器
本场景将带你借助云效流水线Flow实现人生模拟器小游戏的自动化部署
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
12天前
|
存储 运维 安全
阿里云弹性裸金属服务器是什么?产品规格及适用场景介绍
阿里云服务器ECS包括众多产品,其中弹性裸金属服务器(ECS Bare Metal Server)是一种可弹性伸缩的高性能计算服务,计算性能与传统物理机无差别,具有安全物理隔离的特点。分钟级的交付周期将提供给您实时的业务响应能力,助力您的核心业务飞速成长。本文为大家详细介绍弹性裸金属服务器的特点、优势以及与云服务器的对比等内容。
|
6天前
|
云安全 监控 安全
服务器的使用安全如何保障
德迅卫士主机安全软件,采用自适应安全架构,有效解决传统专注防御手段的被动处境,精准捕捉每一个安全隐患,为您的主机筑起坚不可摧的安全防线
|
23天前
|
弹性计算 运维 监控
云产品评测:云服务诊断 — ECS实例健康状态与诊断功能体验
作为一名运维工程师,我日常管理和维护云资源,确保服务稳定运行。阿里云的云服务诊断功能提供了便捷的方式实时了解和优化ECS实例的健康状态。通过健康状态功能,我能够查看CPU、内存等指标,及时发现并解决性能瓶颈,提升了约30%的工作效率。诊断功能则帮助我快速定位复杂问题,减少了40%的诊断时间,并提供详细的优化建议。尽管功能已很强大,但仍建议进一步细化诊断结果和增加自定义告警选项,以提升使用体验。我非常推荐此工具给其他运维人员。
65 22
|
1月前
|
弹性计算 数据挖掘 测试技术
ECS e实例测评
ECS e实例是阿里云推出的经济型云服务器,适合中小规模应用。性能上能满足基本需求,但在高并发场景下表现一般。性价比高,价格亲民,适合预算有限的开发者。用户体验良好,配有丰富的技术文档,但部分高级功能操作说明有待优化。
60 18
|
25天前
|
存储 缓存 安全
阿里云服务器通用算力型u1实例怎么样?实例性能与测评结果参考
本文将通过性能评测、适用场景、特点介绍、实测数据分享以及最新活动价格等多个方面,全方位解析这款云服务器实例,以供用户了解和参考。
|
27天前
|
弹性计算 监控 测试技术
ecs e实例测评
阿里云 e实例性能稳定,适用于中小型 Web 应用。在 CPU 和内存性能测试中,e实例表现出色,尤其在资源密集型任务中具有较高的性价比。相比同配置的其他 ECS 规格,e实例在轻量化场景中更为均衡。价格方面,e实例低于传统 ECS 的 t5 实例,且在中国大陆市场具备一定优势。用户体验方面,控制台提供了清晰的实例创建流程和快速部署选项,但缺乏高级应用文档和性能优化指导。总体而言,e实例适合中小型企业和个人开发者使用。
49 5
|
1月前
|
弹性计算 运维 开发者
关于ECS 健康状态 诊断功能评测
这是一位开发兼运维工程师的观点,认为云资源的健康状态和诊断功能作用有限,因为大多数问题根源在于代码质量,而这些工具无法改善低下的代码质量导致的资源异常。
|
2月前
|
安全 网络安全 开发者
2024 全网热门的服务器面板测评推荐
在当今数字化时代,服务器管理的效率和便捷性对于企业和开发者来说至关重要。服务器面板作为服务器管理的得力助手,能够极大地简化操作流程,提高管理效能。本
2024 全网热门的服务器面板测评推荐
|
2月前
|
存储 弹性计算 数据库
阿里云服务器ECS产品试用、ECS试用攻略、试用宝典及试用产品续用相关活动介绍
阿里云服务器ECS产品免费试用是阿里云为新手用户提供的免费体验的权益,旨在为新手开发者提供 0 成本高质量的上云体验服务,打造开放,敏捷的开发者环境。阿里云为广大用户提供基础版、企业版试用产品服务(二选一),帮您0门槛轻松体验1个月,基础版最高可试用4核 (vCPU) 8 GiB配置,企业版最高可最高可试用8核 (vCPU) 16 GiB。本文为大家介绍云服务器ECS产品试用、试用宝典、ECS试用攻略及试用产品续用相关活动,以供参考。
|
4月前
|
分布式计算 大数据 数据挖掘
阿里云服务器计算型c8i、通用型g8i、内存型r8i实例测评与价格参考
阿里云服务器计算型c8i、通用型g8i、内存型r8i实例是阿里云的第八代云服务器实例规格,是除了计算型c7和c8y、通用型g7与g8y、内存型r7与r8y之外同样深受用户喜欢的云服务器实例规格。本文将详细介绍阿里云第八代云服务器中的计算型c8i、通用型g8i、以及内存型r8i实例,包括它们的技术特性、适用场景以及最新的活动价格信息。
阿里云服务器计算型c8i、通用型g8i、内存型r8i实例测评与价格参考