产品测评 | ECS的健康保障新助手——云服务诊断

本文涉及的产品
函数计算FC,每月15万CU 3个月
简介: 本文评测了阿里云的云服务诊断工具,该工具旨在帮助运维工程师和开发者快速定位和解决云资源问题。工具提供了“健康状态”和“诊断”两大核心功能,能够实时监控云资源状态,排查如网站无法访问、ECS故障等多种问题,并给出修复建议。该工具显著提升了排障效率,但在文档清晰度、功能描述准确性及部分功能实现上仍有改进空间。总体而言,该工具值得推荐给其他用户或团队使用。

一、引言

我是一名运维开发工程师,平时会涉及到云资源的运维。本次测评旨在体验阿里云提供的云服务诊断工具,该工具面向运维工程师及开发者,旨在帮助用户快速定位和解决云资源问题。工具包含「健康状态」和「诊断」两大核心功能,能够实时查看云资源健康状态并排查多种问题。

当业务系统出现问题时,可第一时间查看账号下云资源(每个实例)「健康状态」是否正常。若正常则可快速排除阿里云云服务的异常,转而及时排查其它方面原因。可通过「诊断」实时排查网站无法访问、ECS无法访问、错误配置、安全风险、高负载、宕机、超限、欠费等问题,并根据修复建议及时解决问题,快速恢复业务。

二、帮助文档评估

1、 文档清晰度:帮助文档清晰的描述了健康状态和诊断的定义、意义、使用。

image.png

image.png

文档里描写逻辑比较清晰,针对各个产品的不可用定义,可以列举些实际的例子,可以辅助读者更好的理解。比如这个读写性能严重下降,大抵下降多少才算严重。是否有具体的数字指导,希望描述都可以量化。
image.png

2、 功能描述准确性:检查文档中对云资源健康状态及诊断功能的描述是否准确。

这里画红线中是说云资源异常都是阿里云这边引起的吗?或者只有阿里云自身引起的故障才会在云资源健康状态标记为异常?
image.png

三、云资源健康状态功能体验

1、 开通流程:记录开通云资源健康状态功能的步骤和体验。

开通比较简单,操作也很便捷明了。
1)访问云服务诊断控制台,点击确认。
image.png

2)健康概览。
image.png

3)点击资源,可以查看每个具体资源的健康状态,比如这里的函数计算。

image.png

2、ECS实例健康状态查看
  • 详细描述查看ECS实例健康状态的过程和界面。

image.png

  • 可用性解释:
    image.png

  • ECS状态变化可以精确到秒,但是不知道如何查看秒级的状态。
    image.png
    image.png

3、功能评价

可以快速看到自己保有云资源的健康状态,一旦使用出问题,可以优先来判断是否阿里云自身引起的,至少提高了50%的工作效率。

问题1:FC函数计算的可用性不太理解,比如s-service函数没有调用,服务器自然也没有收到请求,那么这个可用性是怎么计算的,还有参考意义吗?
image.png
image.png

问题2:我账号有下有12个函数计算,但云资源健康状态只能识别到11个,这个是什么原因。
image.png
image.png

四、诊断功能体验

1、场景诊断/一键诊断

两三步就可以构建场景诊断,操作简单易用。

1)一键诊断。一键为您全方位诊断云上资源,一次性解决问题,免去您逐个排查的烦恼。当前只支持ECS产品。
image.png

诊断出实例底层存在网络丢包,需要重启解决。
image.png

系统防火墙检查配置可以自动修复,并可以选择是否执行。
image.png

诊断任务存档。
image.png

2)场景诊断。根据问题现象,选择匹配的诊断工具进行专项诊断,快速定位原因和修复。
image.png
image.png
image.png

针对网站的可用性诊断,需要开通云拨测服务。
image.png
image.png

诊断场景:ECS 远程无法访问
image.png
image.png

2、 诊断结果分析

诊断结果会把异常问题分级,同时会给出异常详情及解决方案,甚至还可以进行自动化修复。

诊断结果值得商榷,比如这个诊断ECS远程无法访问,其实当前时间段是正常的。但提供诊断结果该实例在2024年12月11日 07:24:00遇到了底层网络链路丢包问题,可能导致实例性能受损,目前该问题已恢复。和要诊断的场景没有关系。
image.png

3、修复建议

提供的修复建议感觉不太科学,正常的防火墙都需要开启的,通过安全组来按需开放要使用的端口,但自动化修复却让关闭防火墙,这会引起安全问题。
image.png

image.png

4、 功能评价

目前一键诊断和ECS无法访问的诊断项是相同的,诊断结果也是一样,没有看出有什么区别。
image.png
我理解一键诊断应该包括所有的基础诊断内容,等诊断到某一类问题的时候,比如ECS实例负载高,然后再从这个场景去深度进行诊断,比如是CPU负载高还是IO负载高等等。所以一键诊断与特定场景的诊断项应该设置为不同的,看看是否能进行优化。

五、总结与建议

1、 总体评价
  • 可以快速查看到自己所拥有的云资源健康状态,且细分至每一个实例的每一个小时。
  • 云资源有故障问题时,可以通过看板直接明了的来排除是否为阿里云服务的问题引起,提升排障效率,快速恢复业务。
  • 有一键诊断和场景诊断,可以生成诊断结果、异常详情和修复建议,这种根因分析完全是运维人员的福音。
2、 改进建议

针对体验过程中发现的问题或不足,提出些建议。

  • 是否可以给每个云资源设置一个健康度的指标,可以用来评估它发生故障的频率。
  • 是否可以展示函数计算中API调用情况的健康情况。
  • 在异常的时候,需要阿里云工程师介入处理,是否可以在异常提示处直接带入相关故障信息跳转到工单。
  • 诊断结果是否可以支持导出PDF来做本地存档。
  • 进一步优化一键诊断的诊断项,这个功能应该比场景诊断使用的多。
3、推荐程度
  • 四颗星推荐,作为一款免费工具,大大降低了用户的运维成本。当云资源出现异常时,用户能第一时间得到通知,从而迅速采取措施。
  • 用户界面友好,易于上手,可以享受到更加高效、准确和智能的诊断服务。
相关实践学习
通义万相文本绘图与人像美化
本解决方案展示了如何利用自研的通义万相AIGC技术在Web服务中实现先进的图像生成。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
2月前
|
弹性计算 安全 网络安全
阿里云服务器99元和199元专属套餐介绍:多元搭配,多云产品组合更划算
阿里云目前推出的经济型e实例2核2G3M带宽99元1年和通用算力型u1实例2核4G5M带宽199元1年,深受众多个人和普通企业用户的喜欢,用户在选择这两款云服务器的同时,还可搭配其他云产品组合购买,例如建站礼包、加36元防护主机安全、加36元防护主机安全、加99元解锁弹性数据库等套餐,通过套餐形式实现多个云产品同享优惠。
756 12
|
4月前
|
存储 弹性计算 数据挖掘
阿里云2核4G5M带宽199元云服务器测评:价格、性能、适用场景与续费优势详解
阿里云目前活动中推出的“2核4G5M带宽199元1年”云服务器,是当下深受初创企业用户喜爱的云服务器。本文将从价格优势、性能优势和续费优势等几个方面,详细解析这款阿里云199元云服务器的各项特点,帮助大家更好地了解这款云服务器的性能和应用场景,以供选择参考。
|
3月前
|
弹性计算 运维 负载均衡
阿里云轻量应用服务器产品介绍、收费标准以及搭建个人博客教程参考
本文为大家介绍阿里云轻量应用服务器的产品优势、应用场景、使用须知、地域与网络连通性、与云服务器ECS的区别以及使用轻量应用服务器搭建WordPress个人博客的图文教程,以供大家了解和使用轻量应用服务器。
|
4月前
|
存储 安全 数据挖掘
阿里云2核2G3M带宽99元云服务器测评:价格、性能与续费优势详解
阿里云推出的“2核2G3M带宽99元1年”云服务器,是当下深受用户喜爱的云服务器。这款云服务器以其极具竞争力的价格、出色的性能和超长的续费优势,吸引了众多初创企业、个人开发者以及中小企业用户的广泛关注。本文将从价格优势、性能优势和续费优势三个方面,详细解析这款阿里云99元云服务器的各项特点,帮助大家更好地了解这款云服务器的性能和应用场景,以供选择参考。
|
4月前
|
云安全 弹性计算 安全
阿里云服务器安全功能解析:基础防护与云安全产品参考
在使用云服务器的过程中,云服务器的安全问题是很多用户非常关心的问题。阿里云服务器除了提供基础的防护之外,还提供了一系列安全防护类云产品,以确保用户云服务器的安全。本文将详细介绍阿里云服务器的基础安全防护有哪些,以及阿里云的一些安全防护类云产品,帮助用户更好地理解和使用阿里云服务器的安全功能。
|
8月前
|
弹性计算 运维 监控
【阿里云】控制台使用指南:从创建ECS到系统诊断测评
本文介绍了如何通过阿里云获取ECS云服务器并进行操作系统配置与组件安装,以实现高效的资源管理和系统监控。阿里云凭借强大的基础设施和丰富的服务成为用户首选。文中详细描述了获取ECS、RAM授权、开通操作系统控制台及组件安装的步骤,并展示了如何利用控制台实时监控性能指标、诊断系统问题及优化性能。特别针对idle进程进行了深入分析,提出了优化建议。最后,建议定期进行系统健康检查,并希望阿里云能推出更友好的低成本套餐,满足学生等群体的需求。
438 17
【阿里云】控制台使用指南:从创建ECS到系统诊断测评
|
8月前
|
人工智能 运维 数据可视化
玩转云服务器——阿里云操作系统控制台体验测评
在云服务器日益普及的背景下,运维人员对操作系统管理工具的要求不断提高。我们需要一款既能直观展示系统状态,又能智能诊断问题,提供专业指导的控制台。阿里云操作系统管理平台正是基于API、SDK、CLI等多种管理方式,致力于提升操作效率,为用户带来全新的系统运维体验。阿里云操作系统控制台凭借便捷易用的设计和高效的管理功能,成为云服务器运维的强力助手。本次测评基于真实体验截图,对其整体表现进行了深入探索。
319 33
|
8月前
|
弹性计算 运维 安全
阿里云服务器通用算力型u1实例简单测评:性能、优势与最新价格参考
在阿里云2025年的活动中,独享型通用算力u1云服务器是用户比较关注的云服务器,因为它的性能要比活动内的经济型e实例好,但是价格又比计算型c8i、通用型g8i等其他企业级实例的价格要便宜。那么,独享型通用算力u1云服务器到底怎么样呢?它又有哪些优势呢?接下来,本文将为您详细解析。
|
9月前
|
弹性计算 JSON 安全
阿里云服务器产品评测报告
阿里云服务器安全体检与漏洞修复

热门文章

最新文章