写在前面
在开始本文的测评之前,想先声明一下,这里我的账号是没有云服务器ECS的,因此本文按规则是不会参与评选的。但是作为对云产品比较热衷的技术人,个人还是想基于当前个人账号现有的资源来体验一下云服务诊断功能的功效,下面开始正文...
云服务诊断
在开始测评之前,先来了解一下什么是云服务诊断?也只有了解了这款云产品是什么,后面才知道应该用在哪儿。下面截取一段云服务诊断官方文档中的描述:【云服务诊断是面向客户运维工程师及开发者(以下简称为“用户”)提供的一款阿里云资源运维工具,包含「健康状态」和「诊断」两大核心功能。】(更多文档内容参考:https://help.aliyun.com/zh/management-console/what-is-cloud-service-diagnostics)
简单的理解就是云服务诊断是一款针对阿里云资源提供的运维工具,可以通过这款工具直观的检测阿里云资源的健康状态,当发现健康状态有问题时,可以通过诊断功能来实时排查云资源发生异常状态的具体原因,并且可以根据云服务诊断提供的修复建议及时解决问题,快速恢复业务,保障系统的稳定运行。
健康状态
云资源健康状态个人理解就是说你已经购买的阿里云资源的运行状态, 当发生故障无法运行时,那么健康状态就是异常的,这个时候你可以联系阿里云工程师修复。如果云资源是正常状态,但是你的业务运行状态为异常,那么这种情况可以进一步检查配置,账号费用,云资源超限等问题。
云服务诊断服务的开通这里不再详细介绍,你可以点击控制台【运维监控】就会提示你开通云服务诊断。服务开通后你可以通过控制台首页查看当前账号下云资源健康状态。控制台首页地址:https://home.console.aliyun.com/home/dashboard/ProductAndService 查看到云资源健康状态
或者你也可以点击控制台首页的【运维监控】来查看云资源的健康状态,目前云资源没有异常状态
鼠标悬浮指向云产品的最新状态下的绿色对号,可以看到当前云资源的状态详细信息,点击【查看详情】可以查看云资源的详细信息
在点击【查看详情】页面我们看到的具体的云资源的状态信息
到这里,关于通过云服务诊断服务查看云资源状态的操作就算结束了,操作比较显而易见,也比较容易理解,方便企业运维人员或者开发人员可以实时监控云资源运行状态。这里有点疑惑就是我控制台首页命名有很多云资源,运维监控里面却只能看到部分云资源的运行状态,是因为其他云资源没有自动接入云服务诊断服务吗
诊断
诊断的话,个人理解就是云服务诊断服务提供了诊断工具,用户可以通过诊断工具,对运行异常状态的云资源实时发起诊断,等待1-2分钟完成诊断之后,会提供一个诊断报告,诊断报告会给出详细的异常描述以及修复建议,用户根据修复建议即可解决问题,快速恢复业务。在阿里云控制台可以通过侧边栏快速跳转到诊断页面
或者也可以通过运维监控页面的【创建诊断】功能来快速创建诊断功能
在创建诊断页面可以看到目前支持的云资源异常运行状态的场景信息,选择异常场景点击【下一步】
在弹框页面勾选协议,点击【一键开通】
开通完成后,在参数配置页面选择具体的实例后点击【开始诊断】
等待大约3分钟左右就可以完成对你选择的云资源的诊断操作,诊断完成后就可以看到具体的诊断信息了
如果云资源有异常信息的话,诊断过后会根据异常信息来提供具体的说明,就像如下的情况一样
测评总结
我是一位开发工程师,我平时工作 不经常涉及 云资源的运维和管理。
通过个人对于云服务诊断产品的健康状态和诊断功能的操作,我 理解了 健康状态和诊断的功能,我的疑惑是为什么控制台首页可以看到当前账号下32项云资源,
而在运维监控页面却只可以看到三项云资源的健康状态信息呢
这里我当前账号是个人账号,暂时没有ECS实例资源,目前可以看到的云资源的健康状态详情在上述文章中已经提供了,这里不再重复提供了。
我认为健康状态 有用 ,可以通过控制台的运维监控一目了然当前账号下的所有云资源产品的运行状态,方便运维或者开发人员快速获取云资源产品的健康状态,云资源产品的稳定运行也正是企业业务系统稳定运行的前提条件。
这里由于我的当前账号没有ECS实例,那么因此我诊断的是当前云服务诊断产品支持的弹性公网IP的诊断图片
我认为诊断 有用 ,通过创建诊断任务的形式,可以快速的诊断有异常的云资源产品,同时可以根据诊断报告中给出的问题分析,修复建议来快速的修复云资源异常问题,从而降低异常引起的业务运行中断时长,从而保证企业应用系统服务的稳定,为企业创造更多的价值。
此外,我还有点建议:
一方面我理解的是我的云资源有32项这么多,那么在【运维监控】页面的云资源健康状态也应该可以看到这么多的云资源产品的健康状态数据才对,目前我的账号只能看到如下的3项云资源的健康状态
另一方面就是说对于云服务诊断功能,目前的诊断能力涉及的云资源产品的范围属实有点太小了,除了大部分ECS问题的诊断之外,只剩下一少部分的云资源可以创建诊断任务来诊断异常信息了,很多其他的云资源并不支持诊断功能
还有一点就是说,既然是ECS服务诊断,为什么对于同一个云产品云服务器ECS,为什么诊断项却要分这么多,这样对于用户来说选择哪一个诊断项也是一件很头疼的事,毕竟对于云服务器ECS资源为什么会异常,用户或者说运维人员刚看到异常信息的时候并不能推测出是那方面的问题,这个时候如果逐项尝试诊断的话,还是很耽误时间的,希望可以改成每一项云资源就一个小方块,然后运维人员直接选择后,具体的诊断项的判断可以由云服务诊断自身功能来自动判断,并且给予诊断后的修复建议等内容
最后对于云资源健康状态还有点小建议就是说,是否可以在控制台运维监控页面的云资源健康状态列表后面增加一列,作为配置告警信息的入口,用户可以针对每一款云资源产品指定特定的告警人信息,包括但不限于钉钉、短信、邮件、微信等多种告警方式,方便运维人员在第一时间接受到云资源产品的异常告警信息,从而积极的做出响应,保证企业业务运行的稳定。