云服务测评 | 基于云服务诊断全方位监管云产品

简介: 本文介绍了阿里云的云服务诊断功能,包括健康状态和诊断两大核心功能。作者通过个人账号体验了该服务,指出其在监控云资源状态和快速排查异常方面的优势,同时也提出了一些改进建议,如增加告警配置入口和扩大诊断范围等。

写在前面

在开始本文的测评之前,想先声明一下,这里我的账号是没有云服务器ECS的,因此本文按规则是不会参与评选的。但是作为对云产品比较热衷的技术人,个人还是想基于当前个人账号现有的资源来体验一下云服务诊断功能的功效,下面开始正文...

云服务诊断

在开始测评之前,先来了解一下什么是云服务诊断?也只有了解了这款云产品是什么,后面才知道应该用在哪儿。下面截取一段云服务诊断官方文档中的描述:【云服务诊断是面向客户运维工程师及开发者(以下简称为“用户”)提供的一款阿里云资源运维工具,包含「健康状态」和「诊断」两大核心功能。】(更多文档内容参考:https://help.aliyun.com/zh/management-console/what-is-cloud-service-diagnostics

简单的理解就是云服务诊断是一款针对阿里云资源提供的运维工具,可以通过这款工具直观的检测阿里云资源的健康状态,当发现健康状态有问题时,可以通过诊断功能来实时排查云资源发生异常状态的具体原因,并且可以根据云服务诊断提供的修复建议及时解决问题,快速恢复业务,保障系统的稳定运行。

健康状态

云资源健康状态个人理解就是说你已经购买的阿里云资源的运行状态, 当发生故障无法运行时,那么健康状态就是异常的,这个时候你可以联系阿里云工程师修复。如果云资源是正常状态,但是你的业务运行状态为异常,那么这种情况可以进一步检查配置,账号费用,云资源超限等问题。

云服务诊断服务的开通这里不再详细介绍,你可以点击控制台【运维监控】就会提示你开通云服务诊断。服务开通后你可以通过控制台首页查看当前账号下云资源健康状态。控制台首页地址:https://home.console.aliyun.com/home/dashboard/ProductAndService  查看到云资源健康状态

image.png


或者你也可以点击控制台首页的【运维监控】来查看云资源的健康状态,目前云资源没有异常状态

image.png

鼠标悬浮指向云产品的最新状态下的绿色对号,可以看到当前云资源的状态详细信息,点击【查看详情】可以查看云资源的详细信息

image.png

在点击【查看详情】页面我们看到的具体的云资源的状态信息

image.png

到这里,关于通过云服务诊断服务查看云资源状态的操作就算结束了,操作比较显而易见,也比较容易理解,方便企业运维人员或者开发人员可以实时监控云资源运行状态。这里有点疑惑就是我控制台首页命名有很多云资源,运维监控里面却只能看到部分云资源的运行状态,是因为其他云资源没有自动接入云服务诊断服务吗

image.png

诊断

诊断的话,个人理解就是云服务诊断服务提供了诊断工具,用户可以通过诊断工具,对运行异常状态的云资源实时发起诊断,等待1-2分钟完成诊断之后,会提供一个诊断报告,诊断报告会给出详细的异常描述以及修复建议,用户根据修复建议即可解决问题,快速恢复业务。在阿里云控制台可以通过侧边栏快速跳转到诊断页面

image.png


或者也可以通过运维监控页面的【创建诊断】功能来快速创建诊断功能

image.png

在创建诊断页面可以看到目前支持的云资源异常运行状态的场景信息,选择异常场景点击【下一步】

image.png

在弹框页面勾选协议,点击【一键开通】

image.png

开通完成后,在参数配置页面选择具体的实例后点击【开始诊断】

image.png

等待大约3分钟左右就可以完成对你选择的云资源的诊断操作,诊断完成后就可以看到具体的诊断信息了

image.png

如果云资源有异常信息的话,诊断过后会根据异常信息来提供具体的说明,就像如下的情况一样

测评总结

我是一位开发工程师,我平时工作 不经常涉及 云资源的运维和管理。

通过个人对于云服务诊断产品的健康状态和诊断功能的操作,我 理解了 健康状态和诊断的功能,我的疑惑是为什么控制台首页可以看到当前账号下32项云资源,

image.png

而在运维监控页面却只可以看到三项云资源的健康状态信息呢

image.png

这里我当前账号是个人账号,暂时没有ECS实例资源,目前可以看到的云资源的健康状态详情在上述文章中已经提供了,这里不再重复提供了。

我认为健康状态 有用 ,可以通过控制台的运维监控一目了然当前账号下的所有云资源产品的运行状态,方便运维或者开发人员快速获取云资源产品的健康状态,云资源产品的稳定运行也正是企业业务系统稳定运行的前提条件。

这里由于我的当前账号没有ECS实例,那么因此我诊断的是当前云服务诊断产品支持的弹性公网IP的诊断图片

我认为诊断 有用 ,通过创建诊断任务的形式,可以快速的诊断有异常的云资源产品,同时可以根据诊断报告中给出的问题分析,修复建议来快速的修复云资源异常问题,从而降低异常引起的业务运行中断时长,从而保证企业应用系统服务的稳定,为企业创造更多的价值。

此外,我还有点建议:

一方面我理解的是我的云资源有32项这么多,那么在【运维监控】页面的云资源健康状态也应该可以看到这么多的云资源产品的健康状态数据才对,目前我的账号只能看到如下的3项云资源的健康状态

image.png

另一方面就是说对于云服务诊断功能,目前的诊断能力涉及的云资源产品的范围属实有点太小了,除了大部分ECS问题的诊断之外,只剩下一少部分的云资源可以创建诊断任务来诊断异常信息了,很多其他的云资源并不支持诊断功能

image.png

还有一点就是说,既然是ECS服务诊断,为什么对于同一个云产品云服务器ECS,为什么诊断项却要分这么多,这样对于用户来说选择哪一个诊断项也是一件很头疼的事,毕竟对于云服务器ECS资源为什么会异常,用户或者说运维人员刚看到异常信息的时候并不能推测出是那方面的问题,这个时候如果逐项尝试诊断的话,还是很耽误时间的,希望可以改成每一项云资源就一个小方块,然后运维人员直接选择后,具体的诊断项的判断可以由云服务诊断自身功能来自动判断,并且给予诊断后的修复建议等内容

image.png

最后对于云资源健康状态还有点小建议就是说,是否可以在控制台运维监控页面的云资源健康状态列表后面增加一列,作为配置告警信息的入口,用户可以针对每一款云资源产品指定特定的告警人信息,包括但不限于钉钉、短信、邮件、微信等多种告警方式,方便运维人员在第一时间接受到云资源产品的异常告警信息,从而积极的做出响应,保证企业业务运行的稳定。

image.png


相关实践学习
通义万相文本绘图与人像美化
本解决方案展示了如何利用自研的通义万相AIGC技术在Web服务中实现先进的图像生成。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
存储 安全 关系型数据库
AWS介绍
AWS介绍
883 0
|
机器学习/深度学习 存储 算法
决策树和随机森林在机器学习中的应用
在机器学习领域,决策树(Decision Tree)和随机森林(Random Forest)是两种非常流行且强大的分类和回归算法。它们通过模拟人类决策过程,将复杂的数据集分割成易于理解和处理的子集,从而实现对新数据的准确预测。
558 10
|
Prometheus 监控 Kubernetes
【K8S系列】深入解析K8S监控
【K8S系列】深入解析K8S监控
1331 0
|
JSON 前端开发 数据格式
【前后端异常】http/https post请求 返回415错误状态码的解决方法
【前后端异常】http/https post请求 返回415错误状态码的解决方法
8448 0
|
存储 前端开发 安全
webhook是什么 与API的区别在哪里
webhooks是一个api概念,是微服务api的使用范式之一,也被成为反向api,即:前端不主动发送请求,完全由后端推送。 举个常用例子,比如你的好友发了一条朋友圈,后端将这条消息推送给所有其他好友的客户端,就是 Webhooks 的典型场景。
webhook是什么 与API的区别在哪里
|
存储 监控 NoSQL
快速认识OTS
## 什么是OTS   OTS 是Open Table Service的简称,现在已更名为表格存储Table Store,官网对它的解释为:OTS是构建在阿里云飞天分布式系统之上的 NoSQL 数据库服务,提供海量结构化数据的存储和实时访问。OTS 以实例和表的形式组织数据,通过数据分片和负载均衡技术,达到规模的无缝扩展。OTS 向应用程序屏蔽底层硬件平台的故障和错误,能自动从各类错误中快速
49477 2
|
11月前
|
算法 Java 测试技术
Java 从入门到实战完整学习路径与项目实战指南
本文详细介绍了“Java从入门到实战”的学习路径与应用实例,涵盖基础、进阶、框架工具及项目实战四个阶段。内容包括环境搭建、语法基础、面向对象编程,数据结构与算法、多线程并发、JVM原理,以及Spring框架等核心技术。通过学生管理系统、文件下载器和博客系统等实例,帮助读者将理论应用于实践。最后,提供全链路电商系统的开发方案,涉及前后端技术栈与分布式架构。附代码资源链接,助力成为合格的Java开发者。
414 4
|
存储 分布式计算 Hadoop
Hadoop 的两个主要组件是什么?
【8月更文挑战第12天】
1644 4
Hadoop 的两个主要组件是什么?
|
前端开发 JavaScript 安全
vite3+vue3 实现前端部署加密混淆 javascript-obfuscator
【11月更文挑战第7天】本文介绍了在 Vite 3 + Vue 3 项目中使用 `javascript-obfuscator` 实现前端代码加密混淆的详细步骤。包括项目准备、安装 `javascript-obfuscator`、配置 Vite 构建以应用混淆,以及最终构建项目进行混淆。通过这些步骤,可以有效提升前端代码的安全性,防止被他人轻易分析和盗用。
3133 0
|
分布式计算 数据安全/隐私保护
高通量计算框架HTCondor(三)——使用命令
高通量计算框架HTCondor(三)——使用命令
359 0

热门文章

最新文章