云服务测评 | 基于云服务诊断全方位监管云产品

简介: 本文介绍了阿里云的云服务诊断功能,包括健康状态和诊断两大核心功能。作者通过个人账号体验了该服务,指出其在监控云资源状态和快速排查异常方面的优势,同时也提出了一些改进建议,如增加告警配置入口和扩大诊断范围等。

写在前面

在开始本文的测评之前,想先声明一下,这里我的账号是没有云服务器ECS的,因此本文按规则是不会参与评选的。但是作为对云产品比较热衷的技术人,个人还是想基于当前个人账号现有的资源来体验一下云服务诊断功能的功效,下面开始正文...

云服务诊断

在开始测评之前,先来了解一下什么是云服务诊断?也只有了解了这款云产品是什么,后面才知道应该用在哪儿。下面截取一段云服务诊断官方文档中的描述:【云服务诊断是面向客户运维工程师及开发者(以下简称为“用户”)提供的一款阿里云资源运维工具,包含「健康状态」和「诊断」两大核心功能。】(更多文档内容参考:https://help.aliyun.com/zh/management-console/what-is-cloud-service-diagnostics

简单的理解就是云服务诊断是一款针对阿里云资源提供的运维工具,可以通过这款工具直观的检测阿里云资源的健康状态,当发现健康状态有问题时,可以通过诊断功能来实时排查云资源发生异常状态的具体原因,并且可以根据云服务诊断提供的修复建议及时解决问题,快速恢复业务,保障系统的稳定运行。

健康状态

云资源健康状态个人理解就是说你已经购买的阿里云资源的运行状态, 当发生故障无法运行时,那么健康状态就是异常的,这个时候你可以联系阿里云工程师修复。如果云资源是正常状态,但是你的业务运行状态为异常,那么这种情况可以进一步检查配置,账号费用,云资源超限等问题。

云服务诊断服务的开通这里不再详细介绍,你可以点击控制台【运维监控】就会提示你开通云服务诊断。服务开通后你可以通过控制台首页查看当前账号下云资源健康状态。控制台首页地址:https://home.console.aliyun.com/home/dashboard/ProductAndService  查看到云资源健康状态

image.png


或者你也可以点击控制台首页的【运维监控】来查看云资源的健康状态,目前云资源没有异常状态

image.png

鼠标悬浮指向云产品的最新状态下的绿色对号,可以看到当前云资源的状态详细信息,点击【查看详情】可以查看云资源的详细信息

image.png

在点击【查看详情】页面我们看到的具体的云资源的状态信息

image.png

到这里,关于通过云服务诊断服务查看云资源状态的操作就算结束了,操作比较显而易见,也比较容易理解,方便企业运维人员或者开发人员可以实时监控云资源运行状态。这里有点疑惑就是我控制台首页命名有很多云资源,运维监控里面却只能看到部分云资源的运行状态,是因为其他云资源没有自动接入云服务诊断服务吗

image.png

诊断

诊断的话,个人理解就是云服务诊断服务提供了诊断工具,用户可以通过诊断工具,对运行异常状态的云资源实时发起诊断,等待1-2分钟完成诊断之后,会提供一个诊断报告,诊断报告会给出详细的异常描述以及修复建议,用户根据修复建议即可解决问题,快速恢复业务。在阿里云控制台可以通过侧边栏快速跳转到诊断页面

image.png


或者也可以通过运维监控页面的【创建诊断】功能来快速创建诊断功能

image.png

在创建诊断页面可以看到目前支持的云资源异常运行状态的场景信息,选择异常场景点击【下一步】

image.png

在弹框页面勾选协议,点击【一键开通】

image.png

开通完成后,在参数配置页面选择具体的实例后点击【开始诊断】

image.png

等待大约3分钟左右就可以完成对你选择的云资源的诊断操作,诊断完成后就可以看到具体的诊断信息了

image.png

如果云资源有异常信息的话,诊断过后会根据异常信息来提供具体的说明,就像如下的情况一样

测评总结

我是一位开发工程师,我平时工作 不经常涉及 云资源的运维和管理。

通过个人对于云服务诊断产品的健康状态和诊断功能的操作,我 理解了 健康状态和诊断的功能,我的疑惑是为什么控制台首页可以看到当前账号下32项云资源,

image.png

而在运维监控页面却只可以看到三项云资源的健康状态信息呢

image.png

这里我当前账号是个人账号,暂时没有ECS实例资源,目前可以看到的云资源的健康状态详情在上述文章中已经提供了,这里不再重复提供了。

我认为健康状态 有用 ,可以通过控制台的运维监控一目了然当前账号下的所有云资源产品的运行状态,方便运维或者开发人员快速获取云资源产品的健康状态,云资源产品的稳定运行也正是企业业务系统稳定运行的前提条件。

这里由于我的当前账号没有ECS实例,那么因此我诊断的是当前云服务诊断产品支持的弹性公网IP的诊断图片

我认为诊断 有用 ,通过创建诊断任务的形式,可以快速的诊断有异常的云资源产品,同时可以根据诊断报告中给出的问题分析,修复建议来快速的修复云资源异常问题,从而降低异常引起的业务运行中断时长,从而保证企业应用系统服务的稳定,为企业创造更多的价值。

此外,我还有点建议:

一方面我理解的是我的云资源有32项这么多,那么在【运维监控】页面的云资源健康状态也应该可以看到这么多的云资源产品的健康状态数据才对,目前我的账号只能看到如下的3项云资源的健康状态

image.png

另一方面就是说对于云服务诊断功能,目前的诊断能力涉及的云资源产品的范围属实有点太小了,除了大部分ECS问题的诊断之外,只剩下一少部分的云资源可以创建诊断任务来诊断异常信息了,很多其他的云资源并不支持诊断功能

image.png

还有一点就是说,既然是ECS服务诊断,为什么对于同一个云产品云服务器ECS,为什么诊断项却要分这么多,这样对于用户来说选择哪一个诊断项也是一件很头疼的事,毕竟对于云服务器ECS资源为什么会异常,用户或者说运维人员刚看到异常信息的时候并不能推测出是那方面的问题,这个时候如果逐项尝试诊断的话,还是很耽误时间的,希望可以改成每一项云资源就一个小方块,然后运维人员直接选择后,具体的诊断项的判断可以由云服务诊断自身功能来自动判断,并且给予诊断后的修复建议等内容

image.png

最后对于云资源健康状态还有点小建议就是说,是否可以在控制台运维监控页面的云资源健康状态列表后面增加一列,作为配置告警信息的入口,用户可以针对每一款云资源产品指定特定的告警人信息,包括但不限于钉钉、短信、邮件、微信等多种告警方式,方便运维人员在第一时间接受到云资源产品的异常告警信息,从而积极的做出响应,保证企业业务运行的稳定。

image.png


相关实践学习
通义万相文本绘图与人像美化
本解决方案展示了如何利用自研的通义万相AIGC技术在Web服务中实现先进的图像生成。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
11月前
|
弹性计算 运维 监控
阿里云云服务诊断工具:合作伙伴架构师的深度洞察与优化建议
作为阿里云的合作伙伴架构师,我深入体验了其云服务诊断工具,该工具通过实时监控与历史趋势分析,自动化检查并提供详细的诊断报告,极大提升了运维效率和系统稳定性,特别在处理ECS实例资源不可用等问题时表现突出。此外,它支持预防性维护,帮助识别潜在问题,减少业务中断。尽管如此,仍建议增强诊断效能、扩大云产品覆盖范围、提供自定义诊断选项、加强教育与培训资源、集成第三方工具,以进一步提升用户体验。
941 243
|
11月前
|
SQL 分布式计算 DataWorks
DataWorks产品测评|基于DataWorks和MaxCompute产品组合实现用户画像分析
本文介绍了如何使用DataWorks和MaxCompute产品组合实现用户画像分析。首先,通过阿里云官网开通DataWorks服务并创建资源组,接着创建MaxCompute项目和数据源。随后,利用DataWorks的数据集成和数据开发模块,将业务数据同步至MaxCompute,并通过ODPS SQL完成用户画像的数据加工,最终将结果写入`ads_user_info_1d`表。文章详细记录了每一步的操作过程,包括任务开发、运行、运维操作和资源释放,帮助读者顺利完成用户画像分析。此外,还指出了文档中的一些不一致之处,并提供了相应的解决方法。
|
11月前
|
存储 人工智能 Serverless
AI助手测评 | 3步快速构建主动式智能导购AI助手
本文介绍了如何利用阿里云的百炼平台构建主动式智能导购AI助手。在当前经济形势下,企业通过AI技术可以有效降低成本并提升服务质量。主动式智能导购AI助手不仅具备专业知识和耐心,还能24小时不间断服务用户,帮助企业节省夜班客服费用。通过创建API-KEY、部署函数计算应用和集成百炼商品检索应用,企业可以在短短几步内快速构建这一智能系统。此外,文章还提供了详细的部署步骤和测评建议,确保企业在实际应用中能够顺利实施。
|
人工智能 监控 机器人
阿里云开发者社区博文规范及指引
阿里云开发者社区博文规范及指引
3310 24
阿里云开发者社区博文规范及指引
|
自然语言处理 IDE 测试技术
通义灵码——有了它让我的编程效率和质量直线上升!
作为一名大数据开发工程师,我每天与代码和数据打交道,享受解决复杂问题的乐趣。最近,我遇到了一位超级“码”力助手——通义灵码。它不仅是一个简单的代码补全工具,更像是一个拥有高度智慧的编程伙伴,能够理解我的编程意图,给出最合适的建议,大大提升了我的工作效率和编程体验。本文将分享如何在VsCode中安装和使用通义灵码,以及它在我的实际编程工作中发挥的重要作用。
|
11月前
|
消息中间件 人工智能 运维
12月更文特别场——寻找用云高手,分享云&AI实践
我们寻找你,用云高手,欢迎分享你的真知灼见!
3988 101
|
9月前
|
人工智能 算法 Java
零门槛、百万token免费用,即刻拥有DeepSeek-R1满血版,还有实践落地调用场景等你来看
DeepSeek 是热门的推理模型,能在少量标注数据下显著提升推理能力,尤其擅长数学、代码和自然语言等复杂任务。本文涵盖四种部署方案,可以让你快速体验云上调用 DeepSeek-R1 满血版的 API 及部署各尺寸模型的方式,无需编码,最快 5 分钟、最低 0 元即可实现
|
11月前
|
弹性计算 负载均衡 网络协议
ECS中实现nginx4层7层负载均衡和ALB/NLB原SLB负载均衡
通过本文的介绍,希望您能深入理解并掌握如何在ECS中实现Nginx四层和七层负载均衡,以及如何使用ALB和NLB进行高效的负载均衡配置,以提高系统的性能和可靠性。
766 9
|
11月前
|
Arthas Java 应用服务中间件
我的程序突然罢工了|深入探究HSF调用异常,从死锁到活锁的全面分析与解决
本文详细记录了作者在处理HSF调用异常问题的过程中,从初步怀疑死锁到最终发现并解决活锁问题的全过程。
878 49
|
存储 自然语言处理 算法
“无”中生有:基于知识增强的RAG优化实践
本文作者基于自身在RAG技术领域长达半年的实践经验,分享了从初识RAG的潜力到面对实际应用挑战的心路历程,以及如何通过一系列优化措施逐步解决这些挑战的过程。
1179 20
“无”中生有:基于知识增强的RAG优化实践