云服务测评 | 基于云服务诊断全方位监管云产品

简介: 本文介绍了阿里云的云服务诊断功能,包括健康状态和诊断两大核心功能。作者通过个人账号体验了该服务,指出其在监控云资源状态和快速排查异常方面的优势,同时也提出了一些改进建议,如增加告警配置入口和扩大诊断范围等。

写在前面

在开始本文的测评之前,想先声明一下,这里我的账号是没有云服务器ECS的,因此本文按规则是不会参与评选的。但是作为对云产品比较热衷的技术人,个人还是想基于当前个人账号现有的资源来体验一下云服务诊断功能的功效,下面开始正文...

云服务诊断

在开始测评之前,先来了解一下什么是云服务诊断?也只有了解了这款云产品是什么,后面才知道应该用在哪儿。下面截取一段云服务诊断官方文档中的描述:【云服务诊断是面向客户运维工程师及开发者(以下简称为“用户”)提供的一款阿里云资源运维工具,包含「健康状态」和「诊断」两大核心功能。】(更多文档内容参考:https://help.aliyun.com/zh/management-console/what-is-cloud-service-diagnostics

简单的理解就是云服务诊断是一款针对阿里云资源提供的运维工具,可以通过这款工具直观的检测阿里云资源的健康状态,当发现健康状态有问题时,可以通过诊断功能来实时排查云资源发生异常状态的具体原因,并且可以根据云服务诊断提供的修复建议及时解决问题,快速恢复业务,保障系统的稳定运行。

健康状态

云资源健康状态个人理解就是说你已经购买的阿里云资源的运行状态, 当发生故障无法运行时,那么健康状态就是异常的,这个时候你可以联系阿里云工程师修复。如果云资源是正常状态,但是你的业务运行状态为异常,那么这种情况可以进一步检查配置,账号费用,云资源超限等问题。

云服务诊断服务的开通这里不再详细介绍,你可以点击控制台【运维监控】就会提示你开通云服务诊断。服务开通后你可以通过控制台首页查看当前账号下云资源健康状态。控制台首页地址:https://home.console.aliyun.com/home/dashboard/ProductAndService  查看到云资源健康状态

image.png


或者你也可以点击控制台首页的【运维监控】来查看云资源的健康状态,目前云资源没有异常状态

image.png

鼠标悬浮指向云产品的最新状态下的绿色对号,可以看到当前云资源的状态详细信息,点击【查看详情】可以查看云资源的详细信息

image.png

在点击【查看详情】页面我们看到的具体的云资源的状态信息

image.png

到这里,关于通过云服务诊断服务查看云资源状态的操作就算结束了,操作比较显而易见,也比较容易理解,方便企业运维人员或者开发人员可以实时监控云资源运行状态。这里有点疑惑就是我控制台首页命名有很多云资源,运维监控里面却只能看到部分云资源的运行状态,是因为其他云资源没有自动接入云服务诊断服务吗

image.png

诊断

诊断的话,个人理解就是云服务诊断服务提供了诊断工具,用户可以通过诊断工具,对运行异常状态的云资源实时发起诊断,等待1-2分钟完成诊断之后,会提供一个诊断报告,诊断报告会给出详细的异常描述以及修复建议,用户根据修复建议即可解决问题,快速恢复业务。在阿里云控制台可以通过侧边栏快速跳转到诊断页面

image.png


或者也可以通过运维监控页面的【创建诊断】功能来快速创建诊断功能

image.png

在创建诊断页面可以看到目前支持的云资源异常运行状态的场景信息,选择异常场景点击【下一步】

image.png

在弹框页面勾选协议,点击【一键开通】

image.png

开通完成后,在参数配置页面选择具体的实例后点击【开始诊断】

image.png

等待大约3分钟左右就可以完成对你选择的云资源的诊断操作,诊断完成后就可以看到具体的诊断信息了

image.png

如果云资源有异常信息的话,诊断过后会根据异常信息来提供具体的说明,就像如下的情况一样

测评总结

我是一位开发工程师,我平时工作 不经常涉及 云资源的运维和管理。

通过个人对于云服务诊断产品的健康状态和诊断功能的操作,我 理解了 健康状态和诊断的功能,我的疑惑是为什么控制台首页可以看到当前账号下32项云资源,

image.png

而在运维监控页面却只可以看到三项云资源的健康状态信息呢

image.png

这里我当前账号是个人账号,暂时没有ECS实例资源,目前可以看到的云资源的健康状态详情在上述文章中已经提供了,这里不再重复提供了。

我认为健康状态 有用 ,可以通过控制台的运维监控一目了然当前账号下的所有云资源产品的运行状态,方便运维或者开发人员快速获取云资源产品的健康状态,云资源产品的稳定运行也正是企业业务系统稳定运行的前提条件。

这里由于我的当前账号没有ECS实例,那么因此我诊断的是当前云服务诊断产品支持的弹性公网IP的诊断图片

我认为诊断 有用 ,通过创建诊断任务的形式,可以快速的诊断有异常的云资源产品,同时可以根据诊断报告中给出的问题分析,修复建议来快速的修复云资源异常问题,从而降低异常引起的业务运行中断时长,从而保证企业应用系统服务的稳定,为企业创造更多的价值。

此外,我还有点建议:

一方面我理解的是我的云资源有32项这么多,那么在【运维监控】页面的云资源健康状态也应该可以看到这么多的云资源产品的健康状态数据才对,目前我的账号只能看到如下的3项云资源的健康状态

image.png

另一方面就是说对于云服务诊断功能,目前的诊断能力涉及的云资源产品的范围属实有点太小了,除了大部分ECS问题的诊断之外,只剩下一少部分的云资源可以创建诊断任务来诊断异常信息了,很多其他的云资源并不支持诊断功能

image.png

还有一点就是说,既然是ECS服务诊断,为什么对于同一个云产品云服务器ECS,为什么诊断项却要分这么多,这样对于用户来说选择哪一个诊断项也是一件很头疼的事,毕竟对于云服务器ECS资源为什么会异常,用户或者说运维人员刚看到异常信息的时候并不能推测出是那方面的问题,这个时候如果逐项尝试诊断的话,还是很耽误时间的,希望可以改成每一项云资源就一个小方块,然后运维人员直接选择后,具体的诊断项的判断可以由云服务诊断自身功能来自动判断,并且给予诊断后的修复建议等内容

image.png

最后对于云资源健康状态还有点小建议就是说,是否可以在控制台运维监控页面的云资源健康状态列表后面增加一列,作为配置告警信息的入口,用户可以针对每一款云资源产品指定特定的告警人信息,包括但不限于钉钉、短信、邮件、微信等多种告警方式,方便运维人员在第一时间接受到云资源产品的异常告警信息,从而积极的做出响应,保证企业业务运行的稳定。

image.png


相关文章
|
4天前
|
存储 运维 安全
云上金融量化策略回测方案与最佳实践
2024年11月29日,阿里云在上海举办金融量化策略回测Workshop,汇聚多位行业专家,围绕量化投资的最佳实践、数据隐私安全、量化策略回测方案等议题进行深入探讨。活动特别设计了动手实践环节,帮助参会者亲身体验阿里云产品功能,涵盖EHPC量化回测和Argo Workflows量化回测两大主题,旨在提升量化投研效率与安全性。
云上金融量化策略回测方案与最佳实践
|
6天前
|
人工智能 自然语言处理 前端开发
从0开始打造一款APP:前端+搭建本机服务,定制暖冬卫衣先到先得
通义灵码携手科技博主@玺哥超carry 打造全网第一个完整的、面向普通人的自然语言编程教程。完全使用 AI,再配合简单易懂的方法,只要你会打字,就能真正做出一个完整的应用。
6078 18
|
18天前
|
人工智能 自动驾驶 大数据
预告 | 阿里云邀您参加2024中国生成式AI大会上海站,马上报名
大会以“智能跃进 创造无限”为主题,设置主会场峰会、分会场研讨会及展览区,聚焦大模型、AI Infra等热点议题。阿里云智算集群产品解决方案负责人丛培岩将出席并发表《高性能智算集群设计思考与实践》主题演讲。观众报名现已开放。
|
10天前
|
自然语言处理 数据可视化 API
Qwen系列模型+GraphRAG/LightRAG/Kotaemon从0开始构建中医方剂大模型知识图谱问答
本文详细记录了作者在短时间内尝试构建中医药知识图谱的过程,涵盖了GraphRAG、LightRAG和Kotaemon三种图RAG架构的对比与应用。通过实际操作,作者不仅展示了如何利用这些工具构建知识图谱,还指出了每种工具的优势和局限性。尽管初步构建的知识图谱在数据处理、实体识别和关系抽取等方面存在不足,但为后续的优化和改进提供了宝贵的经验和方向。此外,文章强调了知识图谱构建不仅仅是技术问题,还需要深入整合领域知识和满足用户需求,体现了跨学科合作的重要性。
|
6天前
|
人工智能 容器
三句话开发一个刮刮乐小游戏!暖ta一整个冬天!
本文介绍了如何利用千问开发一款情侣刮刮乐小游戏,通过三步简单指令实现从单个功能到整体框架,再到多端优化的过程,旨在为生活增添乐趣,促进情感交流。在线体验地址已提供,鼓励读者动手尝试,探索编程与AI结合的无限可能。
|
1月前
|
存储 人工智能 弹性计算
阿里云弹性计算_加速计算专场精华概览 | 2024云栖大会回顾
2024年9月19-21日,2024云栖大会在杭州云栖小镇举行,阿里云智能集团资深技术专家、异构计算产品技术负责人王超等多位产品、技术专家,共同带来了题为《AI Infra的前沿技术与应用实践》的专场session。本次专场重点介绍了阿里云AI Infra 产品架构与技术能力,及用户如何使用阿里云灵骏产品进行AI大模型开发、训练和应用。围绕当下大模型训练和推理的技术难点,专家们分享了如何在阿里云上实现稳定、高效、经济的大模型训练,并通过多个客户案例展示了云上大模型训练的显著优势。
|
10天前
|
Cloud Native Apache 流计算
PPT合集|Flink Forward Asia 2024 上海站
Apache Flink 年度技术盛会聚焦“回顾过去,展望未来”,涵盖流式湖仓、流批一体、Data+AI 等八大核心议题,近百家厂商参与,深入探讨前沿技术发展。小松鼠为大家整理了 FFA 2024 演讲 PPT ,可在线阅读和下载。
3551 10
PPT合集|Flink Forward Asia 2024 上海站
|
3天前
|
弹性计算 运维 监控
阿里云云服务诊断工具:合作伙伴架构师的深度洞察与优化建议
作为阿里云的合作伙伴架构师,我深入体验了其云服务诊断工具,该工具通过实时监控与历史趋势分析,自动化检查并提供详细的诊断报告,极大提升了运维效率和系统稳定性,特别在处理ECS实例资源不可用等问题时表现突出。此外,它支持预防性维护,帮助识别潜在问题,减少业务中断。尽管如此,仍建议增强诊断效能、扩大云产品覆盖范围、提供自定义诊断选项、加强教育与培训资源、集成第三方工具,以进一步提升用户体验。
615 242
|
23天前
|
人工智能 自然语言处理 前端开发
100个降噪蓝牙耳机免费领,用通义灵码从 0 开始打造一个完整APP
打开手机,录制下你完成的代码效果,发布到你的社交媒体,前 100 个@玺哥超Carry、@通义灵码的粉丝,可以免费获得一个降噪蓝牙耳机。
5957 16
|
5天前
|
消息中间件 人工智能 运维
12月更文特别场——寻找用云高手,分享云&AI实践
我们寻找你,用云高手,欢迎分享你的真知灼见!
509 37