云监控治理检测:云监控的自助化最佳实践

本文涉及的产品
Serverless 应用引擎 SAE,800核*时 1600GiB*时
云原生网关 MSE Higress,422元/月
性能测试 PTS,5000VUM额度
简介: 云监控提供了治理检测功能,能够帮助企业评估和提升其在运用云监控方面的能力,从而更好地应对这些挑战。它基于用户对资源的使用情况来推测用户所需的监控能力,帮助用户检测云监控的相关功能,并提供一键修复或治理建议,让用户自助化地运用云监控的最佳实践,构建一套完善的监控体系。

概述


在数字化转型浪潮中,云计算技术已成为企业实现敏捷性和创新的重要工具。作为全球领先的云服务提供商,阿里云在帮助企业实现高效云管理方面发挥着重要作用。


然而,随着云环境的日益复杂化和规模的不断扩大,如何有效管理和监控云资源,确保其高效、安全、合规地运行,成为企业面临的挑战。一方面,云监控多年来一直致力于提供更多的监控功能功能以便解决用户在更多场景下的监控需求,形成了丰富的平台能力。而另一方面,用户面临上云后如何做好监控的难题。不难发现,这两者之间存在间隙。那就是用户应该如何上手,如何借助阿里云监控这个平台多快好省地构建起一套完整的并且适合自己的监控体系。


为此,云监控提供了治理检测功能,能够帮助企业评估和提升其在运用云监控方面的能力,从而更好地应对这些挑战。它基于用户对资源的使用情况来推测用户所需的监控能力,帮助用户检测云监控的相关功能,并提供一键修复或治理建议,让用户自助化地运用云监控的最佳实践,构建一套完善的监控体系。


检测项分类


云监控将治理检测项分为监控覆盖、平台配置、使用状态、优化建议四大类,共 13 个检测项,全面涵盖用户在云监控运用过程中有没有做、有没有做对、有没有做好。以下以云产品资源监控和持续报警这两个检测项为例进行详细介绍。


云产品资源监控

云产品资源的运行状态直接影响着构建其上的应用以及支撑的业务。实现资源监控全覆盖是保证业务持续性的基础与关键。为云产品资源设置报警规则是实现云产品资源监控基础且必要的手段。如果存在云产品资源未被任何报警规则覆盖的情况将被视为需要关注和治理的问题。该检测项涵盖了包括 ECS、RDS、Redis、SLB、MongoDB、OSS 等在内的 17 款核心云产品。

image.png

如果用户在阿里云保有核心云产品的资源,则检测用户的报警规则是否对该资源进行了覆盖,如果没有覆盖,则判定该资源为待治理对象(如下图所示)。

image.png

用户可在按照检测报告中的提示,对这些监控未覆盖资源进行“一键治理”,云监控后台将自动开启一键报警,快速实现云产品资源监控的全覆盖。如果用户需要对报警规则进行细粒度的控制(监控指标、报警阈值、报警通知方式等),则可根据提示手动创建合适的报警规则,实现对云产品资源的覆盖。


持续报警

报警规则在符合设定规则的情况下处于报警状态是一种正常现象,但报警规则长期持续处于报警状态会直接导致报警疲劳(Alert Fatigure)--用户由于频繁收到大量报警信息,导致逐渐对这些报警失去敏感性,甚至开始忽略或不认真对待报警。报警疲劳会导致管理人员未能及时发现和响应真正关键的问题,进而可能导致系统出现严重故障或安全风险。因此,在配置报警规则时,需优化报警策略,减少不必要的报警,并对持续时间过长的报警规则、资源进行调整,以降低报警疲劳的风险是非常重要的。


当用户的报警规则中有任何一个在过去的 24 小时中持续处于报警状态(未恢复),则系统将该报警规则判定为待治理对象。通常情况下,需要尽快排除问题让监控指标恢复正常水位,或者需要结合实际情况调整报警规则阈值并消除误报警,避免影响正常的监控运维工作。


检测项一览

云监控治理检测的所有检测项见下表:

image.png


启用


当您初次使用治理检测功能时,需要先启用检测。登录云监控控制台->概览->治理检测[14]页面,点击立即检测

image.png

  1. 在左侧导航栏,单击概览。
  2. 在概览页面,单击治理检测页签。
  3. 单击立即检测后,等待检测完成即可。


查看检测报告

image.png

当检测完成后,您可以在页面中查看各检测项的结果。点击存在问题的检测项后,您可根据详情页面中的提示信息,查看需治理的对象并根据建议执行相应的治理动作。

image.png


结语


本文介绍了云监控的治理检测功能,以及用户如何通过它自助化地运用云监控的最佳实践,完善自己的监控体系。欢迎您前往云监控控制台体验该功能,期待您的反馈。


相关链接:

[1] 云产品资源监控

https://help.aliyun.com/zh/cms/user-guide/cloud-product-resource-monitoring

[2] 云监控插件安装覆盖率

https://help.aliyun.com/zh/cms/user-guide/cloud-monitor-plug-in-installation-coverage

[3] 无效的报警规则

https://help.aliyun.com/zh/cms/user-guide/invalid-alarm-rule

[4] 关联了已过期资源的报警规则

https://help.aliyun.com/zh/cms/user-guide/alarm-rules-associated-with-expired-resources

[5] 包含不推荐的指标规则

https://help.aliyun.com/zh/cms/user-guide/include-recommend-indicator-rules

[6] 使用旧版本系统事件订阅规则

https://help.aliyun.com/zh/cms/user-guide/use-old-version-system-event-subscription-rules

[7] 回调失败

https://help.aliyun.com/zh/cms/user-guide/untitled-document-1690167894723

[8] 持续报警

https://help.aliyun.com/zh/cms/user-guide/continuous-alarm

[9] 使用不推荐的云监控插件版本

https://help.aliyun.com/zh/cms/user-guide/use-an-recommend-version-of-the-cloudmonitor-plug-in

[10] 调用不推荐的云监控 API

https://help.aliyun.com/zh/cms/user-guide/call-an-unrecommend-cloud-monitoring-api

[11] 定期关注资源负载情况

https://help.aliyun.com/zh/cms/user-guide/regularly-monitor-resource-load

[12] 使用高效方式获取指标数据

https://help.aliyun.com/zh/cms/user-guide/use-an-efficient-way-to-capture-metric-data

[13] 持续监控公网服务的可用性

https://help.aliyun.com/zh/cms/user-guide/continuously-monitor-the-availability-of-public-network-services

[14] 持续监控公网服务的可用性

https://help.aliyun.com/zh/cms/user-guide/continuously-monitor-the-availability-of-public-network-services

相关实践学习
通过云拨测对指定服务器进行Ping/DNS监测
本实验将通过云拨测对指定服务器进行Ping/DNS监测,评估网站服务质量和用户体验。
相关文章
|
监控 Kubernetes 容器
云监控报警最佳实践之无数据策略
本文介绍了云监控报警中的无数据策略,通过该策略用户可以实现被监控对象无数据时的响应、处理。 ## 背景 云监控报警通常情况下是通过监控数据的阈值的判断来进行报警,比如cpu超过80%报警等。但有时候被监控对象的监控数据出现不连续或断掉的情况。如果要对这种情况进行报警,就需要配置无数据策略。 ## 配置无数据策略 首先进入[云监控控制台](https://cloudmonitor.console.
572 2
云监控报警最佳实践之无数据策略
|
存储 SQL 机器学习/深度学习
智能巡检云监控指标的最佳实践
在真实的企业生产中,对研发和运维的同学都会面临一个十分繁复且艰难的问题,就是对指标的监控和告警。具体我枚举一些特定的问题请对号入座,看看在算力爆炸的时代能否通过算力和算法一起解决!
957 0
|
运维 监控 Java
【最佳实践】如何使用云监控+日志服务快速完成故障发现和故障定位
今天分享一篇开发小哥哥如何使用云监控和日志服务快速发现故障定位问题的经历。
3393 1
小微企业阿里云最佳实践系列(四):云监控与 SLS 日志服务
概述 阅读对象 本博文主要写给创业团队、技术团队人数 < 5 人、没有专业运维等小微企业作为参考,需要掌握基础的服务器管理、软件开发等经验。 博文主要内容 本博文主要为大家介绍阿里云提供的基础云监控、日志服务两大产品,通过云监控与日志服务可以做到每天不需要时刻关注所开发的软件系统、服务器、数据库等健康状况就掌握异常情况,并能及时进行应急响应和处理。
1935 0
|
存储 监控 应用服务中间件
小微企业阿里云最佳实践系列(四):云监控与 SLS 日志服务
本博文主要为大家介绍阿里云提供的基础云监控、日志服务两大产品,通过云监控与日志服务可以做到每天不需要时刻关注所开发的软件系统、服务器、数据库等健康状况就掌握异常情况,并能及时进行应急响应和处理。
2840 0
|
监控 容器
云监控最佳实践之-容器所有实例的热力图
### 背景: 从罗辑同学那里收到信息, 他们正在做一个容器服务上所有实例的各种指标的热力图。希望能够整体展示所有容器实例的负载情况。 这个需求不是个例,恰好,云监控的dashboard和容器服务监控两者结合可以满足这个需求场景。 ### 具体步骤如下: #### 使用云账号登录云监控控制台: https://cms.console.aliyun.com/#/home/e
1234 0
|
监控 容器
云监控最佳实践之-容器实例热力图
背景: 从某个客户那里收到信息, 他们正在做一个容器服务上所有实例的各种指标的热力图。希望能够整体展示所有容器实例的负载情况。 随着上云不断深入,越来越多的企业级用户选择将服务直接部署在容器服务里,容器实例越来越多,用户期望能够有一个大图显示所有容器实例的热力负载情况。
2207 0
|
2月前
|
存储 传感器 监控
云监控:引领未来监控技术的新篇章
传统监控系统需要投入大量的人力物力进行建设和维护,而云监控则通过云计算平台的按需付费特性降低了建设和维护成本。用户只需根据实际需求购买相应的服务和资源即可实现监控功能,无需担心设备升级、维护等问题。
|
4月前
|
弹性计算 监控 安全
【阿里云弹性计算】ECS实例监控与告警系统构建:利用阿里云监控服务保障稳定性
【5月更文挑战第23天】在数字化时代,阿里云弹性计算服务(ECS)为业务连续性提供保障。通过阿里云监控服务,用户可实时监控ECS实例的CPU、内存、磁盘I/O和网络流量等指标。启用监控,创建自定义视图集中显示关键指标,并设置告警规则(如CPU使用率超80%),结合多种通知方式确保及时响应。定期维护和优化告警策略,利用健康诊断工具,能提升服务高可用性和稳定性,确保云服务的卓越性能。
199 1
|
弹性计算 运维 监控
基于云监控实现的监控系统
通过阿里云云监控功能给非阿里云主机安装监控插件,从而实现对非阿里云主机的各项指标进行监控和管理,在配置报警规则和报警人的情况下,能对特定的场景做出报警反应通知到报警人的手机上。
586 0