云监控治理检测:云监控的自助化最佳实践

本文涉及的产品
任务调度 XXL-JOB 版免费试用,400 元额度,开发版规格
Serverless 应用引擎免费试用套餐包,4320000 CU,有效期3个月
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
简介: 云监控提供了治理检测功能,能够帮助企业评估和提升其在运用云监控方面的能力,从而更好地应对这些挑战。它基于用户对资源的使用情况来推测用户所需的监控能力,帮助用户检测云监控的相关功能,并提供一键修复或治理建议,让用户自助化地运用云监控的最佳实践,构建一套完善的监控体系。

概述


在数字化转型浪潮中,云计算技术已成为企业实现敏捷性和创新的重要工具。作为全球领先的云服务提供商,阿里云在帮助企业实现高效云管理方面发挥着重要作用。


然而,随着云环境的日益复杂化和规模的不断扩大,如何有效管理和监控云资源,确保其高效、安全、合规地运行,成为企业面临的挑战。一方面,云监控多年来一直致力于提供更多的监控功能功能以便解决用户在更多场景下的监控需求,形成了丰富的平台能力。而另一方面,用户面临上云后如何做好监控的难题。不难发现,这两者之间存在间隙。那就是用户应该如何上手,如何借助阿里云监控这个平台多快好省地构建起一套完整的并且适合自己的监控体系。


为此,云监控提供了治理检测功能,能够帮助企业评估和提升其在运用云监控方面的能力,从而更好地应对这些挑战。它基于用户对资源的使用情况来推测用户所需的监控能力,帮助用户检测云监控的相关功能,并提供一键修复或治理建议,让用户自助化地运用云监控的最佳实践,构建一套完善的监控体系。


检测项分类


云监控将治理检测项分为监控覆盖、平台配置、使用状态、优化建议四大类,共 13 个检测项,全面涵盖用户在云监控运用过程中有没有做、有没有做对、有没有做好。以下以云产品资源监控和持续报警这两个检测项为例进行详细介绍。


云产品资源监控

云产品资源的运行状态直接影响着构建其上的应用以及支撑的业务。实现资源监控全覆盖是保证业务持续性的基础与关键。为云产品资源设置报警规则是实现云产品资源监控基础且必要的手段。如果存在云产品资源未被任何报警规则覆盖的情况将被视为需要关注和治理的问题。该检测项涵盖了包括 ECS、RDS、Redis、SLB、MongoDB、OSS 等在内的 17 款核心云产品。

image.png

如果用户在阿里云保有核心云产品的资源,则检测用户的报警规则是否对该资源进行了覆盖,如果没有覆盖,则判定该资源为待治理对象(如下图所示)。

image.png

用户可在按照检测报告中的提示,对这些监控未覆盖资源进行“一键治理”,云监控后台将自动开启一键报警,快速实现云产品资源监控的全覆盖。如果用户需要对报警规则进行细粒度的控制(监控指标、报警阈值、报警通知方式等),则可根据提示手动创建合适的报警规则,实现对云产品资源的覆盖。


持续报警

报警规则在符合设定规则的情况下处于报警状态是一种正常现象,但报警规则长期持续处于报警状态会直接导致报警疲劳(Alert Fatigure)--用户由于频繁收到大量报警信息,导致逐渐对这些报警失去敏感性,甚至开始忽略或不认真对待报警。报警疲劳会导致管理人员未能及时发现和响应真正关键的问题,进而可能导致系统出现严重故障或安全风险。因此,在配置报警规则时,需优化报警策略,减少不必要的报警,并对持续时间过长的报警规则、资源进行调整,以降低报警疲劳的风险是非常重要的。


当用户的报警规则中有任何一个在过去的 24 小时中持续处于报警状态(未恢复),则系统将该报警规则判定为待治理对象。通常情况下,需要尽快排除问题让监控指标恢复正常水位,或者需要结合实际情况调整报警规则阈值并消除误报警,避免影响正常的监控运维工作。


检测项一览

云监控治理检测的所有检测项见下表:

image.png


启用


当您初次使用治理检测功能时,需要先启用检测。登录云监控控制台->概览->治理检测[14]页面,点击立即检测

image.png

  1. 在左侧导航栏,单击概览。
  2. 在概览页面,单击治理检测页签。
  3. 单击立即检测后,等待检测完成即可。


查看检测报告

image.png

当检测完成后,您可以在页面中查看各检测项的结果。点击存在问题的检测项后,您可根据详情页面中的提示信息,查看需治理的对象并根据建议执行相应的治理动作。

image.png


结语


本文介绍了云监控的治理检测功能,以及用户如何通过它自助化地运用云监控的最佳实践,完善自己的监控体系。欢迎您前往云监控控制台体验该功能,期待您的反馈。


相关链接:

[1] 云产品资源监控

https://help.aliyun.com/zh/cms/user-guide/cloud-product-resource-monitoring

[2] 云监控插件安装覆盖率

https://help.aliyun.com/zh/cms/user-guide/cloud-monitor-plug-in-installation-coverage

[3] 无效的报警规则

https://help.aliyun.com/zh/cms/user-guide/invalid-alarm-rule

[4] 关联了已过期资源的报警规则

https://help.aliyun.com/zh/cms/user-guide/alarm-rules-associated-with-expired-resources

[5] 包含不推荐的指标规则

https://help.aliyun.com/zh/cms/user-guide/include-recommend-indicator-rules

[6] 使用旧版本系统事件订阅规则

https://help.aliyun.com/zh/cms/user-guide/use-old-version-system-event-subscription-rules

[7] 回调失败

https://help.aliyun.com/zh/cms/user-guide/untitled-document-1690167894723

[8] 持续报警

https://help.aliyun.com/zh/cms/user-guide/continuous-alarm

[9] 使用不推荐的云监控插件版本

https://help.aliyun.com/zh/cms/user-guide/use-an-recommend-version-of-the-cloudmonitor-plug-in

[10] 调用不推荐的云监控 API

https://help.aliyun.com/zh/cms/user-guide/call-an-unrecommend-cloud-monitoring-api

[11] 定期关注资源负载情况

https://help.aliyun.com/zh/cms/user-guide/regularly-monitor-resource-load

[12] 使用高效方式获取指标数据

https://help.aliyun.com/zh/cms/user-guide/use-an-efficient-way-to-capture-metric-data

[13] 持续监控公网服务的可用性

https://help.aliyun.com/zh/cms/user-guide/continuously-monitor-the-availability-of-public-network-services

[14] 持续监控公网服务的可用性

https://help.aliyun.com/zh/cms/user-guide/continuously-monitor-the-availability-of-public-network-services

相关实践学习
通过轻量消息队列(原MNS)主题HTTP订阅+ARMS实现自定义数据多渠道告警
本场景将自定义告警信息同时分发至多个通知渠道的需求,例如短信、电子邮件及钉钉群组等。通过采用轻量消息队列(原 MNS)的主题模型的HTTP订阅方式,并结合应用实时监控服务提供的自定义集成能力,使得您能够以简便的配置方式实现上述多渠道同步通知的功能。
相关文章
|
7月前
|
运维 Prometheus 监控
基于阿里云可观测产品构建企业级告警体系的通用路径与最佳实践
本文围绕企业级告警体系构建展开,探讨了监控与告警在系统稳定性中的重要作用。通过梳理监控对象、分析指标、采集数据及配置规则等环节,提出告警体系建设的通用流程,并针对多平台告警、误报、告警风暴等问题提供解决思路。结合阿里云可观测产品,分享了某电商企业的实践案例,展示了如何通过标签规范、日志标准和统一管理平台实现高效告警处置,为构建全面且实用的告警体系提供了参考指南。
738 1
|
8月前
|
运维 Prometheus 监控
基于阿里云可观测产品构建企业级告警体系的通用路径与最佳实践
基于阿里云可观测产品构建企业级告警体系的通用路径与最佳实践
337 1
|
存储 数据采集 监控
无数据告警最佳实践
在对SLS的Logstore和Metricstore进行监控的过程中,有时候会出现一些无数据的情况,监控SLS的存储库中无数据的情况,是保证数据成功上传到SLS的一个重要手段,本文将介绍无数据告警的常见配置方法。
644 0
无数据告警最佳实践
|
监控 Kubernetes 容器
云监控报警最佳实践之无数据策略
本文介绍了云监控报警中的无数据策略,通过该策略用户可以实现被监控对象无数据时的响应、处理。 ## 背景 云监控报警通常情况下是通过监控数据的阈值的判断来进行报警,比如cpu超过80%报警等。但有时候被监控对象的监控数据出现不连续或断掉的情况。如果要对这种情况进行报警,就需要配置无数据策略。 ## 配置无数据策略 首先进入[云监控控制台](https://cloudmonitor.console.
810 2
云监控报警最佳实践之无数据策略
|
存储 监控 索引
SLS告警最佳实践——自定义分析告警历史
在SLS告警评估、触发到通知的整个生命周期过程中,都会有一些日志记录,通过这些日志我们可以借助告警对系统的整体健康状况、稳定性等有一个相对全面的了解。
706 0
|
JSON 监控 应用服务中间件
SLS告警最佳实践——Webhook通知最佳实践
SLS告警通知对接了常用的各种 IM 系统,例如钉钉、企业微信、飞书、Slack。SLS对这些系统的 Webhook 进行了包装,用户无需关心各个通知渠道的具体消息格式,只需要配置希望通知的内容即可。 除此之外,还有其它的一些场景,需要使用通用Webhook(自定义 Webhook),本文主要介绍通用 Webhook 使用过程中常见的一些问题和最佳实践。
910 0
|
机器人
智能巡检告警配置最佳实践
智能异常分析的检测结果通过 SLS 告警功能输出到用户配置的通知渠道。在智能巡检场景中,单个任务往往会巡检大量的实体对象,涉及到的对象规则很多,我们通过SLS新版告警可以实现较好的对于巡检事件的管理。
940 0
|
存储 运维 Kubernetes
SLS告警最佳实践—— K8s事件中心告警管理
K8S事件中心是SLS的日志应用之一,主要记录了集群的状态变更,包括创建Pod、运行Pod、删除Pod、组件异常等。K8S事件中心实时收集K8S中的所有事件并提供存储、查询、分析、可视化与告警能力。K8s事件中心默认也会提供仪表盘和告警,本文主要介绍下如何在ACK控制台和SLS控制台管理K8s事件中心的告警及其区别和使用场景。
1481 0
SLS告警最佳实践—— K8s事件中心告警管理
|
JSON 应用服务中间件 数据处理
SLS告警最佳实践——在通知中引用日志内容
在配置告警通知的时候,通常我们需要知道告警的触发详情。例如Nginx访问错误告警,我们需要知道错误的HTTP Status 分布,错误的机器IP等信息,并且需要将这些信息体现在通知中,以便在接收到告警通知后,能够一目了然地知道发生了什么事情。那么在创建告警规则的时候,我们就需要进行合理的配置,使得告警在触发后,可以将这些信息放在合适的位置发送给通知服务,从而在通知模板里可以被引用到,从而被正确地通知。
654 0
|
存储 SQL 机器学习/深度学习
智能巡检云监控指标的最佳实践
在真实的企业生产中,对研发和运维的同学都会面临一个十分繁复且艰难的问题,就是对指标的监控和告警。具体我枚举一些特定的问题请对号入座,看看在算力爆炸的时代能否通过算力和算法一起解决!
1336 0