云监控治理检测：云监控的自助化最佳实践

2024-09-14 322

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

任务调度 XXL-JOB 版免费试用，400 元额度，开发版规格

Serverless 应用引擎免费试用套餐包，4320000 CU，有效期3个月

服务治理 MSE Sentinel/OpenSergo，Agent数量不受限

简介： 云监控提供了治理检测功能，能够帮助企业评估和提升其在运用云监控方面的能力，从而更好地应对这些挑战。它基于用户对资源的使用情况来推测用户所需的监控能力，帮助用户检测云监控的相关功能，并提供一键修复或治理建议，让用户自助化地运用云监控的最佳实践，构建一套完善的监控体系。

概述

在数字化转型浪潮中，云计算技术已成为企业实现敏捷性和创新的重要工具。作为全球领先的云服务提供商，阿里云在帮助企业实现高效云管理方面发挥着重要作用。

然而，随着云环境的日益复杂化和规模的不断扩大，如何有效管理和监控云资源，确保其高效、安全、合规地运行，成为企业面临的挑战。一方面，云监控多年来一直致力于提供更多的监控功能功能以便解决用户在更多场景下的监控需求，形成了丰富的平台能力。而另一方面，用户面临上云后如何做好监控的难题。不难发现，这两者之间存在间隙。那就是用户应该如何上手，如何借助阿里云监控这个平台多快好省地构建起一套完整的并且适合自己的监控体系。

为此，云监控提供了治理检测功能，能够帮助企业评估和提升其在运用云监控方面的能力，从而更好地应对这些挑战。它基于用户对资源的使用情况来推测用户所需的监控能力，帮助用户检测云监控的相关功能，并提供一键修复或治理建议，让用户自助化地运用云监控的最佳实践，构建一套完善的监控体系。

检测项分类

云监控将治理检测项分为监控覆盖、平台配置、使用状态、优化建议四大类，共 13 个检测项，全面涵盖用户在云监控运用过程中有没有做、有没有做对、有没有做好。以下以云产品资源监控和持续报警这两个检测项为例进行详细介绍。

云产品资源监控

云产品资源的运行状态直接影响着构建其上的应用以及支撑的业务。实现资源监控全覆盖是保证业务持续性的基础与关键。为云产品资源设置报警规则是实现云产品资源监控基础且必要的手段。如果存在云产品资源未被任何报警规则覆盖的情况将被视为需要关注和治理的问题。该检测项涵盖了包括 ECS、RDS、Redis、SLB、MongoDB、OSS 等在内的 17 款核心云产品。

如果用户在阿里云保有核心云产品的资源，则检测用户的报警规则是否对该资源进行了覆盖，如果没有覆盖，则判定该资源为待治理对象（如下图所示）。

用户可在按照检测报告中的提示，对这些监控未覆盖资源进行“一键治理”，云监控后台将自动开启一键报警，快速实现云产品资源监控的全覆盖。如果用户需要对报警规则进行细粒度的控制（监控指标、报警阈值、报警通知方式等），则可根据提示手动创建合适的报警规则，实现对云产品资源的覆盖。

持续报警

报警规则在符合设定规则的情况下处于报警状态是一种正常现象，但报警规则长期持续处于报警状态会直接导致报警疲劳（Alert Fatigure）--用户由于频繁收到大量报警信息，导致逐渐对这些报警失去敏感性，甚至开始忽略或不认真对待报警。报警疲劳会导致管理人员未能及时发现和响应真正关键的问题，进而可能导致系统出现严重故障或安全风险。因此，在配置报警规则时，需优化报警策略，减少不必要的报警，并对持续时间过长的报警规则、资源进行调整，以降低报警疲劳的风险是非常重要的。

当用户的报警规则中有任何一个在过去的 24 小时中持续处于报警状态（未恢复），则系统将该报警规则判定为待治理对象。通常情况下，需要尽快排除问题让监控指标恢复正常水位，或者需要结合实际情况调整报警规则阈值并消除误报警，避免影响正常的监控运维工作。