基于Tag的自动化监控方案

简介: 简介: 关键词: 云监控,Tag,分组,应用分组,自动监控,redis监控,cloudmonitor-group,自动发现 随着企业云资产越来越多,每天生产销毁变更的资源也不在少数,企业用户对这些资产的管控难度也越来越大,尤其是监控领域。

打个Tag就完成监控了?--使用监控的新姿势

关键词:

云监控,Tag,分组,应用分组,自动监控,redis监控,cloudmonitor-group,自动发现

背景

随着企业云资产越来越多,每天生产销毁变更的资源也不在少数,企业用户对这些资产的管控难度也越来越大,尤其是监控领域。每生产或者销毁一个实例,就要人肉为其配置管理相关监控报警,这需要非常大的人肉管控成本,直接block了用户使用云监控,从而给用户的可用性带来威胁。

随着的TAG的成熟,很多企业开始使用TAG来实现资源的分类、运维、财账等。基于TAG的运维监控,也是其中非常重要的一个场景。因此tag和云监控打通,将能够实现基于TAG的自动化监控,只要用户打上tag,就能够自动设置上相应的监控,是很多大用户非常期待的,这将有助于用户大大降低监控管理成本。

先满足,让用户资源能够被监控到这样一个最基本的诉求。

方案

云监控中有应用+应用分组的资源管理模型,可以实现跨region,跨产品的资源监控管理。同时,基于应用分组+监控模板,可以对一组资源快速实现监控覆盖,甚至是自动化监控。

然而,对于大用户来说,以头条为例,大几万的资源,对这些资源的分组也达到几千个,如果这些资源是通过人肉方式创建,几乎是不可想像的。好在一些用户已经通过tag,将这些资源作好了分组。我们需要做的是,将这些分组自动对应到云监控的应用分组,自动的带上监控。

综上,tag和云监控打通将给用户带来极大的便利。

详解

目前云监控和TAG服务集成,支持了两种通过TAG完成监控的方式,来满足不同用户的需求:

一,给资源打下固定的Tag键:cloudmonitor-group

这个tag键对应的所有值,都会自动创建一个云监控的应用分组,在分组中可以提供资源使用率的图表,以有分组维度的监控管理。

image

如上图所示,一共创建了两个TAG,一个Key:cloudmonitor-group value:为空,另一个key:cloudmonitor-group,value:test。
两个tag的value分别创建了一个监控的应用分组,创建分组时,默认使用的监控模板名为:‘’常用基础模板“,默认使用的报警联系人组为:”云账号报警联系人“。

分组创建完成后,用户可以根据需要,手动修改监控模板和报警联系人。

二,通过指定的TAG key来完成监控:

登录云监控控制台,在应用分组菜单中创建应用分组:
image

image

如图:可能通过指定的tag key来创建分组, 并支持过滤指定的tag值,如需要把tagkey=owner,tagvalue包含“开发”的所有tag值创建分组。
image

同样,默认使用的监控模板名为:'常用基础模板',默认使用的报警联系人组为:'云账号报警联系人'。

用户可以根据需要,手动修改监控模板和报警联系人。

另外,目前云监控也支持按实例的名称来实现对资源的自动发现,比如创建一个分组,将名称中包括'dev'的实例自动加入分组,

总结:

使用TAG和名称动态匹配的方式的好处是,创建一个分组后,以后创建的所有符合条件的实例,都会自动发现自动加入分组,自动被监控,从而大大降低监控配置的成本。

  1. 目前Tag监控,只支持ecs(只支持实例,不支持网卡,磁盘等),rds,slb,redis四款产品,其他产品还需要再等待一段时间。
  2. 目前一个分组里每个产品,最多只能支持3000个资源。超过3000个,不会加入分组中,顺序是随机。
  3. 创建完分组,分组聚合的监控数据,需要等待5分钟左右的时间,才会看到分组级别的数据图表。
  4. 创建完分组,具体的分组以及分组里的报警规则,会在后台异步创建,所以也会有几分钟的延迟。
  5. 目前基于TAG创建分组都是通过订阅tag键的方式实现的,因此,后续这个tag键新创建的值,只要满足规则匹配条件,就会自动创建出一个分组。
  6. 分组名称的规则是:TagKey-TagValue-1,用户可修改。

后续计划:

云监控的分组会继续和资源组,财务单元等企业管理方式打通,提供更多的监控视角和资源使用率视角。
同时,也会支持按分组进行授权,以帮助企业完成精细化管理的需求。

关联阅读

Tag监控: https://yq.aliyun.com/articles/740089?spm=a2c4e.11153940.0.0.2cc48cafsTfmrz
redis的自动化监控:https://developer.aliyun.com/article/742445?spm=a2c6h.13148508.0.0.e1364f0eViWuKT

目录
相关文章
|
10月前
|
人工智能 自然语言处理 算法
AI智能混剪视频大模型开发方案:从文字到视频的自动化生成·优雅草卓伊凡
AI智能混剪视频大模型开发方案:从文字到视频的自动化生成·优雅草卓伊凡
1104 0
AI智能混剪视频大模型开发方案:从文字到视频的自动化生成·优雅草卓伊凡
|
10月前
|
监控 安全 Linux
Arista CloudVision 2025.1 - 多云和数据中心网络自动化、监控和分析
Arista CloudVision 2025.1 - 多云和数据中心网络自动化、监控和分析
410 2
Arista CloudVision 2025.1 - 多云和数据中心网络自动化、监控和分析
|
9月前
|
机器学习/深度学习 Kubernetes 监控
Kubernetes 节点故障自愈方案:结合 Node Problem Detector 与自动化脚本
本文深入探讨了Kubernetes节点故障自愈方案,结合Node Problem Detector(NPD)与自动化脚本,提供技术细节、完整代码示例及实战验证。文章分析了硬件、系统和内核层面的典型故障场景,指出现有监控体系的局限性,并提出基于NPD的实时事件捕获与自动化诊断树的改进方案。通过深度集成NPD、设计自动化修复引擎以及展示内核死锁恢复的实战案例,文章详细说明了自愈流程的实现步骤与性能优势。此外,还提供了生产环境部署指南、高可用架构设计及安全防护措施,并展望了机器学习增强故障预测和混沌工程验证的进阶优化方向。全文约1.2万字,适合希望提升Kubernetes集群稳定性的技术人员阅读。
619 1
|
8月前
|
数据采集 存储 监控
Python爬虫自动化:定时监控快手热门话题
Python爬虫自动化:定时监控快手热门话题
|
12月前
|
数据采集 运维 监控
数据采集监控与告警:错误重试、日志分析与自动化运维
本文探讨了数据采集技术从“简单采集”到自动化运维的演进。传统方式因反爬策略和网络波动常导致数据丢失,而引入错误重试、日志分析与自动化告警机制可显著提升系统稳定性与时效性。正方强调健全监控体系的重要性,反方则担忧复杂化带来的成本与安全风险。未来,结合AI与大数据技术,数据采集将向智能化、全自动方向发展,实现动态调整与智能识别反爬策略,降低人工干预需求。附带的Python示例展示了如何通过代理IP、重试策略及日志记录实现高效的数据采集程序。
539 7
数据采集监控与告警:错误重试、日志分析与自动化运维
|
12月前
|
关系型数据库 Shell 网络安全
定期备份数据库:基于 Shell 脚本的自动化方案
本篇文章分享一个简单的 Shell 脚本,用于定期备份 MySQL 数据库,并自动将备份传输到远程服务器,帮助防止数据丢失。
|
监控 运维
HTTPS 证书自动化运维:https证书管理系统- 自动化监控
本文介绍如何设置和查看域名或证书监控。步骤1:根据证书状态选择新增域名或证书监控,线上部署推荐域名监控,未部署选择证书监控。步骤2:查询监控记录详情。步骤3:在详情页查看每日定时检测结果或手动测试。
HTTPS 证书自动化运维:https证书管理系统- 自动化监控
|
Kubernetes 持续交付 开发工具
阿里云协同万兴科技落地ACK One GitOps方案,全球多机房应用自动化发布,效率提升50%
阿里云协同万兴科技落地ACK One GitOps方案,全球多机房应用自动化发布,效率提升50%
612 2
|
Kubernetes 持续交付 开发工具
阿里云协同万兴科技落地ACK One GitOps方案,全球多机房应用自动化发布,效率提升50%
阿里云协同万兴科技落地ACK One GitOps方案,全球多机房应用自动化发布,效率提升50%
|
弹性计算 运维 安全
自动化AutoTalk第十五期:自动化场景-多账号自动化场景下的AK管理方案
自动化AutoTalk第十五期探讨了多账号自动化场景下的AK管理方案。主要介绍了通过阿里云的实例角色和STS Token减少AK暴露风险,避免硬编码AK带来的安全隐患。最佳实践包括定期轮转AK、使用临时Token、分环境管理凭据,以及利用ECS实例角色实现安全的跨账号资源操作,确保在多账号架构中提升自动化程序的安全性和管理效率。
334 7