如何建立高效告警体系提升日常运维效|学习笔记

本文涉及的产品
应用实时监控服务-用户体验监控,每月100OCU免费额度
应用实时监控服务-应用监控,每月50GB免费额度
简介: 快速学习如何建立高效告警体系提升日常运维效。

开发者学堂课程【如何建立高效告警体系提升日常运维效:如何建立高效告警体系提升日常运维效】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/940/detail/14751


如何建立高效告警体系提升日常运维效


内容介绍:

一、为什么需要智能警告平台?

二、ARMS智能告警平台

三、多告警源接入

四、应对告警风暴

五、AIOPS智能告警平台-收费模式


一、为什么需要智能警告平台?

1、传统告警系统面临的问题

①企业越来越多商运营需要大量的监控系统,比如说需要 skyok 做 tracy ,普顿休斯做 matures ,一套 es 或者云上的日服务做日志的相关监控,以上已经包括三种系统,不包括云监控等为平台提供监控的自身平台。众多平台没有统一的监控告警,需要维护联系会非常复杂,这是一个大的管理问题。

②其次,它难以形成形同上下文的一种关联,比如说:某个接口出现问题,可能云监控的拨测报警,日服务的日志也在报警,甚至是应用监控也在报警。这些报警之间毫无关联,此类问题是云上属于较大的痛点,同时无效告警也比较多,无效告警即是业务系统出现非常关键故障时,其他系统也可能出现相关的告警,且告警较多会把关键信息淹没,导致无法正确识别告警。

③最后一点即现在会发生报警较多却没人管的情况,即便有人管理也无法得知管控情况,关键性的告警从发生到修复需要的时间有多长,每天有多少是在处理,企业的 attr 能否计算得出,这些都是云上做有监控系统没有告警平台去解决所产生的问题。


二、ARMS智能告警平台

快速接入各类告警信息,通过自动去重、规则压缩、算法降噪,帮助运维团队减少告警,避免告警风暴。

通过分派、排班、通知等功能,快速实现告警流程化管理,帮助运维团队更快响应告警,恢复告警,提升告警管理能力。

ARMS 智能告警平台解决以上问题,集成众多监控系统包括 ARMS 本身的应用监控,云上的云监控还有日志服务等,本身集成十几家监控系统,提供开箱即用的能力。同时为了更好的写作,把协同的工具流放到钉钉中,用户可以通过钉钉来处理和运维相关的告警。提供用户分析的大盘,帮助用户分析告警是否每天有人处理,处理的情况如何。


三、多告警源接入

1、一键接入ARMS智能告警平台

告警的具体步骤:从事件源中产生一个事件,可以理解为告警的 event ,事件本身不会直接发送进来,需要和告警联系人匹配后才可生成告警流程。如图所示流程如下:

image.png

使用该系统通常出现的问题即:配有事件不知道如何产生告警,必须事件加联系人才能等于告警。

2、自定义集成-灵活接入任意告警源

第二点:使用告警系统默认没有接入,提供灵活的告警源的接入方式,按照自定义的接入方式,传入 event ,帮助清洗字段最后形成告警平台可以理解的告警。

比如:存在一个工单系统,其中产生比较重要的 event ,往告警平台传入的时候,可以把工单系统的报警警事件通过 web hook 的方式发放到告警平台,识别设置相关的内容,通过电话短信的联系方式通知到用户。本质上是接收事件,用户将告警团队配置到平台,平台将告警事件与团队的联系人相匹配发送。

具体操作如下:

首先打开控制平台,左侧列表最后有告警管理的单独模块,打开首先看到概览,其中包括接入的过程以及事件处理的流程等。比如说:已经使用应用监控,在应用监控中先创建一个告警 ruler ,条件应用响应时间,待用次数大于一次时,产生告警。此时,产生 event 事件,在通知策略位置选择不指定通知规则,点击保存。产生事件会自动的出现在概览位置,告警规则匹配后会产生各种事件展示于屏幕。如图所示:

image.png

若是其他的服务需要到指定服务区把规则设置完好。将之前相应的事件传递过来,完成后可在报警的事件列表中看到。事件发送进来后进行降噪处理,识别告警事件最多的关键词是什么样,观察哪些关键词高度重复,哪些内容是高度匹配的,进行压缩。也可以根据给出的关键词,比如:不希望出现测试告警,就可将屏蔽字进行屏蔽,则该类事件不会传入到告警事件中。告警事件传入后,所有事件均会传入到事件池中,则需要对事件进行分配,明确谁接收事件,谁对事件进行通知和排班的管理。比如:按照alertname或者其他的字段对于pod状态进行一个匹配,生成一个告警。可以在联系人中配取相关的联系人也可以导入,导出,配置钉钉机器人等统称为联系人。之后在通知策略中进行进一步的配置,在通知人/排班位置选择机器人或者真人接收告警。或者通过工单系统比如 general,desk 平台进行对接,保证信息可以传入抵达。配置完通知策略,再产生告警时可以收到相关告警,比较推荐使用钉钉来接收相关的报警,如图所示:

image.png

接受到如图所示的告警,用户仅需拥有钉钉账号,不需要了解相关信息或者登录平台,直接对告警进行认领,因为钉钉系统是分度集成,在认领完后可进行解决,该过程均会记录到活动中。用户明确知道该过程有人处理,同时针对该情况每天进行统计,告警的数量,哪些没处理以及整体的处理情况如何。

若团队大,较多的运维同学,存在 l1,l2 分层运维通选时,使用排班功能,对线上进行排班(如图所示),同时也可以进行升级策略的管理,比如:十分钟内没人认领时,可以对重要告警进行升级,属于告警的一种能力。相关的运维管理或者总监还需要了解多个告警每天都在发生,经过一段时间后是否有收敛或者说平均的 ngter 应用平台工具后是否有提升。可以用告警大盘了解每天告警平均响应的时间,处理情况以及报出 mttx 的统计。根据需求将相关的数据放入到用户的大盘或者是用户的普修斯数据进行二次开发。

image.png


四、应对告警风暴

告警不仅是管理和收集的过程,很多时候虽然发现告警,但是是否可以在告警的处理过程中阿里是否能给出建议或参考?首先,阿里会基于类似应用监控的产品提供一系列默认报警的能力,默认报警,提供相关的诊断能力,具体如图所示:

image.png

其中的 insights 功能,针对告警的默认情况生成报表,在报表中告知用户当前突针对原因,整体检测哪些原因导致。一般来说,诊断漏记和普通的诊断漏记一样,应用图针线检测多个主机是否有图针,是否影响多个接口有图针,若接口的相应时间的图针和类型一致的情况下,接口中的那些方法先有的图针,传递的路参是什么?为什么有此类图针?能否给出案例告诉用户哪些萃词较慢?通过报告做出提供,如图:

image.png

可以结合当时打出现成的堆栈再次确认是 matches , handler 的方法,结合上下文对数据进行定位和分析。这是 ARMS insights 针对告警问题相关的深入报告。快速整合上下文包括普顿休斯监控以及监控的相关数据均整合到相关报告里,进行全方位检测来收敛相关问题。


五、AIOPS智能告警平台-收费模式

关于收费问题,该服务本身存有事件不收取费用,仅收取短信,电话,邮件基础费用,可以认为仅是通道费用。(如图)

image.png

相关实践学习
通过云拨测对指定服务器进行Ping/DNS监测
本实验将通过云拨测对指定服务器进行Ping/DNS监测,评估网站服务质量和用户体验。
相关文章
|
7月前
|
存储 运维 安全
2024-3-18隐语学习笔记:数据可信流通,从运维信任到技术信任
数据要素可信流通,重构技术信任体系。信任四要素:身份可确认,利益可依赖,能力有预期,行为有后果。外循环中四要素遭到破坏,导致信任降级甚至崩塌:责任主体不清,能力参差不齐,利益诉求不一致,责任链路难追溯。数据可信流通 需要从运维信任走向技术信任。
|
7月前
|
运维 监控 安全
调用钉钉机器人API接口将堡垒机安全运维告警单发给运维人员
调用钉钉机器人API接口将堡垒机安全运维告警单发给运维人员
201 0
|
1月前
|
Prometheus 运维 监控
智能运维实战:Prometheus与Grafana的监控与告警体系
【10月更文挑战第26天】Prometheus与Grafana是智能运维中的强大组合,前者是开源的系统监控和警报工具,后者是数据可视化平台。Prometheus具备时间序列数据库、多维数据模型、PromQL查询语言等特性,而Grafana支持多数据源、丰富的可视化选项和告警功能。两者结合可实现实时监控、灵活告警和高度定制化的仪表板,广泛应用于服务器、应用和数据库的监控。
218 3
|
1月前
|
Prometheus 运维 监控
智能运维实战:Prometheus与Grafana的监控与告警体系
【10月更文挑战第27天】在智能运维中,Prometheus和Grafana的组合已成为监控和告警体系的事实标准。Prometheus负责数据收集和存储,支持灵活的查询语言PromQL;Grafana提供数据的可视化展示和告警功能。本文介绍如何配置Prometheus监控目标、Grafana数据源及告警规则,帮助运维团队实时监控系统状态,确保稳定性和可靠性。
179 0
|
4月前
|
机器学习/深度学习 人工智能 运维
"颠覆传统运维!揭秘阿里云AIGC如何化身运维界超级大脑,让故障预警、智能告警不再是梦,运维大神之路从此开启!"
【8月更文挑战第14天】随着AI技术的发展,AIGC正革新依赖人工经验的传统运维行业。阿里云凭借其领先的云计算能力和AI服务生态,为运维智能化提供了坚实基础。通过分析历史数据和系统日志,AIGC能自动发现并预测故障,大幅提升运维效率。例如,结合阿里云SLS和PAI,可构建智能告警系统,实现异常检测和实时预警。随着AIGC技术的进步,运维领域将迎来全面智能化转型,开启运维新时代。
137 3
|
4月前
|
存储 运维 Shell
运维.Linux.bash学习笔记.数组及其使用
运维.Linux.bash学习笔记.数组及其使用
38 0
|
7月前
|
运维 监控 安全
【优化篇】调用钉钉机器人API接口将堡垒机安全运维告警单发给运维人员
【优化篇】调用钉钉机器人API接口将堡垒机安全运维告警单发给运维人员
136 0
|
运维 网络虚拟化 数据中心
TStack运维笔记(04)- 配置VPC网络及告警设置
TStack运维笔记(04)- 配置VPC网络及告警设置
107 0
|
Prometheus 运维 监控
基于Prometheus和Grafana的监控平台 - 运维告警
基于Prometheus和Grafana的监控平台 - 运维告警
250 0
|
弹性计算 运维 监控
运维编排系列场景--通过告警触发自动重启CPU使用率高的ECS实例
运维编排(OOS) 简介什么是OOSOperation Orchestration Service,简称OOS,是全面、免费的云上自动化运维平台,提供运维任务的管理和执行。典型使用场景包括:事件驱动运维,批量操作运维,定时运维任务,跨地域运维等,OOS为重要运维场景提供审批,通知等功能。OOS帮您实现标准化运维任务,从而实践运维即代码(Operations as Code)的先进理念。关于OOS更