智能告警——企业IT系统神经中枢

简介: 本文记录阿里云SLS丁来强在2021阿里云开发者大会--基础设施的云上管控分论坛上的分享
+关注继续查看

image.png

人体的8种感觉

我们都知道人体神经系统非常复杂,由各个末梢信号后经由脊髓、大脑中枢处理后获得如下众所周知的5种感觉:

  • 视觉——眼睛、听觉——耳朵、触觉——皮肤、嗅觉——鼻、味觉——口

除此之外,人体其实还有另外3种重要的感觉,分别是:

  • 内脏觉——内脏、本体觉——关节肌肉、前庭觉——前庭神经核


其中内脏觉获取来内脏壁信号,产生内脏相关的感觉例如饥饿、饱腹、尿急等。本体觉获取关节肌肉等信号,感知当前身体处于一个什么样的姿势和运动状态。前庭觉则通过各方信号,获得平衡方向感,并过滤信号以便集中精神。

不用说,任何一个感觉出了问题,都会造成非常严重的后果。人们健康快乐的生活离不开这些神经系统的正常工作。


企业IT系统的感觉系统

企业IT系统同样存在各种感觉——对计算、网络、存储、安全、管控等系统的监控运维。数字化信息化的今天,企业组织能否健康、稳定、持续的发展也离不开其IT系统的神经系统——监控运维系统(更宽泛的说法叫可观测性系统)的正常工作。

但不同于人类物种经过几百万年的统一演化为基本一致性,企业IT系统的告警监控系统(可观测性系统),还存在非常大的多样性,例如如下使用开源方式对容器化部署形态的IT系统的监控存在多种方案组成:

image.png


传统告警系统大量碎片化、无体系的神经孤岛,带来了非常多的痛点,包括重复建设、监控智能差、告警风暴、触发不人性化、无法闭环等。

image.png


SLS告警为企业IT系统提供智能神经中枢

作为新一代的云原生可观测平台,SLS支持多种数据源的一体化接入、一站式的存储、加工、分析、可视化、监控、投递、三方对接,为企业IT系统的使用者(包括开发运维、监控人员、商务、安全运营人员等)提供了最快、最高效的观测体验。

image.png

作为SLS的一个子系统,SLS告警为IT系统重现构建了智能神经中枢。

image.png


目前已经大量被阿里云平台的企业用户使用,每天从海量的数据中监控识别产生告警、管理处理并通知与响应,可证明的灵活适配与稳定可靠性。

image.png


使用SLS告警可以给企业IT系统的神经中枢提升易用弹性、可靠性以及功能灵活性,并降低成本、告警噪音以及减少损失。

image.png

下面从几个侧面了解一下SLS告警是如何为企业IT系统提供智能的神经中枢的。

接入三方告警——兼听则明

类似于人体的多种感觉从多方获取信号设置告警(例如听到天气预报说明天会下大雨,而出门带好雨伞),SLS告警也支持从其他多种流行监控系统中直接接受告警,并进行智能处理与响应。支持的三方系统包括Promethues告警、Grafana告警、Zabbix告警等。

image.png


统一信号分析——智能告警监控

SLS作为可观测平台,已经接收了IT系统的大量信号(日志、时序、跟踪等),可以直接使用SLS告警从中挖掘出大量信息(告警),SLS提供了一套查询分析语法,全面覆盖现在流行的时序、分析型语法,兼顾强大灵活与易上手。

image.png

不仅如此,还支持多种数据的协同关联,就像闭上眼睛,拿一个水果,也可以通过触觉、嗅觉、听觉等判断出这是一个杯子、还是一个苹果等。

image.png

智慧信号处理——ML算法

就像人的脊髓、大脑等会自动参与信号处理得到更高级的感觉信息一样,从海量的数据中产生信息包括告警,离不开机器学习的支持,SLS提供多种丰富流行与顶级算法,更精准高效的产生告警。

image.png

千里眼——全局监控

人的感觉系统是有距离限制的,触觉限制了手能够到的地方,视觉可达数公里。但IT企业系统可能分布在各个国家、城市系统或各个隔离的账号体系中,SLS告警支持跨库、跨地域、跨账号的对数据进行远程监控,就像千里眼一样。

image.png

知识库——内置规则库

人类善于学习积累来扩展感觉系统,一个小朋友在摸过看过或碰触装了热水的玻璃杯后会记住这个感觉,下次再看到冒着热水的玻璃杯就会得到一样的信息。SLS告警的内置告警规则库,提供数百个这样的知识,开箱机用。

image.png

告警降噪——IT系统的前庭觉

一个男生在玩《王者荣耀》时,或一个新青年在看《光荣与梦想》时,通常会自动忽略周围的大部分信息,这其实是前庭觉在起作用。在企业监控告警中,也需要通用的机制:在收到一个主机宕机的严重告警时,IT运维同学加紧迁移系统中,希望自动忽略该主机上一连串的其他告警的。亦或者在晚上休息期间,非严重告警,要被自动忽略掉。SLS告警的管理功能(告警策略、行动策略等),可以提供静默、合并、合并降噪等功能,也支持根据节假日、工作时段等灵活调整通知策略等。

image.png

告警态势大盘——IT系统的本体觉

类似于本体觉让你闭上眼睛也能感知自己是站着还是躺着,处于什么姿势一样。SLS告警的多张告警大盘让使用者轻松掌握目前整体告警态势与进展。

image.png

记事本——事务管理

人的神经系统不能一下次并行处理多个事务(例如很难一边写作业、一边玩游戏),也不容易记住很多事情。IT系统运维人员面对许多并行告警时,同样如此,SLS的告警事务管理提供了这样的便利,就像记事本一样帮助他们管理好各个告警的状态,及时有效的跟进或处理。image.png

神经系统响应——行动管理

一如人体对于感觉会做出反应(如看到危险,要躲避一样),SLS告警提供多种通知与响应形式,包括各种渠道:

image.png

也企业组织下还支持贴心的功能如:值班表(轮岗代班等)、告警升级等。

image.png

进一步参考

image.png

  • 更多SLS的系列直播与培训视频会同步到微信公众号与B站,敬请留意

image.png


相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
11月前
|
存储 运维 监控
华汇数据运维自动化巡检-实时在线监控-实现精准化管理
运维自动化可以大大提高运维的主动性和准确性,减少技术人员的工作强度,将精力转到运维策略规划、问题分析等有价值的工作中
191 0
华汇数据运维自动化巡检-实时在线监控-实现精准化管理
|
11月前
|
运维 监控 调度
【Dataphin智能运维】智能基线,自动化预警代替人工监控
DataphinV3.6版本全新上线智能运维模块,支持基线监控和调度限流功能。基线监控能够快速捕捉导致基线上的任务无法按时完成的异常情况并提前预警,保障复杂依赖场景下重要数据能在预期时间内顺利产出,帮助您降低人工配置成本、提升监控及时性和准确性、避免无效报警,运维人员的好帮手,管理者的福音!
【Dataphin智能运维】智能基线,自动化预警代替人工监控
|
弹性计算 监控
直播预告丨阿里云佐井:关注预警6要素,帮助用户实现精准监控和告警
通过监控预警,把问题扼杀在摇篮里,减少故障带来的业务损失。
直播预告丨阿里云佐井:关注预警6要素,帮助用户实现精准监控和告警
|
消息中间件 存储 运维
平台上配置智能告警
平台上配置智能告警
119 0
|
SQL 存储 监控
一分钟完成访问数据的智能巡检告警
简介: 本篇文章主要介绍针对访问日志类型的数据如何使用SLS的智能巡检服务,通过简单的业务梳理和SQL的使用,就可以实现智能化的指标巡检。通过简单的告警配置,就可以让丰富的告警信息整体推送到您的钉钉机器人中,交互式的打标让您的巡检结果更满足您的业务场景。
|
运维 Prometheus 监控
告警运维中心|构建高效精准的告警协同处理体系
基于报告,ARMS 能快速的整合上下文,包括 Prometheus 监控进行监控。还有前端监控的相关数据,都会整合到报告里面,进行全方位检测来收敛相关问题。
告警运维中心|构建高效精准的告警协同处理体系
|
机器人
智能巡检告警配置最佳实践
智能异常分析的检测结果通过 SLS 告警功能输出到用户配置的通知渠道。在智能巡检场景中,单个任务往往会巡检大量的实体对象,涉及到的对象规则很多,我们通过SLS新版告警可以实现较好的对于巡检事件的管理。
625 0
|
机器学习/深度学习 运维 自然语言处理
盘点监控系统中的告警智能降噪方案
在监控场景下,一旦出现告警风暴,告警本身就失去了意义和价值。因此需要有一套方案,帮助用户在不遗漏重要告警前提下,有效减少告警数量。本文主要调研了业界常见的监控/告警系统中使用到的智能算法降噪方案。
2212 0
盘点监控系统中的告警智能降噪方案
|
存储 Web App开发 缓存
技术干货 | 应用上线前的“体检”,你知道需要检测哪些指标吗?
应用上线前检测哪些项目?如何检测?检测数据指标包括哪些?
1330 0
技术干货 | 应用上线前的“体检”,你知道需要检测哪些指标吗?
|
编解码
直播风险诊断
该文主要介绍为您主动检测直播业务可能存在的风险,并通知您及时注意并解决掉。
636 0
相关产品
对象存储
文件存储NAS
日志服务
推荐文章
更多