实现全景化应用监控——关联分析

简介: 【2月更文挑战第29天】智能化应用运维借助AI算法处理复杂系统问题,需要数据治理平台整合分散的监控系统,形成统一的全景监控视图。关键方法包括:1) 读取CMDB信息以理解IT组件关系;2) 监控网络流量解析服务交互;3) 使用APM追踪代码链路;4) 应用AI算法挖掘隐藏关联关系,通过时间序列分析和因果推理模型识别异常和故障原因。

应用运维智能化技术和相关软件系统是伴随应用系统复杂度、运维工作量和技术难度激增而出现的,因此,通过人工智能算法来代替人工融合和分析数据、推理、决策、处理问题是建设应用智能运维系统需要考虑的关键问题之一。

传统应用运维过程中常用的监控运维系统一般是针对特定场景、特定资源建设的。例如,日志分析平台采集分析应用日志;APM监控代码链路和对全量用户请求的处理情况;网络性能管理(NPM)平台追踪网络中的交易情况和网络异常;IT资源监控系统监控服务器、网络设备、云环境和应用运行依赖的中间件等。要做到智能化,首先要有运维数据治理平台的支撑,将离散、竖井式的监控系统关联打通,构建同构的、一致的全景化应用监控视图,这样才能为运维人员过滤冗余信息,提供精准的风险态势监控和定位决策支持。

关联分析是整合应用运行期生成的各层级全栈数据、关联打通竖井式监控系统的关键。目前可以用来关联应用运维数据的方法主要有如下几种。

1、读取配置管理数据库(CMDB)信息

CMDB是一个数据库,其中包含有关组织IT服务中使用的硬件和软件组件,以及这些组件之间关系的所有相关信息。信息系统的组件称为配置项(CI)。CI可以是任何可以想象的IT组件,包括软件、硬件、文档和人员,以及它们之间的任意组合或依赖关系。应用运行期依赖物理IT基础设施设备、虚拟IT基础设施设备与应用之间的部署关系,网络拓扑关联关系可以从CMDB中定义的CI关联读取出来。一旦设备出现故障,这些关系可以用来辅助找出影响范围。

2、监控分析网络流量

NPM工具可以通过旁路镜像网络流量来监控网络上应用中的服务接口之间、应用与用户之间的交互关系,获取网络层的关联关系。利用深度网络包检测(Deep Packet Inspection,DPI)技术,甚至可以将网络报文中的业务交互信息解析出来,补充业务层的调用关系。

3、追踪应用代码链路

APM工具提供了对应用程序性能深入分析的能力,当用户向应用程序发出请求时,APM工具可以通过探针看到分布式部署的应用系统中的接口调用关系、代码链路执行过程和方法调用关系,并且可以显示有关此请求发生的系统数据、参数和与数据库交互的SQL语句。应用白盒监控能力提供的关联关系,可以在排查代码缺陷导致的故障时,快速定位根源问题。

4、利用人工智能算法计算关联关系

以上三种方法利用传统运维监控工具提供的数据关联和检索能力构建了覆盖物理部署、网络交互、接口交互与代码交互的关系图结构,基于此可以实现在异常情况下的信息关联。但是,一旦出现未能直接监控的问题导致的应用故障,就需要用算法来辅助分析海量历史监控数据,发现数据中隐含的关系,并根据发现的问题及已知事件推理进行决策。常用的技术是查找时间序列指标数据波动之间的相似性、相关性等关联关系(主要方法有Pearson、Granger Kendall、Spearman等)。基于关联关系构建的因果推理分析模型,可以基于概率图模型(如Bayesian Networks、Markov Random Fields等)建模来实现因果关系发现和推理。

相关文章
|
2月前
|
数据采集 数据可视化 数据挖掘
掌握可视化大屏:提升数据分析和决策能力的关键(下)
掌握可视化大屏:提升数据分析和决策能力的关键(下)
|
2月前
|
供应链 数据可视化 数据挖掘
掌握可视化大屏:提升数据分析和决策能力的关键(上)
掌握可视化大屏:提升数据分析和决策能力的关键(上)
|
12月前
|
机器学习/深度学习 编解码 监控
智慧交通day04-特定目标车辆追踪01:总览概述
通过对目标外观模型进行建模, 然后在之后的帧中找到目标. 例如, 区域匹配、特征点跟踪、基于主动轮廓的跟踪算法、光流法等. 最常用的是特征匹配法, 首先提取目标特征, 然后在后续的帧中找到最相似的特征进行目标定位, 常用的特征有: SIFT特征、SURF特征、Harris角点等.
87 0
|
安全 前端开发 数据挖掘
不良事件上报系统源码,多维度多样式的统计分析图表
商业级源码。不良事件上报系统是医疗机构自愿报告医疗安全不良事件的信息平台,具有非具名、非惩罚性质。管理员可通过对上报信息的研究分析,向医疗机构提出医疗安全警示和改进建议,以增强医院识别、处理安全隐患和预防不良事件发生的能力,从而实现安全医疗的目标。
不良事件上报系统源码,多维度多样式的统计分析图表
|
机器学习/深度学习 数据采集 自然语言处理
全自动化数据洞察!数据分布对比可视化!⛵
本文介绍如何使用 Pandas Profiling 的比较报告功能,分析两个数据集的分布差异,完成数据探索分析 (EDA) 的完整流程,为后续分析做准备。
220 0
全自动化数据洞察!数据分布对比可视化!⛵
|
监控 开发者
网站流量日志分析—分析指标和分析模型—漏斗分析模型|学习笔记
快速学习网站流量日志分析—分析指标和分析模型—漏斗分析模型
100 0
网站流量日志分析—分析指标和分析模型—漏斗分析模型|学习笔记
|
机器学习/深度学习 存储 SQL
如何将“智能巡检”嵌入“业务系统”中?
智能巡检借助强大的SLS“告警2.0”消息系统,可以很好的桥接很多内部和外部的系统(EventBridge、FC等),也可以借助SLS的SDK和自定义的函数去解决针对“告警结果”的下一步“分析任务”,从而更好的实现对于问题的排查和解决。
316 0
舆情管理的特点分析
互联网时代,舆情管理的重要性不言而喻。为帮助大家更好的做好舆情工作,小编特对舆情管理的特点进行了简要分析:
|
机器学习/深度学习 编解码 自然语言处理
实时语音质量监控
本文主要想介绍实时语音的质量到底是什么样的,大概介绍一下这个领域的一些已有的一些方法,然后会再介绍一下现有的方法,并且介绍一下未来想做的一些事情。