实现全景化应用监控的基础:关联分析

简介: 【6月更文挑战第16天】应用运维智能化应对复杂度挑战,借助AI算法分析数据、做决策。智能运维需统一监控视图,关联分析如CMDB信息、网络流量和代码链路。此外,利用AI计算关联关系,通过时间序列分析和概率图模型挖掘隐藏的故障模式,提升故障定位和决策效率。

应用运维智能化技术和相关软件系统是伴随应用系统复杂度、运维工作量和技术难度激增而出现的,因此,通过人工智能算法来代替人工融合和分析数据、推理、决策、处理问题是建设应用智能运维系统需要考虑的关键问题之一。


传统应用运维过程中常用的监控运维系统一般是针对特定场景、特定资源建设的。例如,日志分析平台采集分析应用日志;APM监控代码链路和对全量用户请求的处理情况;网络性能管理(NPM)平台追踪网络中的交易情况和网络异常;IT资源监控系统监控服务器、网络设备、云环境和应用运行依赖的中间件等。要做到智能化,首先要有运维数据治理平台的支撑,将离散、竖井式的监控系统关联打通,构建同构的、一致的全景化应用监控视图,这样才能为运维人员过滤冗余信息,提供精准的风险态势监控和定位决策支持。


关联分析是整合应用运行期生成的各层级全栈数据、关联打通竖井式监控系统的关键。目前可以用来关联应用运维数据的方法主要有如下几种。

1、读取配置管理数据库(CMDB)信息

CMDB是一个数据库,其中包含有关组织IT服务中使用的硬件和软件组件,以及这些组件之间关系的所有相关信息。信息系统的组件称为配置项(CI)。CI可以是任何可以想象的IT组件,包括软件、硬件、文档和人员,以及它们之间的任意组合或依赖关系。应用运行期依赖物理IT基础设施设备、虚拟IT基础设施设备与应用之间的部署关系,网络拓扑关联关系可以从CMDB中定义的CI关联读取出来。一旦设备出现故障,这些关系可以用来辅助找出影响范围。

2、监控分析网络流量

NPM工具可以通过旁路镜像网络流量来监控网络上应用中的服务接口之间、应用与用户之间的交互关系,获取网络层的关联关系。利用深度网络包检测(Deep Packet Inspection,DPI)技术,甚至可以将网络报文中的业务交互信息解析出来,补充业务层的调用关系。

3、追踪应用代码链路

APM工具提供了对应用程序性能深入分析的能力,当用户向应用程序发出请求时,APM工具可以通过探针看到分布式部署的应用系统中的接口调用关系、代码链路执行过程和方法调用关系,并且可以显示有关此请求发生的系统数据、参数和与数据库交互的SQL语句。应用白盒监控能力提供的关联关系,可以在排查代码缺陷导致的故障时,快速定位根源问题。

4、利用人工智能算法计算关联关系

以上三种方法利用传统运维监控工具提供的数据关联和检索能力构建了覆盖物理部署、网络交互、接口交互与代码交互的关系图结构,基于此可以实现在异常情况下的信息关联。但是,一旦出现未能直接监控的问题导致的应用故障,就需要用算法来辅助分析海量历史监控数据,发现数据中隐含的关系,并根据发现的问题及已知事件推理进行决策。常用的技术是查找时间序列指标数据波动之间的相似性、相关性等关联关系(主要方法有Pearson、Granger Kendall、Spearman等)。基于关联关系构建的因果推理分析模型,可以基于概率图模型(如Bayesian Networks、Markov Random Fields等)建模来实现因果关系发现和推理。

目录
打赏
0
2
2
0
454
分享
相关文章
(ARMS-AIOps)一文教你用Attributor算法实现多维下钻分析
常见的AIOps应用路径为:对监控的各种关键性能指标(KPI)进行实时异常检测;对多维指标进行根源分析,快速下钻到异常维度和元素;基于应用拓扑和实时Trace,实现根因定位;结合CMDB、关联等、构建异常根因上下文,帮助快速修复问题。 作为KPI指标, 往往包含了很多维度和元素,最显而易见的则是对每一个维度的元素都进行实时异常检测。 对于维度组合笛卡尔集数量很长的场景, 该方案的成本则有点难以承受
4948 0
以Trace为核心的根因分析概述
近期一直在学习和复现“根因分析”领域的相关文章,在这里跟大家一起分享下相关内容。这里不在赘述关于“可观测性”和“AIOps”的重要性和必要性,也不过多的陈述在“复杂系统”中进行快速根因诊断的必要性,直接进入到相关算法和系统设计部分。
1867 0
以Trace为核心的根因分析概述
简单易懂的 全景图高清下载方法以及原理简要解析(支持下载建E、720yun、酷雷曼、景站、酷家乐、百度街景原图)
这篇文章介绍了一种简单易懂的全景图高清下载方法,使用在线网站全景管家,支持下载包括建E、720yun、酷雷曼等多个平台的全景图原图,并简要解析了全景图的原理和制作方法。
简单易懂的 全景图高清下载方法以及原理简要解析(支持下载建E、720yun、酷雷曼、景站、酷家乐、百度街景原图)
跟着iLogtail学习设计模式
本文将结合 iLogtail 项目,从实践角度探讨一些常见设计模式的技术原理。
841 23
云上智能视频分析:重塑视觉监控与决策的未来
云上智能视频分析平台注重数据安全和隐私保护。通过采用多种技术手段确保视频数据在传输、存储和处理过程中的安全性和隐私性,保护用户隐私和商业秘密不受侵犯。 四、未来发展趋势 4.1 边缘计算与云计算融合 随着物联网设备数量的不断增加和数据量的快速增长,边缘计算将成为云上智能视频分析的重要发展方向。通过将计算能力和数据处理能力下沉到边缘侧,可以减少数据传输延迟和带宽消耗,提高系统的响应速度和稳定性。 4.2 跨领域融合与创新 云上智能视频分析技术将与物联网
360 7
云效流水线 Flow测评
从入门到实践,多方位带你领略云效Flow的优与劣
888 8
数据倾斜问题之数据倾斜的定义如何解决
数据倾斜问题之数据倾斜的定义如何解决
189 0
智能运维的崛起:机器学习在故障预测中的应用
随着信息技术的迅猛发展,企业对IT系统的稳定性和可靠性要求日益提高。传统的运维模式已难以满足现代业务需求,智能运维(AIOps)应运而生。本文将深入探讨机器学习技术如何赋能运维领域,特别是在故障预测方面的应用。文章首先概述了智能运维的概念及其重要性,随后详细分析了机器学习在故障预测中的作用机制,包括数据收集、特征工程、模型选择与训练等关键步骤,并结合实际案例展示了机器学习模型的预测效果。最后,讨论了实施智能运维时面临的挑战及应对策略,旨在为读者提供一套完整的智能运维解决方案框架。
196 0

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等

登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问