五大智能运维场景

简介: 【5月更文挑战第3天】智能运维场景分5类:异常检测、根因诊断、故障自愈、事件预警、效能优化。

传统运维模式和智能运维模式存在很大区别。首先是在智能化水平上,在传统运维的检测、分析、发现(告警)、处置4个步骤中,都未涉及智能技术;而智能运维每个步骤都加入了人工智能算法,将发现和解决问题的时间大大缩短。


其次体现在知识积累、提炼和泛化应用上。当传统运维解决完一个问题,运维流程就结束了,一个问题或一个系列问题用一份报告记录发生时间、起因、处理方案等一系列完整过程后,这些报告将长期保存在企业数据库中,后续基本不会有人再翻开过问了;而智能运维将每个场景发生的问题、原因、处置方案、效果评估等内容进行分类、知识实体抽取、关系建立,形成初步的知识,再应用到问题预测、根因分析、处置策略的智能推荐中,根据每一次算法的优化反复迭代修改知识内容,最终沉淀为企业在该领域独有的运维理论。


按照智能运维的工作模式,将当前各领域通用的智能运维场景分5类:异常检测、根因诊断、故障自愈、事件预警、效能优化。在运维过程中,通常这按时间排序,先有异常检测,再做根因诊断。


1、异常检测

异常检测又称异常发现、异常诊断等,主要指找出设备、系统、网络环境等关键性能指标的历史数据什么时候发生了异常,这类异常既可能是故障也可能不是。在数据分析中,异常是一个相对概念,是相对正常而言的。


运维上的异常,既有通常所说的“相对异常”,也有专家定义的“绝对异常”。主要是通过KPI指标数据的时序变化,找出那些不符合规律的数据。传统运维是专家根据单个指标的数值分布或多个指标的组合分布确定一个阈值,不在阈值范围内的则被认为是异常。这种策略对于稳定的、规律的运行环境非常有效,稍微复杂多变的场景则会失灵。这时就需要机器学习算法学习更长历史时间的数据规律,进行判断和预测。


从复杂程度上来看,企业通常先做单指标的异常诊断、异常波动(指标漂移),再做多指标的异常诊断。多指标异常诊断往往是针对某一事物的异常诊断,该事物由多个KPI指标组成,比如电信运营商的网元、磁盘、网络等,又被称为网元异常诊断、磁盘异常诊断、网络异常诊断等。又因指标数据多是随时间而变化的时序类数据,因此,在实际工作中,这类异常诊断,被描述成对N个事物、M维指标、T时刻的数据进行异常诊断,需要同时对比不同事物之间的差异、不同指标之间的关联性、不同时刻数据的周期性3个角度来判断每个事物是否存在异常。


2、根因诊断

根因诊断,在心理学上称为归因分析,医学上则被称为病因学研究。字面意思是指通过结构化分析,一步步找出问题的根本原因。在运维领域,是基于发现的异常问题,再进一步分析其发生的原因,进而预防下一次再发生类似的异常问题。


这类的智能运维场景主要有定界定段、调用链追踪分析、瓶颈分析。

  • 定界定段是指根据KPI指标的分布特征,判断事件发生问题的特定分布,进而作为发生异常问题的原因,如在物联网质差设备根因分析中,发现T时刻KPI指标发生异常,通过关联的网络性能指标分布发现,某几个指标在T时刻也发生异常,则这几个指标很可能是引起KPI指标异常的原因。
  • 调用链追踪分析是指对调用链信息过滤,或查看应用拓扑、实时聚合链路表和调用链瀑布图,找到与问题相关的关键指标,即作为已发异常的原因;瓶颈分析是通过相关分析、协方差分析、回归分析等方法找出影响某个性能的多个维度指标及取值范围。


当前这种场景的分析思路主要有两种。

  • 一种是通过算法对外部维度的指标进行分析,找出相关性高的指标,再通过运维人员确认这类指标与发生的问题在业务上存在的因果关系,则这些指标被当作原因,如瓶颈分析。
  • 另一种是通过算法在内部维度的指标中,采用不断下钻的方式,找到影响上层指标发生异常的指标作为原因,如调用链分析。例如在分析互联网APP活跃用户数下降时,第一步下钻到新增活跃用户数、已有活跃用户数这两个指标哪个发生下降,如果发现只有已有活跃用户数发生下降,接着第二步再继续下钻分析已有用户数、老用户留存率哪个指标发生下降,这样逐级下钻找到最底层发生下降的指标,从而找到根本原因。


3、故障自愈

故障自愈是一整套严谨的故障自动化处理服务,通过和作业调度平台、配置管理中心、告警单据系统等诸多周边系统自顶向下的全流程打通,实现发现告警、关联配置信息、智能告警收敛分析、自动执行恢复操作、自动流程结单等功能。其中智能自愈机器人辅助人工进行根因分析、收敛分析等;自适应配置、智能调度和智能重启是故障自愈过程中的一种智能化恢复手段。


通常,故障自愈的核心过程有如下3步。

1)自主发现异常/故障,在告警下发时可以主动分析和处理告警信息。

2)收敛分析:针对每时每刻收到的大量告警信息,需要对同类型告警进行收敛分析,不能对每个告警都做处置,可以分为以下几个方面。

  • 单一告警可直接自愈处置。
  • 多个关联告警收敛为同一事件,对关键告警执行自愈处置。
  • 发现异常告警,需人工确认后执行自愈处置。  
  • 特殊极端告警,拒绝自愈处置,并发送运维人员。

3)流程闭环。包含如下几个方面。

  • 自愈成功:触发告警处理单自动结单。
  • 自愈失败/超时:转运维人员人工处理。
  • 未接入自愈的告警:转运维人员人工处理。
  • 后自愈分析:对自愈成功和失败的告警,定期进行总结评估,并辅助运维人员进行跟踪和优化自愈方案。


需要指出的是,故障自愈实现的价值将会越来越大,将其实现离不开专家知识库和智能推荐系统。只有通过算法、知识图谱将历史中无数次的人工故障处置经验和故障自愈作为知识积累下来,才能通过智能推荐算法泛化到更多运维领域,让人工参与程度越来越低,进而实现从KPI指标自动异常检测、自动根因分析到自动推荐处理方法,再到系统自动评估处理效果,实现全流程自动化和智能化的无人运维模式。


4、事件预警

事件预警定义为:基于KPI指标、告警、日志、感知等一系列历史数据,预测未来将要发生某特定事件的行为,包括异常预测(如根据IPTV历史播放的数据,预测第二天哪些设备会发生卡顿)、容量预测(如IT采购部门要对来年服务器进行采购规划,需要预知明年各业务对服务器资源的需求情况,这时则需要通过对各业务的容量变化进行长期预测)等。


无论是容量预测还是异常预测,目的是未来下一步效能优化。根据容量的短、中、长期的预测,分别对不同时期的容量制定有针对性的扩缩容和优化方案,确保系统可以随着时间的推移得到完善和增强,实现可预期的管理风险和期望,即科学容量规划。容量规划过程中,需要协助运维人员考虑如下问题。

  • 历史容量是如何变化的,为什么呈现这样的变化?
  • 未来短期的容量如何变化?
  • 何时达到容量极限,为什么?
  • 未来中长期容量如何变化,如何规划容量?
  • 不同容量规划方案,后果分别怎样?


同理,异常预测又叫故障预测、质差预测、突变预测,是基于大量历史KPI指标数据,预测未来可能发生的异常、故障等问题,实现系统预见性维护。异常预测与异常检测唯一的不同是,异常检测是针对过去已发生的数据进行分析诊断,而异常预测是用过去的数据预测未来可能发生的问题。两者所使用的数据、算法基本一致,在所选用模型训练数据和模型参数上会有细微差别。


5、效能优化

效能优化是基于上述异常检验、根因分析、故障自愈、事件预警每个步骤都做充分且准确的情况下,进一步对资源、系统性能进行优化配置,目的是精准控制企业成本,达到IT成本态势感知、成本科学规划,进而提升成本管理效率。


效能优化包括但不限于智能扩缩容、智能调度、低碳节能、设备优化、CPU使用率优化、数据库优化。其中,智能扩缩容、智能调度、低碳节能属于建立在容量预测下的资源规划和优化配置;设备优化、CPU使用率优化、数据库优化等属于建立在系统和设备异常预测下的性能优化。

  • 智能扩缩容:分为智能扩容(扩充容量)、智能缩容(缩小容量)。相对而言,智能扩容更加重要一些。因为当已有容量超过业务需求量时,即使不做相应的缩容,对系统性能也没有影响,主要是造成成本上的浪费。而扩容如果规划不好,则会与系统性能紧密挂钩。在企业中,扩容和缩容通常是一起进行规划的,因此经常合称为智能扩缩容。
  • 智能调度:泛指任何运维资源的优化配置,甚至包括运维人员的调度。
  • 低碳节能:目前主要指数据中心(Internet Data Center,IDC)机房和电信运营商基站设备,另外也指其他物联网设备,通过人工智能算法达到节省电能的目的。
  • 设备优化:主要指根据设备资源(如物理机和虚拟机)的使用率、使用时间,通过人工智能算法进行优化配置。
  • CPU使用率优化:特指通过人工智能算法针对服务器利用率的性能进行优化。
  • 数据库优化:特指通过人工智能算法针对数据库的性能进行优化。
相关文章
|
2天前
|
机器学习/深度学习 运维 监控
智能监控系统在运维中的应用与优势
传统的运维管理方式在面对日益复杂的IT系统时显得力不从心,智能监控系统的出现为运维工作带来了新的机遇。本文将探讨智能监控系统在运维中的应用与优势,介绍其工作原理以及如何有效地利用智能监控系统提升运维效率和质量。
71 2
|
2天前
|
机器学习/深度学习 人工智能 运维
什么是AIOps智能运维?
AIOps(智能运维)是一种利用人工智能和机器学习技术的软件,用于实时分析和处理业务和运营数据,以提供规范性和预测性答案。它通过收集和汇总大量数据,并使用智能筛选和识别重要事件和模式,帮助团队快速解决问题并避免事件发生。AIOps不依赖于人为指定规则,而是通过机器学习算法自动学习和提炼规则。它可以分析异常告警、故障分析、趋势预测等,并在某些情况下自动解决问题。AIOps的团队包括SRE团队、开发工程师团队和算法工程师团队,他们在AIOps相关工作中扮演不同的角色。
|
2天前
|
运维
电子好书发您分享《应用智能运维实践(试读版)》
电子好书发您分享《应用智能运维实践(试读版)》
69 1
|
2天前
|
机器学习/深度学习 人工智能 运维
《未来智能运维:AI技术的应用与展望》
在当今数字化时代,智能运维正日益成为企业提升效率、降低成本的关键。本文将探讨人工智能技术在运维领域的应用现状与未来发展趋势,展望未来智能运维的发展前景。
209 1
|
2天前
|
机器学习/深度学习 人工智能 运维
智能化运维:AIOps在未来网络管理中的应用与挑战
【5月更文挑战第4天】随着人工智能和大数据技术的飞速发展,智能化运维(AIOps)正逐渐成为IT运维领域的革新力量。本文探讨了AIOps在现代网络管理中的关键作用,分析了其在故障预测、自动化处理、以及提升决策效率方面的潜力。同时,文章还针对AIOps实施过程中面临的技术挑战、数据隐私及安全性问题进行了深入讨论,并提出了相应的解决策略。通过实际案例分析,本文旨在为读者提供一个关于AIOps在网络管理领域应用的全面视角。
|
2天前
|
运维 Cloud Native 安全
【专栏】随着信息技术发展,运维正向自动化、智能化转型,云原生运维成为主流,大数据驱动运维决策,而安全运维日益重要
【4月更文挑战第29天】随着信息技术发展,运维正向自动化、智能化转型,云原生运维成为主流,大数据驱动运维决策,而安全运维日益重要。面对技术更新快、人才短缺和复杂性增加的挑战,企业需建立培训体系,加强人才培养,优化运维管理,以适应未来运维需求。随着这些趋势,运维领域将迎来更广阔的发展前景。
|
2天前
|
机器学习/深度学习 运维 监控
智能化运维:利用机器学习优化IT基础设施管理
【4月更文挑战第6天】 在信息技术日益发展的今天,企业对IT基础设施的依赖性愈发增强。有效的运维管理成为确保系统稳定性与业务连续性的关键。随着人工智能技术的不断进步,特别是机器学习的应用,运维领域正在经历一场革命。本文将探讨机器学习如何与传统的IT运维流程相结合,以及它如何提高故障预测的准确性、优化资源分配、自动化常规任务和增强安全性。通过分析具体案例,我们将了解智能化运维在提升效率、降低成本以及增强用户体验方面的潜力。
|
2天前
|
机器学习/深度学习 传感器 运维
提升数据中心效能:智能运维策略与实践
【4月更文挑战第6天】在数字化时代,数据中心作为企业信息架构的核心,其稳定性和效率直接影响到业务连续性和客户满意度。随着技术的进步,传统的数据中心运维模式已经不能满足现代高效、智能化的需求。本文将探讨如何通过智能运维(AIOps)策略,结合大数据分析和机器学习技术,实现数据中心的自动化管理、故障预测及快速响应,以提升整体效能并降低运营成本。
|
2天前
|
机器学习/深度学习 存储 人工智能
未来智能运维的发展趋势与挑战
随着信息技术的迅猛发展,智能运维作为关键的技术领域正日益受到重视。本文探讨了未来智能运维的发展趋势和所面临的挑战,从人工智能、自动化运维、数据分析等方面展望了未来智能运维的发展方向,同时也指出了在实践中需要克服的困难和挑战。
133 1
|
2天前
|
机器学习/深度学习 人工智能 运维
未来智能运维:人工智能在云计算运维中的应用
随着云计算技术的不断发展,传统的运维方式已经无法满足日益复杂的系统需求。本文探讨了人工智能在云计算运维中的应用,介绍了未来智能运维的发展趋势和挑战。
35 3