强化企业 IT 运维的五大 AIOps 策略

简介: 在现代化的企业中工作,我们希望 AIOps(中文资料中也称为“智能运维”——译者注)能强化 IT 运维,使企业在提高性能的同时降低成本、预防 IT 事故并提高业务的敏捷性。但在市场上存在着多种差异化的 AIOps 产品,我们如何能确保所选路线的正确性?一旦决定采用 AIOps,应如何最大化地发挥其作用?

在现代化的企业中工作,我们希望 AIOps(中文资料中也称为“智能运维”——译者注)能强化 IT 运维,使企业在提高性能的同时降低成本、预防 IT 事故并提高业务的敏捷性。但在市场上存在着多种差异化的 AIOps 产品,我们如何能确保所选路线的正确性?一旦决定采用 AIOps,应如何最大化地发挥其作用?

正如题目所示,本文将给出五种策略,可确保企业能够针对自身业务制定正确的 AIOps 规划。我们先用一定的篇幅给出“AIOps”这一术语的确切定义。

“AIOps”是 Gartner 于 2016 年创立的术语,指结合大数据、人工智能和机器学习实现 IT 运维流程的自动化和提升。当时,这个非常宽泛的定义在一定程度上引发了理解上的混淆,各 IT 供应商基于自身实际提供的产品,对 AIOps 给出了各自的阐释。

时至今日,业界领先供应商的产品已确定 AIOps 的落地现状,这些产品响应了各家客户正面对的挑战。AIOps 当前已更深入人心,定义也更明确,应用和趋势也更实际。

AIOps 平台涵盖了基础设施和运维 (I&O)、DevOps、SRE、服务管理等领域,大范围地强化了 IT 实践和功能。其中,I&O 是最能体现 AIOps 优点的领域,涉及异常检测、故障诊断、事件关联和根本致因分析 (RCA,root cause analysis) 等,切实全面地改进了监控、服务管理和自动化任务。

掌上运维.jpg


在阐释了 AIOps 定义后,下面言归正传,列出前面提及的五种策略。

脚踏实地,不要好高骛远
提出一个宏伟的愿景,通常情况下是件好事。一旦树立了一个远大的目标,即便没能达成,也会走得更远。但在实施 AIOps 解决方案时,如果行事目标过于笼统,可能会导致项目延期数月甚至数年。

公司的高管可能会自上而下地颁布命令,在整个组织中推进和实施人工智能和机器学习,但并没有明确定义需解决哪些具体需求。事实上,在细化落实 AIOps 能力的构建中,好的做法是确定可逐步实现的各个短期目标,而不是只给出一个长线的愿景目标。

例如,在“报警-工单”流程引入 AIOps 平台时,落地过程中最好采用渐进的方式。即在保持现有的“报警-工单”工作流基础设施运作的同时,逐步实施各个新的 AIOps 功能。基于此,我们可以先将部分监控报警输入到 AIOps 事件关联平台,并将输出返回给工单处理系统。这样提供了一个能在实际投入生产之前对结果进行对比的基线。一旦用户感到满意,我们可将更多的工具逐步地添加到 AIOps 平台中,直到实现监控层和可观察层的完全集成。此后,我们才能着手去考虑如何额外添加新的 AIOps 功能,例如根本致因变更、修复的自动化等。

逐步推进的方法不仅保证了在完全依赖 AIOps 平台前确证其切实可用,而且可以让团队有机会在此过程中同步积累所需的各项技能,不必一步到位去掌握全部。一步到位可能会操之过急,甚至适得其反。

选择领域为中心,还是选择领域无关?
在 Gartner 最新的 AIOps 市场指南中(“Gartner Market Guide for AIOps”,2021 年 4 月 6 日,作者 Pankaj Prasad,Padraig Byrne 和 Josh Chessman),给出了两类 AIOps 解决方案,即“领域为中心”和“领域无关”。领域为中心的 AIOps 功能,是基于网络、应用、基础设施或云监控等特定领域(实践)的数据。相比之下,优秀的领域无关 AIOps 解决方案能跨多个领域工作,组合并管理抽取自多来源和多供应商 IT 技术的数据,以及体现环境变更情况的数据,从中获得洞察力。

在近期的一次 AIOps 视频会议中提出,好的策略是将领域为中心的 AIOps 功能内置于监控工具中,服务于一次性的特定用例;同时持续规划部署能兼顾多种用例的、领域无关的独立解决方案。例如,对于光学设施中的信号质量监控,使用领域为中心的 AIOps 工具可了解连接的丢失情况。但负责维护运行在光学设施上的高质量视频通话时,则应选择领域无关的 AIOps 工具。因为服务水平(SLA)的下降存在多种可能致因,涉及构成服务的多个领域和多种技术,了解根本致因需要关联所有可能。

需注意的是,Gartner 同时也指出:“随着组织在 AIOps 采用上逐渐成熟,他们需要的是一个能跨 I&O、DevOps、SRE 甚至在某些情况下包括安全实践的统一的、领域无关的平台”。

借力数据富集(Enrichment),驱动智能运维
数据富集(Enrichment)是实现事件关联全过程的幕后英雄。第一手的报警数据只是出发点,并不足以确定问题的根本致因,进而可着手执行有效修复。收到来自多个领域的报警,是很难将它们相互关联,形成一组精细粒度的工单的。如果使用时间戳或故障原点(point of origin)的话,它们提供的洞察信息非常有限,并且无法关联其它来源或时间窗的相关报警。

易于部署的数据富集告警,实现了对单个报警的增值,为确定报警的相互关联和关联方式提供了额外的理解层级,让用户专注于高层级的关联事件,避免纠结于每个进入 AIOps 平台的低层报警。好的数据富集过程会减低“数据噪音”,有助于向用户的 CMDB、APM 和编排工具中增添拓扑信息,在变更管理和 CI/CD 流水线中增添变更信息,以及将业务场景引入团队的知识和过程。

选择提供内置的、可扩展的数据富集功能的 AIOps 工具,将推动运维全过程的智能化。

过程自动化
自动化具有许多优点,包括一致性、节省时间和最大限度地减少错误。一旦工单系统实现 AIOps 自动化,平均确认时间 (MTTA,Mean Time to Acknowledge) 可降低到毫秒级!

将运行手册(Runbook)纳入工单系统,意味着一旦出现特定的报警,就会触发特定的工作流。运行手册会自动执行所有不需要做额外考虑的技术步骤,例如检查网络资源状态、获取服务器或系统的信息等。将这些步骤全部置入工单,尽可能在无需人工参与的情况下完成识别和实施的必要修复。

过程自动化不仅减低了 IT 运维团队的工作负担,加快了事故和宕机的解决速度,而且能解放运维团队,去聚焦于高价值、有挑战性的工作,在驱动业务创新的同时改进生产率。

驱动持续洞察
实施 AIOps 解决方案的最大价值,并不仅仅是为分析和改进性能问题提供专属方案。AIOps 支持用户去分析各个阶段,从事件检测到开展调查和 RCA,了解各阶段所需的时间,形成补救措施和解决方案,在过程中持续推动流程的改进。

设置 KPI 可实现进度跟踪,确定导致延迟和性能问题的致因,进而给出满足过程效率改进需求中应关注的方面,确定可提供价值最大化的下一步过程,进一步提高团队的生产力。例如,识别并跟踪受 IT 故障影响最大的应用或业务的持续变化情况,可提供对运维热点的鸟瞰视图。进一步跟踪最频繁检查、最频繁报警类别及其 MTBF(平均故障间隔时间),有助于定位确切的问题位置。跟踪和测量一定时间内的事件是否属于 L1、L2、L3 或是企业特定的运维层级,可以确定并改进运维整体的效率。持续跟踪 MTTA(平均确认时间)、MTTD(平均检测时间)和 MTTR(平均解决时间)等 KPI,有助于分析和改进事件管理生命周期中的各个阶段。

谨记,无论采用何种策略,IT 运维团队都是企业运维过程中的关键合作者。与团队保持密切的沟通,确保 AIOps 解决方案能降低团队的工作量,而不是带来更多的工作内容。企业可能已经发现了需更新或调整的关联模式,团队也可能已经从进一步的数据富集中受益。无论如何,企业用户都需要与运维团队共进退,找出并解决痛点,确定运行良好之处。确保团队意识到自身的作用,最大化地发挥团队的作用。

AIOps 正迅速发展,如何确保选择正确的路线,如何确保能从市场众多可用的 AIOps 平台中做出一个明智的选择,这是非常具有挑战性的抉择。确定 AIOps 对企业未来发展的意义,采用上述五种策略,实施 AIOps 平台就能带来非常卓越的收益和效率,帮助企业真正地改进运维。

相关文章
|
2天前
|
运维 监控
自动化运维:提升效率与降低风险的现代策略
【6月更文挑战第24天】在信息技术飞速发展的今天,自动化运维已经成为企业追求高效、稳定IT服务的关键。本文深入探讨了自动化运维的概念、实施步骤及其带来的显著优势,同时指出了在自动化过程中可能遭遇的挑战和相应的解决策略。文章旨在为读者提供一套清晰的自动化运维实施指南,帮助IT团队优化工作流程,提高服务质量和工作效率。
|
3天前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI在IT基础设施管理中的应用
【6月更文挑战第24天】本文将深入探讨人工智能(AI)如何革新传统IT运维模式,提升效率与响应速度。通过分析AI技术在故障预测、自动化处理和安全防护等方面的应用实例,揭示其对现代IT基础设施管理的深远影响。文章旨在为读者提供一个关于AI赋能运维领域的全面视角,同时指出实施过程中可能遇到的挑战与对策。
22 5
|
6天前
|
人工智能 运维 监控
智能化运维:AI在IT运维中的应用与挑战
【6月更文挑战第21天】本文将深入探讨AI技术如何革新传统的IT运维领域,通过案例分析展示AI在故障预测、自动化处理和安全监控等方面的应用。同时,文章也将讨论AI运维带来的挑战,包括数据隐私、系统复杂性和成本问题,并提出相应的解决策略。
185 6
|
5天前
|
机器学习/深度学习 人工智能 运维
智能化运维的崛起:AI在IT管理中的应用与挑战
【6月更文挑战第21天】随着人工智能(AI)技术的飞速发展,其在信息技术(IT)运维领域的应用已成为推动效率和创新的关键动力。本文将深入探讨AI如何重塑IT运维的面貌,包括自动化故障检测、预测性维护、以及智能决策支持等方面。同时,我们也将分析在实施智能化运维时所面临的技术挑战和道德考量,并提出相应的解决策略。
309 4
|
2天前
|
机器学习/深度学习 运维 监控
智能化运维的崛起:机器学习在IT运维中的应用与挑战
本文将深入探讨如何通过机器学习技术提升IT运维的效率和准确性,分析其在故障预测、自动化处理及安全监控方面的应用实例,并讨论实施过程中可能遇到的技术与管理挑战。
8 0
|
3天前
|
机器学习/深度学习 运维 安全
自动化运维在现代IT架构中的应用与挑战
【6月更文挑战第23天】随着云计算和微服务架构的兴起,自动化运维成为保障系统稳定性、提升效率的关键。本文探讨了自动化运维在现代IT环境中的实践方法、面临的挑战以及未来的发展趋势,旨在为运维人员提供策略指导和技术参考。
9 0
|
1月前
|
运维 Linux 程序员
最全树莓派4B安装64位Linux(不用显示器键盘鼠标),Linux运维面试送分题
最全树莓派4B安装64位Linux(不用显示器键盘鼠标),Linux运维面试送分题
最全树莓派4B安装64位Linux(不用显示器键盘鼠标),Linux运维面试送分题
|
24天前
|
运维 Linux Shell
运维:Linux服务器崩了怎么办,快来看看这份”急救命令指南“吧!
当服务器出现问题,如崩溃、内存耗尽或CPU使用率过高时,运维工程师需要保持冷静,并通过一系列Shell命令来诊断和解决。首先,检查是否有异常SSH登录活动,查看`/etc/passwd`和`.bash_history`文件,以及用户最近的登录信息。接着,监控网络连接和端口,使用`netstat`和`lsof`命令找出资源占用高的进程,并查看进程启动时间和详细信息。同时,排查可能的恶意文件,检查定时任务和服务配置以确保没有异常启动项。最后,分析系统日志,如`/var/log`目录下的各种日志文件,找出潜在问题。通过这些步骤,可以有效定位和解决服务器故障。
|
1月前
|
消息中间件 运维 Linux
运维最全Linux 命令大全之scp命令_linux scp 指令(1),2024年最新从消息中间件看分布式系统的多种套路
运维最全Linux 命令大全之scp命令_linux scp 指令(1),2024年最新从消息中间件看分布式系统的多种套路
|
1月前
|
运维 Linux Docker
ChatGLM3在Docker环境部署,Linux运维免打包多渠道统计如何实现
ChatGLM3在Docker环境部署,Linux运维免打包多渠道统计如何实现