作者 | Mahipal Nehra
译者 | Luga Lee
策划 | Luga Lee
自 Gartner 在 2016 年创造 AIOps 一词以来,人工智能已成为先进技术世界的流行语。AIOps 的目标便是自动化复杂的 IT 系统解决方案,同时简化其运营。
简而言之,AIOps 是一种变革性方法,它使用机器学习和人工智能技术来运行事件相关性、监控、服务管理、可观察性和自动化等操作。
使用 AIOps,您可以收集和聚合从可观察性和监控系统、不同应用程序或基础设施生成的不断增加的数据,过滤噪音以识别系统性能和可用性问题的事件和模式,并确定根本原因,并经常自动解决这些问题或向 IT 团队发送警报。
如果您没有使用 AIOps 来完成该过程,那么将很难与快速的技术创新一起运行。此外,如果您依赖传统知识和旧系统,您的 IT 运营更有可能变得不可预测和不可扩展。
正如 Gartner 预测的那样,到 2023 年,40% 的 DevOps 团队可能会在他们的应用程序和基础设施监控工具中实施 AIOps,以提高平台性能和功能。
AIOps 架构
AIOps 架构提供了有助于企业监控、服务管理和自动化无缝集成的方法和技术,以提供完整的 AIOps 解决方案。
AIOps 架构使跨操作监控的洞察力成为可以实现
如上图所示,在 IT 运营方面,AIOps 有三个关键领域,即监控(观測)、参与和行动。
与传统的事件管理和监控工具不同,在可观察性方面,基于机器学习的功能用于确保在满足组织的监控需求时没有留下任何差距或盲点,无论其架构如何設計。
在可观察性阶段,发生的主要过程包括数据摄取、数据集成、事件抑制、事件重复数据删除、基于规则的相关性、机器学习相关性(包括异常检测、事件相关性、根本原因分析和预测分析)、可视化、协作和反馈。
AIOps 架构的 Engage 部分与 IT 服务管理(ITSM)及其功能有关,这些功能通过不同的指标和功能处理流程及其执行。由于 Engage 部分处理服务管理数据,它充当 ITSM 中发生的所有活动或操作的存储库,包括问题管理、配置管理、事件管理、更改管理、容量管理、可用性和服务级别协议。
在可观察性事件中,指标、跟踪和日志充当核心数据;在 Engage 中,核心数据仍然围绕着不同进程中操作的执行,其中数据是按需和实时分析的混合。
参与的主要阶段包括事件创建、任务分配、任务分析、代理分析、更改分析、流程分析、可视化、协作和反馈。
最后,在法案阶段,实际执行技术任务。该法案是执行所有技术任务的最后阶段,如更改执行、事件解决、服务请求履行等。正是在这里,发现的所有事件都得到了解决,系统恢复了正常状态。
AIOps 如何工作?
通过查看支持其流程的技术组件——机器学习、大数据和自动化,您可以简单地了解 AIOps 的工作原理。AIOps 在独立部署时效果最佳,并提供一个集中的系统来协作从多个监控源收集和分析数据。
注意:数据可以包括流媒体实时事件、网络数据、历史性能事件、系统日志和指标、事件相关或票务等。
收集数据后,AIOps 实现了机器学习和分析功能,以:
- 从大量数据中识别和分离重大异常事件警报。
- 检测异常事件的根本原因,并提出解决方案。
- 与拟议解决方案一起自动向运营分析师发出警报。
- 根据问题的性质为异常事件创建补救措施,并实时解决问题。
最后,基于分析结果,AIOps 的机器学习有助于调整算法,甚至创建新的算法来确定早期阶段的问题,并提出具有高度影响力的解决方案。简而言之,鉴于之前的结果,AIOps 模型继续改进。
AIOps 核心要素
现在,您必须知道,AIOps 背后的核心元素是大数据和机器学习。为了理解这两个术语,我们将在这里更好地研究它们。
1、大数据
由于 AIOps 从众多资源中摄取数据,因此在大数据技术上构建 AIOps 平台至关重要。大数据是指无法使用传统数据处理软件处理的复杂而大型数据集。它包含的数据种类更丰富,体积越来越大,速度也被称为大数据的三个 V。
随着 AIOps 将来自不同来源的大型、复杂、变体数据集集成到数据仓库中,如果人们不使用大数据平台,处理这么多数据量的速度可能会变得无法管理。
2、机器学习
AIOps 的第二个但最重要的部分是机器学习,这是人工智能的一个关键方面。机器学习的核心是研究人类行为,使用算法和数据复制它们。当 ML 在获得信息以解决问题后实现时,它可以提供比人类本身更好的结果准确性。
同样,ML 帮助 AIOps 平台利用其能力分析数据并检测模式和异常,同时监控事件和实体。然后,分析的数据用于提供见解并到达根本原因警报。
AIOps 收益及挑戰
AIOps 的主要好处如下:
- 更高的系统可用性:随着 AIOps 确保现代混合基础设施的最大应用程序可用性,它已成为潜在的游戏规则改变者。
- 在此期间,更好的 SLA 合规性进行修复:与IT服务管理功能集成,AIOps 可以在事件中找到模式,识别有用的见解,并允许自动化解决方案。所有这些都减少了维修的平均时间,同时超过了 SLA 合规性。
- 最小人为错误:由于 AIOps 自动化 IT 团队处理的操作的大部分平凡和迭代任务,它同时减少了人为错误。
- 更好的自动化事件检测:AIOps 节省了大量时间,因为它通过事件分析来验证事件,从而减少了伪事件造成的噪音。
- 预测和愤怒预防:AIOps 使用基本的 KPI 来衡量运营绩效,创建智能建议来帮助IT运营完成其目标。
- 成本优化:成熟的 AIOps 系统可以通过将任务从人类卸载到算法来影响性地降低运营成本,从而导致人力资源将时间花在其他重要任务上。
- 更好的环境可见性:使用 AIOps,企业可以识别机会,做出战略决策,并识别 IT运营中的低效率。
AIOps 带来的一些挑战是:
- 困难的组织变革管理。
- 预期不匹配。
- 僵化的过程。
- 数据可用性和监控方面的困难。
- 缺乏域输入。
- 预测分析不准确。
- 由于数据漂移,历史数据的最低准确性。
- 难以理解机器学习。
AIOps 用例場景
如我们所知,AIOps 旨在收集和分析 IT 运营数据。AIOps 的一些常見的用例場景如下所示:
- 异常检测
AIOps 不断分析和比较数据与有助于检测潜在问题的历史事件。
- 事件相关性
您可以使用 AIOps 进行事件事件相关性,因为它可以快速处理和分析事件数据,同时在问题失控之前为问题提供解决方案。
- 预测分析
除了早期错误检测外,具有数据收集和分析功能的 AIOps 可以帮助机器学习算法了解当前和历史数据趋势,同时为未来结果提供可操作的见解。
- 数字化转换
随着 AIOps 从 ITOps 中删除新技术的复杂性,为不受限制的转型创造了一个新的空间。它帮助组织利用灵活性进行新的进展,以应对其战略目标。
- 根本原因分析
人们还可以使用 AIOps 通过关联许多数据点、跟踪事件模式等来分析根本原因。AIOps 的根本原因分析有助于企业及其用户更有效地识别和解决问题,从而改善客户体验。
- 云采用/迁移
AIOps 清楚地了解了云的采用和迁移的转变相互依存性,从而最大限度地降低了与此类转移相关的风险。
AIOps的未来
鉴于技术的进步,大多数组织正在从传统基础设施转向在虚拟化环境中运行的动态基础设施,这些基础设施可以根据需要重新配置和扩展。
但是,正如我们所知,这些系统往往会无休止地生成大量数据。甚至 Gartner 也表示,IT 基础设施更有可能每年创建两到三倍的运营数据。
毫無疑問,传统解决方案无法跟上此类数据量,无法对周围环境中的事件进行排序,也无法关联相關数据,以提供有关IT运营的实时分析和见解,满足客户需求。
然而,由于 AIOps 在分析数据、提取异常事件或自动向 IT 团队发送警报的同时,提供了整个基础设施的依赖项和性能的可见性,它已成为现代组织的最佳解决方案。
綜上所述,AIOps 基於现代机器学习和大数据以及其他先进分析技术的平台,通过找到问题的根源并提供推荐的解决方案,以动态、主动和个性化的解決思路来改善IT 运营。