AIOps,你或許想了解的

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 自 Gartner 在 2016 年创造 AIOps 一词以来,人工智能已成为先进技术世界的流行语。AIOps 的目标便是自动化复杂的 IT 系统解决方案,同时简化其运营。


作者 | Mahipal Nehra

译者 | Luga Lee      

策划 | Luga Lee

    自 Gartner 在 2016 年创造 AIOps 一词以来,人工智能已成为先进技术世界的流行语。AIOps 的目标便是自动化复杂的 IT 系统解决方案,同时简化其运营。

    简而言之,AIOps 是一种变革性方法,它使用机器学习和人工智能技术来运行事件相关性、监控、服务管理、可观察性和自动化等操作。

    使用 AIOps,您可以收集和聚合从可观察性和监控系统、不同应用程序或基础设施生成的不断增加的数据,过滤噪音以识别系统性能和可用性问题的事件和模式,并确定根本原因,并经常自动解决这些问题或向 IT 团队发送警报。

    如果您没有使用 AIOps 来完成该过程,那么将很难与快速的技术创新一起运行。此外,如果您依赖传统知识和旧系统,您的 IT 运营更有可能变得不可预测和不可扩展。

    正如 Gartner 预测的那样,到 2023 年,40% 的 DevOps 团队可能会在他们的应用程序和基础设施监控工具中实施 AIOps,以提高平台性能和功能。



AIOps 架构


    AIOps 架构提供了有助于企业监控、服务管理和自动化无缝集成的方法和技术,以提供完整的 AIOps 解决方案。

AIOps 架构使跨操作监控的洞察力成为可以实现

    如上图所示,在 IT 运营方面,AIOps 有三个关键领域,即监控(观測)、参与和行动。

    与传统的事件管理和监控工具不同,在可观察性方面,基于机器学习的功能用于确保在满足组织的监控需求时没有留下任何差距或盲点,无论其架构如何設計。

    在可观察性阶段,发生的主要过程包括数据摄取、数据集成、事件抑制、事件重复数据删除、基于规则的相关性、机器学习相关性(包括异常检测、事件相关性、根本原因分析和预测分析)、可视化、协作和反馈。

    AIOps 架构的 Engage 部分与 IT 服务管理(ITSM)及其功能有关,这些功能通过不同的指标和功能处理流程及其执行。由于 Engage 部分处理服务管理数据,它充当 ITSM 中发生的所有活动或操作的存储库,包括问题管理、配置管理、事件管理、更改管理、容量管理、可用性和服务级别协议。

    在可观察性事件中,指标、跟踪和日志充当核心数据;在 Engage 中,核心数据仍然围绕着不同进程中操作的执行,其中数据是按需和实时分析的混合。

    参与的主要阶段包括事件创建、任务分配、任务分析、代理分析、更改分析、流程分析、可视化、协作和反馈。

    最后,在法案阶段,实际执行技术任务。该法案是执行所有技术任务的最后阶段,如更改执行、事件解决、服务请求履行等。正是在这里,发现的所有事件都得到了解决,系统恢复了正常状态。

   


AIOps 如何工作?


    通过查看支持其流程的技术组件——机器学习、大数据和自动化,您可以简单地了解 AIOps 的工作原理。AIOps 在独立部署时效果最佳,并提供一个集中的系统来协作从多个监控源收集和分析数据。

    注意:数据可以包括流媒体实时事件、网络数据、历史性能事件、系统日志和指标、事件相关或票务等。

    收集数据后,AIOps 实现了机器学习和分析功能,以:

  • 从大量数据中识别和分离重大异常事件警报。
  • 检测异常事件的根本原因,并提出解决方案。
  • 与拟议解决方案一起自动向运营分析师发出警报。
  • 根据问题的性质为异常事件创建补救措施,并实时解决问题。

    最后,基于分析结果,AIOps 的机器学习有助于调整算法,甚至创建新的算法来确定早期阶段的问题,并提出具有高度影响力的解决方案。简而言之,鉴于之前的结果,AIOps 模型继续改进。



AIOps 核心要素


    现在,您必须知道,AIOps 背后的核心元素是大数据和机器学习。为了理解这两个术语,我们将在这里更好地研究它们。

    1、大数据

   由于 AIOps 从众多资源中摄取数据,因此在大数据技术上构建 AIOps 平台至关重要。大数据是指无法使用传统数据处理软件处理的复杂而大型数据集。它包含的数据种类更丰富,体积越来越大,速度也被称为大数据的三个 V。

    随着 AIOps 将来自不同来源的大型、复杂、变体数据集集成到数据仓库中,如果人们不使用大数据平台,处理这么多数据量的速度可能会变得无法管理。

    2、机器学习

   AIOps 的第二个但最重要的部分是机器学习,这是人工智能的一个关键方面。机器学习的核心是研究人类行为,使用算法和数据复制它们。当 ML 在获得信息以解决问题后实现时,它可以提供比人类本身更好的结果准确性。

    同样,ML 帮助 AIOps 平台利用其能力分析数据并检测模式和异常,同时监控事件和实体。然后,分析的数据用于提供见解并到达根本原因警报。



AIOps 收益及挑戰


   

AIOps 的主要好处如下:


  • 更高的系统可用性:随着 AIOps 确保现代混合基础设施的最大应用程序可用性,它已成为潜在的游戏规则改变者。
  • 在此期间,更好的 SLA 合规性进行修复:与IT服务管理功能集成,AIOps 可以在事件中找到模式,识别有用的见解,并允许自动化解决方案。所有这些都减少了维修的平均时间,同时超过了 SLA 合规性。
  • 最小人为错误:由于 AIOps 自动化 IT 团队处理的操作的大部分平凡和迭代任务,它同时减少了人为错误。
  • 更好的自动化事件检测:AIOps 节省了大量时间,因为它通过事件分析来验证事件,从而减少了伪事件造成的噪音。
  • 预测和愤怒预防:AIOps 使用基本的 KPI 来衡量运营绩效,创建智能建议来帮助IT运营完成其目标。
  • 成本优化:成熟的 AIOps 系统可以通过将任务从人类卸载到算法来影响性地降低运营成本,从而导致人力资源将时间花在其他重要任务上。
  • 更好的环境可见性:使用 AIOps,企业可以识别机会,做出战略决策,并识别 IT运营中的低效率。

   

AIOps 带来的一些挑战是:


  • 困难的组织变革管理。
  • 预期不匹配。
  • 僵化的过程。
  • 数据可用性和监控方面的困难。
  • 缺乏域输入。
  • 预测分析不准确。
  • 由于数据漂移,历史数据的最低准确性。
  • 难以理解机器学习。


AIOps 用例場景


    如我们所知,AIOps 旨在收集和分析 IT 运营数据。AIOps 的一些常見的用例場景如下所示:

  • 异常检测

   AIOps 不断分析和比较数据与有助于检测潜在问题的历史事件。

  • 事件相关性

   您可以使用 AIOps 进行事件事件相关性,因为它可以快速处理和分析事件数据,同时在问题失控之前为问题提供解决方案。

  • 预测分析

  除了早期错误检测外,具有数据收集和分析功能的 AIOps 可以帮助机器学习算法了解当前和历史数据趋势,同时为未来结果提供可操作的见解。

  • 数字化转换

  随着 AIOps 从 ITOps 中删除新技术的复杂性,为不受限制的转型创造了一个新的空间。它帮助组织利用灵活性进行新的进展,以应对其战略目标。

  • 根本原因分析

  人们还可以使用 AIOps 通过关联许多数据点、跟踪事件模式等来分析根本原因。AIOps 的根本原因分析有助于企业及其用户更有效地识别和解决问题,从而改善客户体验。

  • 云采用/迁移

  AIOps 清楚地了解了云的采用和迁移的转变相互依存性,从而最大限度地降低了与此类转移相关的风险。


AIOps的未来


    鉴于技术的进步,大多数组织正在从传统基础设施转向在虚拟化环境中运行的动态基础设施,这些基础设施可以根据需要重新配置和扩展。

    但是,正如我们所知,这些系统往往会无休止地生成大量数据。甚至 Gartner 也表示,IT 基础设施更有可能每年创建两到三倍的运营数据。

   毫無疑問,传统解决方案无法跟上此类数据量,无法对周围环境中的事件进行排序,也无法关联相關数据,以提供有关IT运营的实时分析和见解,满足客户需求。

    然而,由于 AIOps 在分析数据、提取异常事件或自动向 IT 团队发送警报的同时,提供了整个基础设施的依赖项和性能的可见性,它已成为现代组织的最佳解决方案。

    綜上所述,AIOps 基於现代机器学习和大数据以及其他先进分析技术的平台,通过找到问题的根源并提供推荐的解决方案,以动态、主动和个性化的解決思路来改善IT 运营。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
打赏
0
0
0
0
12
分享
相关文章
ffmpeg中--enable-gpl什么意思
ffmpeg中--enable-gpl什么意思
707 0
ffmpeg中--enable-gpl什么意思
【DIY无人机】电调固件升级
如何升级固件,提升电调性能?
1131 1
【DIY无人机】电调固件升级
智能化运维:AI在IT运维中的应用探索###
随着信息技术的飞速发展,传统的IT运维模式正面临着前所未有的挑战。本文旨在探讨人工智能(AI)技术如何赋能IT运维,通过智能化手段提升运维效率、降低故障率,并为企业带来更加稳定高效的服务体验。我们将从AI运维的概念入手,深入分析其在故障预测、异常检测、自动化处理等方面的应用实践,以及面临的挑战与未来发展趋势。 ###
智能化运维:未来IT管理的革命之路
在数字化浪潮的推动下,企业对IT系统的稳定性和效率要求日益增高。传统的运维模式已难以满足现代业务的需求,智能化运维应运而生。本文将探讨智能化运维的概念、优势以及实施策略,旨在为企业提供一条提升IT管理效能的清晰路径。
152 4
Java一分钟之-NIO:非阻塞IO操作
【5月更文挑战第14天】Java的NIO(New IO)解决了传统BIO在高并发下的低效问题,通过非阻塞方式提高性能。NIO涉及复杂的选择器和缓冲区管理,易出现线程、内存和中断处理的误区。要避免这些问题,可以使用如Netty的NIO库,谨慎设计并发策略,并建立标准异常处理。示例展示了简单NIO服务器,接收连接并发送欢迎消息。理解NIO工作原理和最佳实践,有助于构建高效网络应用。
265 2
AI发展已经一段时间了,当前社会身边哪些功能已经在运用了AI技术?未来AI技术还将有哪些地方会运用?
AI技术现已被广泛应用在智能家居(如自动化控制与安全)、个性化教育(定制化学习与辅助教学)、精准医疗(疾病诊断与药物研发)、智能服务(如智能客服)和金融服务(风险评估)等领域。未来,预计AI将在AI PC、人机协创、超级视野、机器人和零搜索等领域发挥更大作用,实现信息主动推送、无缝沟通和创新服务。随着技术进步,AI将持续影响并改变我们的生活。【6月更文挑战第2天】
666 0
LINUX下用CTRL+R快速搜索HISTORY历史命令,快速索引到之前使用过的命令行语句
LINUX下用CTRL+R快速搜索HISTORY历史命令,快速索引到之前使用过的命令行语句
机器学习实战(一):Document clustering 文档聚类
文档聚类是指根据文档的文本和语义背景将其归入不同的组别。它是一种无监督的技术,因为我们没有文件的标签,它在信息检索和搜索引擎中得到了应用。
376 0
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等

登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问