如何通过AIOps将智能注入IT运营

简介: 试图更好地监控IT资产的组织正在转向人工智能,以便在性能问题出现之前解决掉,并在感受到负面影响之前自动将其修复。云平台、托管服务提供商和进行数字化转型的组织正开始从一种新兴的IT趋势中获益:使用人工智能驱动的IT运营技术来自动监控和管理其IT产品组合。

试图更好地监控IT资产的组织正在转向人工智能,以便在性能问题出现之前解决掉,并在感受到负面影响之前自动将其修复。


云平台、托管服务提供商和进行数字化转型的组织正开始从一种新兴的IT趋势中获益:使用人工智能驱动的IT运营技术来自动监控和管理其IT产品组合。


这种新出现的实践称为AIOps,它能够帮助企业在潜在的停机和性能问题对运营、客户和利润产生负面影响之前加以防范。但更先进的部署已经开始使用人工智能系统了,不仅能识别问题,或在问题发生之前预测问题,还能够以智能、自动化的缓解措施对事件做出反应。


但是AIOps到底是什么,现在的组织又是如何使用它的呢?在这里,我们将深入了解人工智能辅助IT运营的技术、策略和挑战。



什么是AIOps?


AIOps是一种新兴的IT实践,它能够将人工智能应用于IT运营,帮助组织智能地管理基础设施、网络和应用程序,以获得相应的性能、弹性、容量、正常运行时间,在某些情况下,还包括安全性。通过将传统的、基于阈值的警报和手动流程转型为利用人工智能和机器学习的系统,AIOps使组织能够更好地监控IT资产,并在负面事件和影响发生之前进行预测。


Carhartt的CIO John Hill在三个主要的领域利用了这家工作服装零售商的AIOps:包括服务管理、绩效管理和IT自动化。多亏了智能监控,Carthartt现在可以在问题影响用户或客户之前发现问题了。


“这是一个自动进行监测的环境,帮助你了解发生了什么,然后可以根据这些指标采取行动,”他说。“以前,你会依赖于停机或某些东西不工作的指示”来了解何时需要进行修复--但是在你知道这些事件之前,它们可能已经降低了客户体验。



AIOps的用例


AIOps可能已经在你的IT投资组合中工作了,而你甚至都不知道它。先进的CRM或ERP系统通常就已经内置了智能管理。大多数主要的云平台也使用了机器学习--即监视和管理工具。


但是依赖于单点解决方案中的内置功能依然有其缺点。在一项AIOps的交流调查中,65%的IT组织表示,他们仍然依赖于监控的方法(无论是否智能),这些方法要么是孤立的、基于规则的,要么就是无法满足整个IT环境的需求。此外,根据最近BigPanda的调查,42%的IT组织对其IT环境使用了超过10种不同的监视工具。


Carhartt就是这样开始AIOps的。“在以前,对于不同的环境,我们必须独立地监控它们,”Hill说。为了管理这种复杂性,Hill选择将监控结合到了两个平台上,首先是在AppDynamics上进行应用程序性能监控,然后又添加了Turbonomic来监视Carhartt的基础设施。


在“黑色星期五”和“网购星期一”期间,该公司网站的性能问题迫使公司不得不做出改变。但当公司发现问题时,客户已经感觉到服务质量有所下降了,Hill说。


自从Carhartt在2017年秋天部署了AppDynamics以来,在黑色星期五和网络星期一的峰值期间就再也没有出现过宕机。


“我们实现了创纪录的增长,”他表示。“我们的增长速度是整个行业的两倍,再也没有出现我们之前经历过的任何中断或性能下降。”


Carhartt在2019年初增加了Turbomency,用于本地和云环境的资源管理。有了新系统,利用率从70%提高到了92%,他说。“这可能为我们节省了25%的基础设施成本。”


增加的利用率需求是自动处理的,不需要人工干预,而容量的减少仍然需要人工批准。


“当它发现我们面临着产能挑战,就会向ServiceNow提出更改请求,”Hill说。“而当我们的容量太大时,它也会在ServiceNow中创建一个票证,有人会先查看它。这只是一个快速的回顾——只需点击一下。这在目前还不需要自动化。”


公司的下一步是自动化业务任务,例如使用文本识别和自然语言处理来处理客户订单。



AIOps的采用


根据Gartner的数据,到2023年,40%的公司将使用AIOps对应用程序和基础设施进行监控。但无论如何,AIOps的采用仍处于初级阶段。波士顿咨询集团的董事总经理兼合伙人Akash Bhatia表示,根据Loom Systems在2019年发起的一项调查,到目前为止,只有5%的公司实施了AIOps。其中有一件事损害了AIOps的采用,那就是市场上有太多的供应商。“实在是太多了。”


根据Loom Systems的报告,有59%的公司还处于探索阶段,客户仍然很难确定他们到底提供了什么。此外,Bhatia也说,许多供应商只是提供了AIOps的一个部分,如应用程序性能监视、基础设施管理或网络性能监视和诊断。但他补充说,随着技术的成熟,市场已经出现了整合迹象。


国际数据公司(IDC)预测,被称为运营分析的AIOps市场将从2018年的29亿美元增长到2023年的45亿美元,其中大部分增长来自于作为服务的AIOps。IDC分析师、AIOps项目副总裁Stephen Elliot表示,尽管AIOps常常与企业软件平台或云服务捆绑在一起,但大型企业正开始将AIOps作为一个独立的预算项目来进行投资。


“他们意识到自己身处于一个多云的世界,”他说。“他们正在进行敏捷转型,他们有DevOps团队,他们意识到了他们必须加快步伐,复杂性正在增加。”



AIOps的价值主张


利用AIOps的公司已经开始认识到,从执行分析和预测的系统转向自行决策的系统的重要性。是时候开始自动化了。


“他们需要能够收集大量信息、应用分析、降低噪音、更快地进行识别和解决问题的工具,”Elliot说。


自动化还需要更好的AIOps集成。应用程序的性能问题可能是由软件问题、网络问题或硬件问题造成的。在一个多云环境中,根本原因可能是在一个云中,也可能是在另一个云中,或者是多种因素组合的结果。如果你的AIOps基础结构是碎片化的,那么查找和修复问题的根源也可能是一个挑战。


“然后你就又回到了白刃战,每个团队都将有自己的工具,”AIOps供应商ScienceLogic的首席执行官David Link表示。“如果你对每一个应用项目都有一个独特的工具,你就不能以那种方式扩展企业。”


与此同时,像Carhartt这样已经部署了AIOps的公司也发现他们的投资正在获得回报。根据企业管理协会的一项调查,81%使用AIOps的企业报告了积极的投资回报。事实上,42%的人说AIOps的价值“大大”超过了成本。


根据EMA的说法, AIOps最常见的六个用例是跨域应用基础设施和性能、容量管理和基础设施优化、DevOps和敏捷、客户和终端用户体验管理和业务一致性、成本管理和变更管理。



作为收入来源的AIOps


Cincinatti Bell的CBTS子公司正在为企业客户提供通信服务。CBTS过去代表着“Cincinnati Bell技术解决方案”,但随着公司扩展到其他地区,它现在已经代表了“咨询构建转型支持”,公司的首席创新官Joe Putnick说。


他表示,加入AIOps对于帮助改善反应时间是至关重要的,现在它已经成为了新的商机来源。例如,Putnick说,在公司转向AIOps之前,将客户设备安装到CBTS监控、管理和计费系统可能需要花费数小时、数天甚至是“无穷无尽”的时间。


“现在我把供应时间从5小时减少到了2分钟,”Putnick说。“当我说配置时,我指的是整个IT服务管理和事件管理系统的全面配置。我知道这些数据会很有说服力。”


该公司还使用了AIOps来分析使用模式和自动化响应。“我们正在应用AIOps来预测哪里需要产能,以便我们能够保持最大的正常运行时间和最大的客户满意度,”他表示。


Putnick说,AIOps帮助CBTS从每月不到40个站点发展到了每月超过500个站点,而每个站点的用户数量几乎相同。


CBTS使用了AWS内置的工具、ServiceNow内部的自定义编码应用程序、自定义机器学习和自适应算法以及ScienceLogic的AIOps工具的组合。而下一步:则是为客户提供增值服务。例如,CBTS为其客户提供的客户服务聊天机器人可以通过其AIOps系统提供的数据、分析和预测,使其变得更智能、响应更快。



AIOps和托管服务提供商


但要看到AIOps的全部潜力,你不应该只关注于托管服务提供商 (MSP) 行业。


“这可能是目前市场上最大的一块,”数字服务咨询公司Nerdery的数据科学主管Justin Richie表示。“他们肯定是在尽可能地投资算法支持。他们知道,在硬件之外,他们最大的开支是人力资本。”


对于MSP们来说,AIOps意味着更高的效率、更低的成本和更快的解决时间——这些都是该领域的重要竞争优势。


“这只是我们为AIOps提出的价值主张的一半,”总部位于圣何塞的MSP NetEnrich负责战略与运营的高级副总裁Raghu Kamath表示。“我们开始在一些客户中实施它,然后在过去的12个月里逐渐扩展到了我们的整个客户群。现在,我们有超过50%的客户都在使用AIOps平台。”


对于NetEnrich来说,最明显和最直接的好处之一是减少了噪音。假警报给员工带来了不必要的工作,也降低了客户的响应时间。


“最终,我们检测和采取行动的响应时间增加了——在实施AIOps之后,我们的平均修复时间至少缩短了30%,”Kamath说。“随着AIOps变得更加成熟,并引入了更多的推理模型,它还将继续增长。”


因为NetEnrich在许多不同的客户环境中都使用了AIOps,所以Kamath对这项技术有自己独特的看法。首先,他发现环境越同质化,就越容易部署AIOps。


“当你开始整合所有这些不同的环境时,情况就会变得复杂得多,”他表示。


另外,使用公共云基础设施的客户也会有一些优势,因为环境更加一致。不过,要让云供应商开放他们的系统,偶尔也会遇到一些障碍。


“但是,公共云供应商正在改变他们的立场,”他说。“如果你看看两年前到现在的数据,就会发现情况已经好多了。”


为遗留应用程序和硬件来使用AIOps是一件棘手的事情,Kamath说。“如果没有足够的日志,就很难推断出任何东西。这就是为什么我们要鼓励我们的客户加速他们的数字化转型和使他们的应用程序现代化的原因了。”

相关文章
|
机器学习/深度学习 人工智能 运维
什么是AIOps智能运维?
AIOps(智能运维)是一种利用人工智能和机器学习技术的软件,用于实时分析和处理业务和运营数据,以提供规范性和预测性答案。它通过收集和汇总大量数据,并使用智能筛选和识别重要事件和模式,帮助团队快速解决问题并避免事件发生。AIOps不依赖于人为指定规则,而是通过机器学习算法自动学习和提炼规则。它可以分析异常告警、故障分析、趋势预测等,并在某些情况下自动解决问题。AIOps的团队包括SRE团队、开发工程师团队和算法工程师团队,他们在AIOps相关工作中扮演不同的角色。
|
3月前
|
人工智能 运维 API
AI Agent 职业路线全解析:从技能图谱到进阶路径
本文系统解析AI Agent工程师的职业发展路径:从角色定位(系统中心化)、四大核心技能(推理框架、记忆系统、API集成、多Agent协作),到应用层→系统层→基础层的进阶路径,并揭示其作为下一代人机交互入口、工程化溢价载体与认知自动化核心的长期价值。(239字)
656 2
|
2月前
|
人工智能 Linux API
OpenClaw Token降本90%实战:阿里云/本地部署+三大核心Skill+免费大模型配置+避坑指南
2026年,OpenClaw(昵称“龙虾”)作为开源AI代理工具的热门选择,在个人效率提升与企业自动化场景中广泛应用。但大量用户在使用过程中面临共同痛点——Token消耗过快,甚至出现“说一句‘你好’消耗数元”的情况,部分用户单日Token成本高达200多美金。这并非工具本身的设计缺陷,而是源于对其运行机制的认知不足与使用方式的不当。本文将深度解析OpenClaw Token高消耗的核心原因,拆解三大降本技巧,补充2026年阿里云及本地MacOS/Linux/Windows11的完整部署流程、阿里云百炼Coding Plan免费大模型API配置方法,并整理部署与使用中的常见问题解答,帮助用户实
1018 1
|
3月前
|
负载均衡 监控 API
Xinference × 阿里云计算巢:大模型推理,终于不用“自己搭火箭”了!
Xinference是企业级大模型推理操作系统,解决GPU混用、多模型并行、高可用缺失等生产难题;阿里云计算巢实现“一键交付”,10分钟完成集群部署、模型加载与API开通,让大模型真正稳、管、用。
443 4
|
消息中间件 SQL 运维
AIOps 智能运维:比专家经验更优雅的错/慢调用分析工具
本文主要介绍ARMS 错/慢 Trace 分析功能基本原理; 该功能能够覆盖哪些异常 Trace 根因; 最后会介绍一些最佳实践案例。
50406 132
|
监控 安全 物联网
RFID工地车辆管理
在工地场景中,RFID技术为车辆管理提供智能化解决方案。通过自动识别与权限控制、实时定位与状态监控、任务分配跟踪等功能,提高管理效率和数据准确性,优化资源配置并降低成本。同时,驾驶员资质审查、安全区域限制等措施增强安全性,实现信息化管理,确保施工进度与现场安全。图文源于网络,侵删!
|
5月前
|
缓存 Ubuntu Linux
Docker安装
本文介绍CentOS系统下安装、配置及卸载Docker的完整步骤,涵盖卸载旧版本、配置阿里云镜像源、安装Docker引擎、启动服务、运行HelloWorld测试,并提供离线安装与系统服务配置方法,同时包含daemon.json参数设置、日志管理、命令补全等高级配置,助力快速部署Docker环境。
300 0
|
运维 监控 Cloud Native
深度用云——释放企业潜能| 阿里云原生网络AIOps,助力企业深度用好云
深度用云——释放企业潜能| 阿里云原生网络AIOps,助力企业深度用好云
430 0
|
人工智能 运维 Prometheus
AIOpsLab:云服务自动化运维 AI,微软开源云服务 AI 框架,覆盖整个生命周期
AIOpsLab 是微软等机构推出的开源框架,支持云服务自动化运维,涵盖故障检测、根本原因分析等完整生命周期。
814 13
AIOpsLab:云服务自动化运维 AI,微软开源云服务 AI 框架,覆盖整个生命周期
|
机器学习/深度学习 人工智能 运维
利用AIOps实现智能运维:提升IT运维的新策略
在数字化迅速发展的今天,传统IT运维已难以应对日益复杂的系统。AIOps通过融合AI、机器学习和大数据技术,革新了IT运维方式。其核心优势包括预测性维护、自动化处理、智能分析和资源优化。AIOps平台能自动检测、诊断并解决IT问题,显著提升运维效率。尽管面临数据质量、模型准确性和技术复杂性等挑战,但AIOps正逐步成为智能运维的重要趋势。