如何通过AIOps将智能注入IT运营

简介: 试图更好地监控IT资产的组织正在转向人工智能,以便在性能问题出现之前解决掉,并在感受到负面影响之前自动将其修复。云平台、托管服务提供商和进行数字化转型的组织正开始从一种新兴的IT趋势中获益:使用人工智能驱动的IT运营技术来自动监控和管理其IT产品组合。

试图更好地监控IT资产的组织正在转向人工智能,以便在性能问题出现之前解决掉,并在感受到负面影响之前自动将其修复。


云平台、托管服务提供商和进行数字化转型的组织正开始从一种新兴的IT趋势中获益:使用人工智能驱动的IT运营技术来自动监控和管理其IT产品组合。


这种新出现的实践称为AIOps,它能够帮助企业在潜在的停机和性能问题对运营、客户和利润产生负面影响之前加以防范。但更先进的部署已经开始使用人工智能系统了,不仅能识别问题,或在问题发生之前预测问题,还能够以智能、自动化的缓解措施对事件做出反应。


但是AIOps到底是什么,现在的组织又是如何使用它的呢?在这里,我们将深入了解人工智能辅助IT运营的技术、策略和挑战。



什么是AIOps?


AIOps是一种新兴的IT实践,它能够将人工智能应用于IT运营,帮助组织智能地管理基础设施、网络和应用程序,以获得相应的性能、弹性、容量、正常运行时间,在某些情况下,还包括安全性。通过将传统的、基于阈值的警报和手动流程转型为利用人工智能和机器学习的系统,AIOps使组织能够更好地监控IT资产,并在负面事件和影响发生之前进行预测。


Carhartt的CIO John Hill在三个主要的领域利用了这家工作服装零售商的AIOps:包括服务管理、绩效管理和IT自动化。多亏了智能监控,Carthartt现在可以在问题影响用户或客户之前发现问题了。


“这是一个自动进行监测的环境,帮助你了解发生了什么,然后可以根据这些指标采取行动,”他说。“以前,你会依赖于停机或某些东西不工作的指示”来了解何时需要进行修复--但是在你知道这些事件之前,它们可能已经降低了客户体验。



AIOps的用例


AIOps可能已经在你的IT投资组合中工作了,而你甚至都不知道它。先进的CRM或ERP系统通常就已经内置了智能管理。大多数主要的云平台也使用了机器学习--即监视和管理工具。


但是依赖于单点解决方案中的内置功能依然有其缺点。在一项AIOps的交流调查中,65%的IT组织表示,他们仍然依赖于监控的方法(无论是否智能),这些方法要么是孤立的、基于规则的,要么就是无法满足整个IT环境的需求。此外,根据最近BigPanda的调查,42%的IT组织对其IT环境使用了超过10种不同的监视工具。


Carhartt就是这样开始AIOps的。“在以前,对于不同的环境,我们必须独立地监控它们,”Hill说。为了管理这种复杂性,Hill选择将监控结合到了两个平台上,首先是在AppDynamics上进行应用程序性能监控,然后又添加了Turbonomic来监视Carhartt的基础设施。


在“黑色星期五”和“网购星期一”期间,该公司网站的性能问题迫使公司不得不做出改变。但当公司发现问题时,客户已经感觉到服务质量有所下降了,Hill说。


自从Carhartt在2017年秋天部署了AppDynamics以来,在黑色星期五和网络星期一的峰值期间就再也没有出现过宕机。


“我们实现了创纪录的增长,”他表示。“我们的增长速度是整个行业的两倍,再也没有出现我们之前经历过的任何中断或性能下降。”


Carhartt在2019年初增加了Turbomency,用于本地和云环境的资源管理。有了新系统,利用率从70%提高到了92%,他说。“这可能为我们节省了25%的基础设施成本。”


增加的利用率需求是自动处理的,不需要人工干预,而容量的减少仍然需要人工批准。


“当它发现我们面临着产能挑战,就会向ServiceNow提出更改请求,”Hill说。“而当我们的容量太大时,它也会在ServiceNow中创建一个票证,有人会先查看它。这只是一个快速的回顾——只需点击一下。这在目前还不需要自动化。”


公司的下一步是自动化业务任务,例如使用文本识别和自然语言处理来处理客户订单。



AIOps的采用


根据Gartner的数据,到2023年,40%的公司将使用AIOps对应用程序和基础设施进行监控。但无论如何,AIOps的采用仍处于初级阶段。波士顿咨询集团的董事总经理兼合伙人Akash Bhatia表示,根据Loom Systems在2019年发起的一项调查,到目前为止,只有5%的公司实施了AIOps。其中有一件事损害了AIOps的采用,那就是市场上有太多的供应商。“实在是太多了。”


根据Loom Systems的报告,有59%的公司还处于探索阶段,客户仍然很难确定他们到底提供了什么。此外,Bhatia也说,许多供应商只是提供了AIOps的一个部分,如应用程序性能监视、基础设施管理或网络性能监视和诊断。但他补充说,随着技术的成熟,市场已经出现了整合迹象。


国际数据公司(IDC)预测,被称为运营分析的AIOps市场将从2018年的29亿美元增长到2023年的45亿美元,其中大部分增长来自于作为服务的AIOps。IDC分析师、AIOps项目副总裁Stephen Elliot表示,尽管AIOps常常与企业软件平台或云服务捆绑在一起,但大型企业正开始将AIOps作为一个独立的预算项目来进行投资。


“他们意识到自己身处于一个多云的世界,”他说。“他们正在进行敏捷转型,他们有DevOps团队,他们意识到了他们必须加快步伐,复杂性正在增加。”



AIOps的价值主张


利用AIOps的公司已经开始认识到,从执行分析和预测的系统转向自行决策的系统的重要性。是时候开始自动化了。


“他们需要能够收集大量信息、应用分析、降低噪音、更快地进行识别和解决问题的工具,”Elliot说。


自动化还需要更好的AIOps集成。应用程序的性能问题可能是由软件问题、网络问题或硬件问题造成的。在一个多云环境中,根本原因可能是在一个云中,也可能是在另一个云中,或者是多种因素组合的结果。如果你的AIOps基础结构是碎片化的,那么查找和修复问题的根源也可能是一个挑战。


“然后你就又回到了白刃战,每个团队都将有自己的工具,”AIOps供应商ScienceLogic的首席执行官David Link表示。“如果你对每一个应用项目都有一个独特的工具,你就不能以那种方式扩展企业。”


与此同时,像Carhartt这样已经部署了AIOps的公司也发现他们的投资正在获得回报。根据企业管理协会的一项调查,81%使用AIOps的企业报告了积极的投资回报。事实上,42%的人说AIOps的价值“大大”超过了成本。


根据EMA的说法, AIOps最常见的六个用例是跨域应用基础设施和性能、容量管理和基础设施优化、DevOps和敏捷、客户和终端用户体验管理和业务一致性、成本管理和变更管理。



作为收入来源的AIOps


Cincinatti Bell的CBTS子公司正在为企业客户提供通信服务。CBTS过去代表着“Cincinnati Bell技术解决方案”,但随着公司扩展到其他地区,它现在已经代表了“咨询构建转型支持”,公司的首席创新官Joe Putnick说。


他表示,加入AIOps对于帮助改善反应时间是至关重要的,现在它已经成为了新的商机来源。例如,Putnick说,在公司转向AIOps之前,将客户设备安装到CBTS监控、管理和计费系统可能需要花费数小时、数天甚至是“无穷无尽”的时间。


“现在我把供应时间从5小时减少到了2分钟,”Putnick说。“当我说配置时,我指的是整个IT服务管理和事件管理系统的全面配置。我知道这些数据会很有说服力。”


该公司还使用了AIOps来分析使用模式和自动化响应。“我们正在应用AIOps来预测哪里需要产能,以便我们能够保持最大的正常运行时间和最大的客户满意度,”他表示。


Putnick说,AIOps帮助CBTS从每月不到40个站点发展到了每月超过500个站点,而每个站点的用户数量几乎相同。


CBTS使用了AWS内置的工具、ServiceNow内部的自定义编码应用程序、自定义机器学习和自适应算法以及ScienceLogic的AIOps工具的组合。而下一步:则是为客户提供增值服务。例如,CBTS为其客户提供的客户服务聊天机器人可以通过其AIOps系统提供的数据、分析和预测,使其变得更智能、响应更快。



AIOps和托管服务提供商


但要看到AIOps的全部潜力,你不应该只关注于托管服务提供商 (MSP) 行业。


“这可能是目前市场上最大的一块,”数字服务咨询公司Nerdery的数据科学主管Justin Richie表示。“他们肯定是在尽可能地投资算法支持。他们知道,在硬件之外,他们最大的开支是人力资本。”


对于MSP们来说,AIOps意味着更高的效率、更低的成本和更快的解决时间——这些都是该领域的重要竞争优势。


“这只是我们为AIOps提出的价值主张的一半,”总部位于圣何塞的MSP NetEnrich负责战略与运营的高级副总裁Raghu Kamath表示。“我们开始在一些客户中实施它,然后在过去的12个月里逐渐扩展到了我们的整个客户群。现在,我们有超过50%的客户都在使用AIOps平台。”


对于NetEnrich来说,最明显和最直接的好处之一是减少了噪音。假警报给员工带来了不必要的工作,也降低了客户的响应时间。


“最终,我们检测和采取行动的响应时间增加了——在实施AIOps之后,我们的平均修复时间至少缩短了30%,”Kamath说。“随着AIOps变得更加成熟,并引入了更多的推理模型,它还将继续增长。”


因为NetEnrich在许多不同的客户环境中都使用了AIOps,所以Kamath对这项技术有自己独特的看法。首先,他发现环境越同质化,就越容易部署AIOps。


“当你开始整合所有这些不同的环境时,情况就会变得复杂得多,”他表示。


另外,使用公共云基础设施的客户也会有一些优势,因为环境更加一致。不过,要让云供应商开放他们的系统,偶尔也会遇到一些障碍。


“但是,公共云供应商正在改变他们的立场,”他说。“如果你看看两年前到现在的数据,就会发现情况已经好多了。”


为遗留应用程序和硬件来使用AIOps是一件棘手的事情,Kamath说。“如果没有足够的日志,就很难推断出任何东西。这就是为什么我们要鼓励我们的客户加速他们的数字化转型和使他们的应用程序现代化的原因了。”

相关文章
|
10月前
|
机器学习/深度学习 人工智能 运维
什么是AIOps智能运维?
AIOps(智能运维)是一种利用人工智能和机器学习技术的软件,用于实时分析和处理业务和运营数据,以提供规范性和预测性答案。它通过收集和汇总大量数据,并使用智能筛选和识别重要事件和模式,帮助团队快速解决问题并避免事件发生。AIOps不依赖于人为指定规则,而是通过机器学习算法自动学习和提炼规则。它可以分析异常告警、故障分析、趋势预测等,并在某些情况下自动解决问题。AIOps的团队包括SRE团队、开发工程师团队和算法工程师团队,他们在AIOps相关工作中扮演不同的角色。
|
2月前
|
机器学习/深度学习 人工智能 运维
AI辅助的运维风险预测:智能运维新时代
AI辅助的运维风险预测:智能运维新时代
150 19
AI辅助的运维风险预测:智能运维新时代
|
6月前
|
机器学习/深度学习 存储 数据采集
智能运维:未来趋势与挑战
在数字化时代,运维(Operation and Maintenance)的角色变得越来越重要。随着云计算、大数据和人工智能等技术的发展,智能运维已经成为一种趋势。本文将探讨智能运维的概念、优势以及面临的挑战,并提供一些实施智能运维的建议。
|
8月前
|
监控 安全 算法
云上智能风控:构建金融安全的智能防线
云上智能风控系统具有良好的灵活性和可扩展性。随着金融市场的不断变化和技术的不断发展,系统能够灵活调整风控策略和算法模型以适应新的风险类型和场景。同时,系统还能够根据业务需求进行功能扩展和升级以满足不同金融机构的个性化需求。
559 7
|
10月前
|
机器学习/深度学习 存储 人工智能
未来智能运维的发展趋势与挑战
随着信息技术的迅猛发展,智能运维作为关键的技术领域正日益受到重视。本文探讨了未来智能运维的发展趋势和所面临的挑战,从人工智能、自动化运维、数据分析等方面展望了未来智能运维的发展方向,同时也指出了在实践中需要克服的困难和挑战。
706 1
|
机器学习/深度学习 人工智能 运维
从钢铁行业数字化管控平台的智能进化,看超自动化能力的未来边界
钢铁行业更加智能化数字化管控新品,映射出平台底层技术超自动化的能力进化。
234 0
|
人工智能 供应链 安全
Marvelous!【首批】云鲨RASP通过研发运营安全工具能力评估
随着数字化的推进,软件应用服务正在潜移默化的改变着生活的各个方面,渗透到各个行业和领域,其自身的安全问题也愈发成为业界关注的焦点。通过自动化安全平台、工具,将安全融入软件服务的全生命周期,适应当前的开发模式是业界共识,也是实现研发运营安全的必要途径。运行时应用程序自我保护(RASP)工具可注入到应用程序中,与应用程序融为一体,进行实时监测、阻断攻击,使程序自身拥有自保护的能力。
229 0
Marvelous!【首批】云鲨RASP通过研发运营安全工具能力评估
|
开发者
数据化运营-模型详解|学习笔记
快速学习数据化运营-模型详解
114 0
|
机器学习/深度学习 人工智能 运维
2022 年智能运维(AIOps)的发展趋势
人类无法跟上技术进步的步伐,但人工智能的智能应用可以让企业处理大数据、新的网络安全需求,并简化不断增长的架构。
2022 年智能运维(AIOps)的发展趋势
|
机器学习/深度学习 人工智能 运维
强化企业 IT 运维的五大 AIOps 策略
在现代化的企业中工作,我们希望 AIOps(中文资料中也称为“智能运维”——译者注)能强化 IT 运维,使企业在提高性能的同时降低成本、预防 IT 事故并提高业务的敏捷性。但在市场上存在着多种差异化的 AIOps 产品,我们如何能确保所选路线的正确性?一旦决定采用 AIOps,应如何最大化地发挥其作用?
586 0
强化企业 IT 运维的五大 AIOps 策略