试图更好地监控IT资产的组织正在转向人工智能,以便在性能问题出现之前解决掉,并在感受到负面影响之前自动将其修复。
云平台、托管服务提供商和进行数字化转型的组织正开始从一种新兴的IT趋势中获益:使用人工智能驱动的IT运营技术来自动监控和管理其IT产品组合。
这种新出现的实践称为AIOps,它能够帮助企业在潜在的停机和性能问题对运营、客户和利润产生负面影响之前加以防范。但更先进的部署已经开始使用人工智能系统了,不仅能识别问题,或在问题发生之前预测问题,还能够以智能、自动化的缓解措施对事件做出反应。
但是AIOps到底是什么,现在的组织又是如何使用它的呢?在这里,我们将深入了解人工智能辅助IT运营的技术、策略和挑战。
什么是AIOps?
AIOps是一种新兴的IT实践,它能够将人工智能应用于IT运营,帮助组织智能地管理基础设施、网络和应用程序,以获得相应的性能、弹性、容量、正常运行时间,在某些情况下,还包括安全性。通过将传统的、基于阈值的警报和手动流程转型为利用人工智能和机器学习的系统,AIOps使组织能够更好地监控IT资产,并在负面事件和影响发生之前进行预测。
Carhartt的CIO John Hill在三个主要的领域利用了这家工作服装零售商的AIOps:包括服务管理、绩效管理和IT自动化。多亏了智能监控,Carthartt现在可以在问题影响用户或客户之前发现问题了。
“这是一个自动进行监测的环境,帮助你了解发生了什么,然后可以根据这些指标采取行动,”他说。“以前,你会依赖于停机或某些东西不工作的指示”来了解何时需要进行修复--但是在你知道这些事件之前,它们可能已经降低了客户体验。
AIOps的用例
AIOps可能已经在你的IT投资组合中工作了,而你甚至都不知道它。先进的CRM或ERP系统通常就已经内置了智能管理。大多数主要的云平台也使用了机器学习--即监视和管理工具。
但是依赖于单点解决方案中的内置功能依然有其缺点。在一项AIOps的交流调查中,65%的IT组织表示,他们仍然依赖于监控的方法(无论是否智能),这些方法要么是孤立的、基于规则的,要么就是无法满足整个IT环境的需求。此外,根据最近BigPanda的调查,42%的IT组织对其IT环境使用了超过10种不同的监视工具。
Carhartt就是这样开始AIOps的。“在以前,对于不同的环境,我们必须独立地监控它们,”Hill说。为了管理这种复杂性,Hill选择将监控结合到了两个平台上,首先是在AppDynamics上进行应用程序性能监控,然后又添加了Turbonomic来监视Carhartt的基础设施。
在“黑色星期五”和“网购星期一”期间,该公司网站的性能问题迫使公司不得不做出改变。但当公司发现问题时,客户已经感觉到服务质量有所下降了,Hill说。
自从Carhartt在2017年秋天部署了AppDynamics以来,在黑色星期五和网络星期一的峰值期间就再也没有出现过宕机。
“我们实现了创纪录的增长,”他表示。“我们的增长速度是整个行业的两倍,再也没有出现我们之前经历过的任何中断或性能下降。”
Carhartt在2019年初增加了Turbomency,用于本地和云环境的资源管理。有了新系统,利用率从70%提高到了92%,他说。“这可能为我们节省了25%的基础设施成本。”
增加的利用率需求是自动处理的,不需要人工干预,而容量的减少仍然需要人工批准。
“当它发现我们面临着产能挑战,就会向ServiceNow提出更改请求,”Hill说。“而当我们的容量太大时,它也会在ServiceNow中创建一个票证,有人会先查看它。这只是一个快速的回顾——只需点击一下。这在目前还不需要自动化。”
公司的下一步是自动化业务任务,例如使用文本识别和自然语言处理来处理客户订单。
AIOps的采用
根据Gartner的数据,到2023年,40%的公司将使用AIOps对应用程序和基础设施进行监控。但无论如何,AIOps的采用仍处于初级阶段。波士顿咨询集团的董事总经理兼合伙人Akash Bhatia表示,根据Loom Systems在2019年发起的一项调查,到目前为止,只有5%的公司实施了AIOps。其中有一件事损害了AIOps的采用,那就是市场上有太多的供应商。“实在是太多了。”
根据Loom Systems的报告,有59%的公司还处于探索阶段,客户仍然很难确定他们到底提供了什么。此外,Bhatia也说,许多供应商只是提供了AIOps的一个部分,如应用程序性能监视、基础设施管理或网络性能监视和诊断。但他补充说,随着技术的成熟,市场已经出现了整合迹象。
国际数据公司(IDC)预测,被称为运营分析的AIOps市场将从2018年的29亿美元增长到2023年的45亿美元,其中大部分增长来自于作为服务的AIOps。IDC分析师、AIOps项目副总裁Stephen Elliot表示,尽管AIOps常常与企业软件平台或云服务捆绑在一起,但大型企业正开始将AIOps作为一个独立的预算项目来进行投资。
“他们意识到自己身处于一个多云的世界,”他说。“他们正在进行敏捷转型,他们有DevOps团队,他们意识到了他们必须加快步伐,复杂性正在增加。”
AIOps的价值主张
利用AIOps的公司已经开始认识到,从执行分析和预测的系统转向自行决策的系统的重要性。是时候开始自动化了。
“他们需要能够收集大量信息、应用分析、降低噪音、更快地进行识别和解决问题的工具,”Elliot说。
自动化还需要更好的AIOps集成。应用程序的性能问题可能是由软件问题、网络问题或硬件问题造成的。在一个多云环境中,根本原因可能是在一个云中,也可能是在另一个云中,或者是多种因素组合的结果。如果你的AIOps基础结构是碎片化的,那么查找和修复问题的根源也可能是一个挑战。
“然后你就又回到了白刃战,每个团队都将有自己的工具,”AIOps供应商ScienceLogic的首席执行官David Link表示。“如果你对每一个应用项目都有一个独特的工具,你就不能以那种方式扩展企业。”
与此同时,像Carhartt这样已经部署了AIOps的公司也发现他们的投资正在获得回报。根据企业管理协会的一项调查,81%使用AIOps的企业报告了积极的投资回报。事实上,42%的人说AIOps的价值“大大”超过了成本。
根据EMA的说法, AIOps最常见的六个用例是跨域应用基础设施和性能、容量管理和基础设施优化、DevOps和敏捷、客户和终端用户体验管理和业务一致性、成本管理和变更管理。
作为收入来源的AIOps
Cincinatti Bell的CBTS子公司正在为企业客户提供通信服务。CBTS过去代表着“Cincinnati Bell技术解决方案”,但随着公司扩展到其他地区,它现在已经代表了“咨询构建转型支持”,公司的首席创新官Joe Putnick说。
他表示,加入AIOps对于帮助改善反应时间是至关重要的,现在它已经成为了新的商机来源。例如,Putnick说,在公司转向AIOps之前,将客户设备安装到CBTS监控、管理和计费系统可能需要花费数小时、数天甚至是“无穷无尽”的时间。
“现在我把供应时间从5小时减少到了2分钟,”Putnick说。“当我说配置时,我指的是整个IT服务管理和事件管理系统的全面配置。我知道这些数据会很有说服力。”
该公司还使用了AIOps来分析使用模式和自动化响应。“我们正在应用AIOps来预测哪里需要产能,以便我们能够保持最大的正常运行时间和最大的客户满意度,”他表示。
Putnick说,AIOps帮助CBTS从每月不到40个站点发展到了每月超过500个站点,而每个站点的用户数量几乎相同。
CBTS使用了AWS内置的工具、ServiceNow内部的自定义编码应用程序、自定义机器学习和自适应算法以及ScienceLogic的AIOps工具的组合。而下一步:则是为客户提供增值服务。例如,CBTS为其客户提供的客户服务聊天机器人可以通过其AIOps系统提供的数据、分析和预测,使其变得更智能、响应更快。
AIOps和托管服务提供商
但要看到AIOps的全部潜力,你不应该只关注于托管服务提供商 (MSP) 行业。
“这可能是目前市场上最大的一块,”数字服务咨询公司Nerdery的数据科学主管Justin Richie表示。“他们肯定是在尽可能地投资算法支持。他们知道,在硬件之外,他们最大的开支是人力资本。”
对于MSP们来说,AIOps意味着更高的效率、更低的成本和更快的解决时间——这些都是该领域的重要竞争优势。
“这只是我们为AIOps提出的价值主张的一半,”总部位于圣何塞的MSP NetEnrich负责战略与运营的高级副总裁Raghu Kamath表示。“我们开始在一些客户中实施它,然后在过去的12个月里逐渐扩展到了我们的整个客户群。现在,我们有超过50%的客户都在使用AIOps平台。”
对于NetEnrich来说,最明显和最直接的好处之一是减少了噪音。假警报给员工带来了不必要的工作,也降低了客户的响应时间。
“最终,我们检测和采取行动的响应时间增加了——在实施AIOps之后,我们的平均修复时间至少缩短了30%,”Kamath说。“随着AIOps变得更加成熟,并引入了更多的推理模型,它还将继续增长。”
因为NetEnrich在许多不同的客户环境中都使用了AIOps,所以Kamath对这项技术有自己独特的看法。首先,他发现环境越同质化,就越容易部署AIOps。
“当你开始整合所有这些不同的环境时,情况就会变得复杂得多,”他表示。
另外,使用公共云基础设施的客户也会有一些优势,因为环境更加一致。不过,要让云供应商开放他们的系统,偶尔也会遇到一些障碍。
“但是,公共云供应商正在改变他们的立场,”他说。“如果你看看两年前到现在的数据,就会发现情况已经好多了。”
为遗留应用程序和硬件来使用AIOps是一件棘手的事情,Kamath说。“如果没有足够的日志,就很难推断出任何东西。这就是为什么我们要鼓励我们的客户加速他们的数字化转型和使他们的应用程序现代化的原因了。”