人工智能是如何改变IT运维和DevOps的?

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

接下来的几年里,DevOps(开发软件工程、技术运营和质量保障三者的交集)团队和IT运维部门将面临新的挑战,不过这样的说法听起来不免有些多余,因为他们本身最主要的责任就是要解决困难以及克服挑战。
 
随着进程、技术和工具的显著变化,应对这些问题已经变的越来越困难了。此外,企业用户一直在向DevOps和IT运维团队施加压力,要求所有的东西都能通过点击应用程序来得以解决。然而,在后台,处理这些问题完全是另一番景象,用户无法体会发现一个问题是多么的困难,更何况要解决它。
 
当前IT运维和DevOps团队面临的最大的挑战之一是能够准确指出在他们工作环境中的大数据流中记录的虽然微小但潜在的有害问题。换言之,这就像在草丛里寻找一根针。
 
如果你在一家7天24小时都在线的公司的IT部门工作,下面的场景听起来或许很熟悉:你在半夜突然接到了一个电话,或许是某个怒气冲冲的消费者,也或许是由于应用程序崩溃信用卡交易失败而打过来的你的老板,这时候你会立即去打开你的笔记本电脑、打开日志管理系统,然后你会看到在设定的时间范围内,有10万条消息已经被记录下来了——一个人是不可能将这些数据逐条检查完的。

因此,遇到这样的情形你会怎样做呢?
 
它是一个每一位IT运维专家都会面临的故事,他们度过了许多个不眠之夜,他们在日志条目的海洋中航行,寻找着触发突发事件的关键点。这就是实时、集中的日志分析发挥用武之地的地方。它能帮助这些人弄清楚日志数据的基本面,并准确识别主要问题。通过它,故障诊断的过程变的就像在公园里散步一样简单、有效,同时专家还能够据此预测未来的问题。
 
人工智能及其对IT运维和DevOps的影响

十几年前,人工智能还只是个炒作的概念,但现在已经被出于各种各样的目的的人广泛应用于各行各业了。结合大数据、人工智能和垂直领域知识,技术专家和科学家已经能够创造出惊人的突破和机会,这些以前可只能在科幻小说和电影中看到。
 
随着IT运维变得灵活、动态和复杂,人类的大脑已经不再能够跟上大数据流的速度、体积和多样性,这就使得人工智能成为优化分析和决策过程中强大而重要的工具。人工智能有助于填补人类和大数据之间的空白,提供给人类必要的操作智能和速度,大大减轻了人类故障排除和实时决策的负担。
 
AI能帮什么忙?

在上述所有的情况中,有一件事情是共同的,正如讨论一开始所说,这些公司需要一个解决方案,能够帮助IT运维和DevOps团队快速的从堆积如山的日志数据条目中找到问题所在。要识别那条在你工作环境中增添麻烦的并使应用程序崩溃的日志条目,如果你只是单纯知道你的日志数据出现了哪种类型的错误,是不是太简单了些?当然它也会减少一些的工作量。
 
一个解决方案是建立一个平台,通过该平台能从互联网上收集各种相关数据、观察人们如何利用类似的装置来解决在他们的系统中出现的问题、以及通过扫描你的系统来识别潜在的问题。实现这一目标的一种方法是建立一个模拟用户如何调查、监视和解决事件并且允许它低估人类与数据交互的方式而不是分析数据本身的系统。例如,这项技术可以类似于亚马逊的产品推荐系统和Google的PageRank算法,但这个是专注于日志数据的。
 
引入认知洞察力

最新的一项技术实现了本文设想的解决方案,这项最近引起了很大反响的技术叫做认知洞察力。这种使用机器学习算法的开创性技术能让领域知识与日志数据、开源存储库、讨论论坛和社会线程相匹配。结合所有的这些信息,IT运维和DevOps团队可能从数据中获取相关洞见,这其中可能包含着关键问题的解决方案。

001.jpg
关键问题的解决方案的概述

实时的障碍
DevOps工程师、IT运营经理、首席技术官、副总工程师和首席信息安全官都面临许多挑战,但是通过将人工智能集成到日志分析和相关运维过程中,可以有效地减轻这些挑战带来的压力。我们来举两个最主要的用例:
 
安全
分布式拒绝服务(DDoS)攻击正变得越来越普遍,过去的目标只局限于政府、知名网站和跨国组织机构,现在却普遍开始针对知名人士、中小企业和中型企业了。
 
为了避免这样的攻击,有一个集中的架构来识别可疑的活动并精确识别来自数千个数据条目的潜在威胁是非常必要的。因此,通过认知洞察力来抵抗DDoS进攻已经被证明是非常有效的。在过去,像Dyn和英航这样的领先公司持续受到DDoS的攻击,不过现在,已经有了一个成熟的、基于ELK的反DDoS攻击策略,以阻止黑客的行动击,并且能够确保他们的操作安全以免受未来的攻击。

002.jpg
认知洞察力从成千上万个数据条目中识别到了潜在威胁

IT运维
在你所有日志的每个条目都经过仔细的检查及登记之后,把他们编译到一个单独的地方岂不是很棒?嗯,的确如此。您将能够清楚地查看流程表,并对来自同一个地方的不同应用程序的日志数据进行查询,这将极大地提高您的IT操作效率。

要解决IT运维和DevOps团队面对的挑战,就是能够在大量的日志数据流中识别潜在的小的有害问题,这正是认知洞察力所做的事情。由于这个程序的核心是基于ELK的堆栈,所以它可以对数据进行分类和简化,并且可以很容易地对你的IT运维进行清晰的描述。

003.jpg
快速找到IT工作中的“针”,并消除主要问题

集成好的人工智能可以带来收益

使用AI驱动的日志分析系统使得在杂草中找针变得非常容易而且高效。这样的系统将对整个组织的管理和运营产生巨大的影响。就像上面讨论的公司的问题一样,将AI与日志管理系统集成在一起将会在以下几个方面受益:
 
提高客户的成功率
监控和客户支持
降低风险和优化资源
使日志数据可访问效率最大化
 
换句话说,认知洞察力和其他类似的系统在数据日志管理和故障排除方面有很大的帮助。Rent-A-Center (RAC)是一家总部位于德克萨斯州的财富1000强公司,它提供了各种各样的租赁产品和服务。它在墨西哥、波多黎各、加拿大和美国有超过3000家商店和2000个售货亭,该公司尝试集成两种不同的ELK堆栈,但每天处理100GB数据过于麻烦,更不用提每天花在磁盘管理、内存调用、额外数据输入功能和其他技术问题上的高昂成本和时间成本了。之后RAC转向使用认知洞察,因此他们能够检测未来的异常,并使其能够很容易地扩展不断增长的数据量。他们是从这个管理着内外部ELK堆栈的专注的IT团队中受益的一方。

 
开放源码在数据日志管理中的角色

许多著名的供应商都在积极地研究和测试人工智能,以提高日志数据管理系统的效率。一些供应商如下:

004.jpg

毫无疑问,ELK正迅速成为一种趋势,越来越多的供应商在提供日志解决方案。这是因为它已经成为企业避免花费前期巨额成本而安装必要程序的好方法了。它还具备一些基本的绘图和搜索功能,并且为了让组织认识到他们日志数据中存在的问题,他们会选择诸如认知洞察力这种最新的技术,来快速找到“针”并消除主要问题。










原文出处:物联网智库
转载请与作者联系,同时请务必标明文章原始出处和原文链接及本声明。
目录
相关文章
|
9天前
|
运维 Devops 持续交付
自动化运维的魔法:打造高效DevOps流水线
【10月更文挑战第34天】在数字化时代的浪潮中,DevOps成为企业追求敏捷、高效和稳定的关键。本文将通过一个真实案例,展示如何构建一个高效的DevOps流水线,实现从代码提交到部署的全自动化流程。我们将探讨流水线设计的哲学、工具选择以及面临的挑战,并分享实际的代码示例和操作步骤,帮助读者理解自动化运维的精髓。
26 2
|
26天前
|
机器学习/深度学习 人工智能 运维
企业内训|LLM大模型在服务器和IT网络运维中的应用-某日企IT运维部门
本课程是为某在华日资企业集团的IT运维部门专门定制开发的企业培训课程,本课程旨在深入探讨大型语言模型(LLM)在服务器及IT网络运维中的应用,结合当前技术趋势与行业需求,帮助学员掌握LLM如何为运维工作赋能。通过系统的理论讲解与实践操作,学员将了解LLM的基本知识、模型架构及其在实际运维场景中的应用,如日志分析、故障诊断、网络安全与性能优化等。
56 2
|
9天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维在现代IT基础设施中的应用与价值####
本文探讨了智能化运维(AIOps)在现代IT基础设施管理中的实际应用、面临的挑战及其带来的深远影响。通过引入先进的算法和机器学习模型,智能化运维不仅提高了故障检测与响应的速度,还显著优化了资源配置,降低了运营成本,为企业数字化转型提供了强有力的技术支撑。 ####
|
20天前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI驱动下的IT运维革命###
本文探讨了人工智能(AI)技术在IT运维领域的创新应用,强调其在提升效率、预防故障及优化资源配置中的关键作用,揭示了智能运维的新趋势。 ###
|
15天前
|
运维 Devops 测试技术
自动化运维的魔法——打造高效的DevOps流程
【10月更文挑战第28天】在数字化浪潮不断推进的今天,企业对运维效率的追求如同古人探索魔法一般充满好奇与渴望。本文将带你走进自动化运维的世界,揭秘如何通过DevOps实践,实现从代码到部署的无缝连接,提升企业的IT运营效能。我们将一起探索自动化工具的选择与配置,以及如何构建一个既能快速响应业务需求,又能保障系统稳定性的高效流程。
|
16天前
|
机器学习/深度学习 人工智能 运维
智能化运维:提升IT服务效率的新引擎###
本文深入浅出地探讨了智能化运维(AIOps)如何革新传统IT运维模式,通过大数据、机器学习与自动化技术,实现故障预警、快速定位与处理,从而显著提升IT服务的稳定性和效率。不同于传统运维依赖人工响应,AIOps强调预测性维护与自动化流程,为企业数字化转型提供强有力的支撑。 ###
|
19天前
|
运维 Prometheus 监控
自动化运维之路:从脚本到DevOps
【10月更文挑战第25天】在数字化时代的浪潮中,运维不再是简单的服务器管理,而是成为了企业竞争力的核心。本文将带你走进自动化运维的世界,探索如何通过技术手段提升效率和稳定性,以及实现快速响应市场的能力。我们将一起学习如何从基础的脚本编写进化到全面的DevOps实践,包括工具的选择、流程的优化以及文化的建设。无论你是运维新手还是资深专家,这篇文章都将为你提供有价值的见解和实用的技巧。
17 3
|
28天前
|
人工智能 自然语言处理 供应链
裁员和AI需求导致IT人才市场不匹配
裁员和AI需求导致IT人才市场不匹配
|
30天前
|
人工智能 运维 监控
智能化运维:AI在IT运维中的挑战与机遇###
本文探讨了人工智能(AI)技术在IT运维领域的应用,重点分析了AI如何提升运维效率、减少故障恢复时间,并预测未来发展趋势。通过具体案例展示了AI在实际运维中的应用效果,同时指出当前面临的挑战和解决方案,为读者提供一个全面了解智能化运维的视角。 ###
|
29天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维:AI在IT运维中的应用探索###
随着信息技术的飞速发展,传统的IT运维模式正面临着前所未有的挑战。本文旨在探讨人工智能(AI)技术如何赋能IT运维,通过智能化手段提升运维效率、降低故障率,并为企业带来更加稳定高效的服务体验。我们将从AI运维的概念入手,深入分析其在故障预测、异常检测、自动化处理等方面的应用实践,以及面临的挑战与未来发展趋势。 ###