运维一路走来,经历了什么?

简介: 随着AIOps应用不断的深入,智能运维将会在纵向和横向不断延伸。横向上,智能运维应用场景将会从ITOM向ITOA、ITSM和ITBM发展,覆盖更多的运维领域。

随着企业数字化转型的不断深入,利用AI技术改善运维和IT服务水平成为当前运维管理的主要关注方向。在此过程中逐渐生产了不同的发展策略:围绕着AI的平台化智能运维发展模式、场景化智能运维发展模式以及自建智能运维发展模式。

不同发展策略的智能运维发展方向是一致的,即通过大数据和人工智能技术对运维管理进行赋能:

综合现有监控手段,增强数据分析,进一步提高监控的能力;

通过资源的有效配置节省运维成本;

通过多数据源分析增强排查问题的能力,有效缩短故障恢复时间;

通过预警并结合自动化工具,有效提高运维效率甚至自愈能力。

目前智能运维尚处在弱人工智能阶段,人机协作的方式将促进智能运维的发展,人教会AI去学习,AI实现对数据的智能分析,提高运维人员的运营能力。

1100046194.jpg

建设只能运维的算法挑战

虽然这几年人工智能在人脸识别、智能驾驶等领域得到了大量应用,但是AI仍然面临这计算效能、安全、可解释性等诸多挑战。相比于其他AI落地场景,智能运维所亟需解决的问题具有一定的独特性:

1.心态的转变:智能运维是运维发展的方向,而且是一个长期的过程——从经验主义到数据驱动,再回归到业务驱动的过程。经验是结合了数据、知识、业务等长时间学习的结果,而AI主要依靠历史指标或者文本数据,对历史数据进行预测,从而对未来趋势做出判断。对于想达到的目标,需要考虑现有的信息是否充足,还需要结合业务场景进行具体模型的不断优化。

2.工程化算法的欠缺:由于缺乏标准的运维数据集,学术界针对运维的算法还比较少,工程化的算法尤其欠缺。同时算法在不同数据集上的泛化能力也决定了算法能否在真实场景应用的关键。

3.缺乏有效的标签体系:以异常定义为例,由于不同业务部门对数据需求存在巨大区别,同时对异常的容忍程度也有不同定义,因此现有的泛化模型难以满足用户的实际需求。

4.数据的多样化和变更频繁:运维场景存在大量变更行为,因此需要考虑Concept-shift前后对算法结果的影响。

5.唯一性:很多异常和故障的特征是唯一的,很难通过历史数据的学习得到,因此需要结合业务属性和其它数据进行有效学习。

6.算法失效带来的灾难:AI的应用需要明确目标和不确定性。工业化算法的准确性在85%以上可以用,但是需要考虑不准确情景的影响。算法很多时候需要考虑准确和召回的集合,而很多场景对算法的准确性有更高要求,因此对算法结果的评估将有助于进一步完善模型。

485306af6a054f69bd284da77c0dc6e2.jpeg.jpeg

提升智能运维关键能力

面对上述算法落地挑战,需要对运维场景进行剖析,将学术界的算法和业界的场景有效的融合统一,再通过业界的工程实现能力进行有效的组合。对于每个场景的实现,都不仅仅是一个或多个算法。在智能运维的落地的过程中,一般会构建四个智能分析能力集合;

智能告警能力

通过基于历史数据的有效学习,对未来可能的故障进行有效预测是减少损失的重要手段。故障的类型很多,针对不同类型的预测需要不同的算法模型。当故障发生时,配合资源优化算法,自动化的对任务进行编排,从而有效、及时预测故障的发生。

智能服务管理能力

智能服务管理能力将利用人工智能技术,与新一代ITSM进行融合。通过知识库的构建,利用文本相似度,对历史上发生的故障工单进行匹配,及时有效的提供故障的解决方案,大大提升了故障的处理效率,结合自动化的工具,快速给出请求回复,减少运维人员的时间浪费。

注重算法的鲁棒性、自适应性、可解析性、泛化能力等,通过构建专业运维数据库以及智能分析方面的4个关键能力,将为企业只能运维体系化建设提供有力支撑,落地从运维的监控预警、告警、诊断分析、事件管理和知识推荐的全链路智能系统。

发展与展望

随着AIOps应用不断的深入,智能运维将会在纵向和横向不断延伸。横向上,智能运维应用场景将会从ITOM向ITOA、ITSM和ITBM发展,覆盖更多的运维领域。纵向上,随着运维数据成熟度以及AI能力的提升,智能运维将从机器学习想深度学习,增强学习甚至向元学习能力延伸。这种纵横能力的覆盖,将实现AI对整个运维场景的可见、可控、可分析、可管理。

相关文章
|
运维 监控 小程序
2022 企业应用运维管理指标体系白皮书发布:企业 IT 运维正在经历从“后台”向“中台”的转变
InfoQ 获悉,近日,博睿数据联合艾瑞咨询共同发布了《2022企业应用运维管理指标体系白皮书》(以下简称《白皮书》)。 《白皮书》从企业 IT 运维的内涵以及在当前数字经济发展的大环境下企业 IT 运维工作在技术、战略、组织架构等方面面临的变化和问题做了详细说明,并展示了一种以业务和应用为着眼点的企业应用运维管理指标体系,对该体系的原理、设计和实践进行了详细说明。
1599 0
2022 企业应用运维管理指标体系白皮书发布:企业 IT 运维正在经历从“后台”向“中台”的转变
|
24天前
|
运维 监控 安全
运维之道:构建高效稳定的系统运维实践
在数字化时代的浪潮中,系统运维的角色愈发重要。本文旨在探讨如何通过一系列创新的运维策略和工具,构建一个既高效又稳定的运维体系。从监控预警到自动化部署,从性能优化到安全防护,我们将深入分析各个关键领域的最佳实践,并结合实际案例,揭示这些策略和工具如何在现实环境中发挥作用,帮助企业提升系统的可用性和可靠性,最终实现业务连续性和增长的目标。
41 0
|
13天前
|
机器学习/深度学习 人工智能 运维
智能化运维:未来趋势与实践策略
【8月更文挑战第7天】 随着技术的进步,智能化运维已成为企业提升效率、降低成本的必由之路。本文将探讨智能化运维的核心概念、实施步骤和面临的挑战,同时通过案例分析展示其在实践中的应用效果,旨在为读者提供一套清晰的智能化运维实施指南。
38 10
|
7天前
|
运维 监控 Devops
构建高效自动化运维体系:DevOps与容器化实践
【7月更文挑战第44天】在现代IT基础设施管理中,自动化运维已成为提升效率、降低成本、确保系统稳定性的关键。本文将探讨如何通过结合DevOps理念和容器化技术来构建一个高效的自动化运维体系。我们将分析这一体系对提高软件交付速度、优化资源利用率以及增强系统可靠性的积极影响,并提供一系列实施策略和最佳实践,帮助企业实现运维自动化转型。
|
9天前
|
运维 监控 持续交付
构建高效自动化运维体系:Ansible与Docker的协同实践
【7月更文挑战第42天】 在当今快速发展的云计算和微服务架构时代,自动化运维已成为提升效率、确保系统稳定性的关键。本文将探讨如何利用Ansible这一强大的自动化工具与Docker容器技术相结合,搭建一个高效、可靠的自动化运维体系。文章首先简述了自动化运维的必要性和Ansible与Docker的基本概念,随后详细介绍了两者结合的优势,并通过实际案例分析展示了如何实现自动化部署、管理和扩展应用服务。通过阅读本文,读者将获得一套可行的自动化运维解决方案,以应对日益复杂的IT环境挑战。
|
9天前
|
运维 监控 安全
运维自动化的演变与实践
【8月更文挑战第11天】在信息技术日新月异的今天,运维自动化已成为提升企业效率、保障系统稳定性的关键。本文将深入探讨运维自动化的发展历程,分析其在现代IT架构中的应用,并分享实施自动化过程中的经验教训。通过具体案例,揭示自动化如何优化运维工作流程,提高服务质量和工作效率。

热门文章

最新文章