科技云报道:畅想无人化运维的AIOps,还有多远的路要走?

简介: 道阻且长

科技云报道原创。

在IT行业,运维人常常自我调侃“赚着5k的月薪,操着5千万的心,名下挂着5亿的资产”。

image.png

机房的暖通、网络、综合布线,系统的监控告警、故障响应等一大堆繁杂琐碎的工作,充斥着运维人的日常。

与开发和产品相比,运维更像是一个后勤角色,这一行业也长期处于公众视野的暗处。

随着云计算、大数据、人工智能等技术的兴起,运维行业也迎来了新的技术变革。

2016年,Gartner提出智能运维AIOps的概念,旨在使用大数据、机器学习等方法来提升运维能力,其目的是进一步降低自动化运维中人为干扰,最终实现运维无人化、自动化。Gartner预测,到2020年,AIOps的采用率将会达到50%。

六年过去了,AIOps技术发展得如何?

AIOps的实现思路

一种新的工作模式出现,必然会对原来稳定的工作模式进行改变,改变通常会受到新挑战,所以新工作模式需要能解决当前运维工作中遇到的难题而出现。

以金融行业的业务连续性管理为例,目标是提高公司的风险防范能力、有效地减少非计划的业务中断、防范运维操作风险,对于首次出现的未知异常能够利用工具量化分析并快速定位,确保在重大灾难性事件发生后能按计划恢复业务连续性。

在面对当前复杂的技术架构、不断引入的创新技术之下,传统运维团队原来被动救火式、问题驱动式的经验运维,已经很难实现业务连续性的保障目标。

金融企业运行安全稳定,需要运维数据赋予数据洞察、辅助决策、跟踪执行的能力,提升复杂环境下的运维管理能力。

例如:实时获得“发生了什么”?关联分析“为什么会发生”?智能预测“将会发生什么”?决策判断“采取什么措施”?自动执行“如何快速执行”?实时感知“工作执行的效果”?

AIOps就是为了解决上述问题而生,其价值在于通过机器学习来进行运维数据的挖掘,帮助人甚至代替人进行更有效和快速的决策,从而提升业务系统的SLA,减小故障处理的时间等,带来业务的价值,并最终实现真正意义上的无人值守运维。

如Gartner定义中提出,AIOps应用需要利用大数据,现代机器学习技术和其他高级分析技术,是一种相对较高门槛的工作模式。

为了更好地落地AIOps,运维组织需要深刻地理解AIOps的内涵,重点实现思路分为以下几个方面:

以数据为基础
数据为先,AIOps需要快速生产高质量数据的能力。

“快速”的思路可以以“中台”思路进行建设,建立统一的数据采控、实时与批量的数据处理能力、与运维相匹配的运维算法、存储方案、主数据、指标模型等;

“高质量”则从将分散数据统一、在线后形成“活数据”,以及数据质量上的治理。

从技术实现看,具备实时“采、存、算、管、用”的数据流动全生命周期管理的能力。

其中,数据采集是按需在线采集数据的能力;

数据存储是根据数据类型、数据应用特点对数据进行归档、整理、传输、共享;

数据计算包括数据标注、清洗、建模、加工、标准化、质量监控,以及为了获得数据洞察、决策、执行而对数据进行分析统计;

数据管理重点围绕数据治理,包括运维数据标准、主数据、元数据、数据质量、数据安全的管理;

数据使用重点围绕数据服务角度涉及的数据目录、服务门户,以及配套的数据服务化能力。

以算法为支撑
算法大脑,适配、引入特定场景下运维算法,构建算法模型体系。机器学习尤其是深度学习的大规模应用,推动了人工智能的快速发展。

随着国内TO B市场的火爆,AIOps上人工智能研究及应用正处于爆发期,引入AI技术的算法有三点优势:

一是工作稳定性高,人工智能可不知疲倦地进行工作,在规律性问题的分析时不受环境影响。

二是降低操作风险,利用人工智能取代传统人工经验操作,可更好地避免操作风险和道德风险。

三是有效提高决策效率,人工智能可以快速地对大数据进行筛选和分析,帮助人们更高效率地决策。

以场景为导向
场景驱动,以痛点、价值期望切入点,用智能赋能运维场景,落地智能运维能力。

AIOps从词来看,应该包括“AI+Ops”,是用AI赋能运维场景的模式。

有了上面提到的数据底座与算法大脑,下一步是AIOps运维模式的落地,主要将围绕场景的落地:一种是利用算法赋能已有的运维场景,另一种是算法实现原来无法实现的运维场景。

前者是一个快速见效的模式,后者是应对变化而做出的变化。

以知识为扩展
运维知识描述了大量运维领域的相关对象定义、技巧,以及排故/解决经验的信息。

通过构建运维知识图谱,利用自然语义等算法技术,从海量数据中自动挖掘各类运维主体,对其特性进行画像和结构化描述,动态记录运维主体之间的关联关系,可以帮助IT人员实现故障链传播分析、根因定位、智能的变更影响分析、故障预测等多种AIOps场景。

值得注意的是,软件的一些“算法逻辑”不代表真正的AIOps,判断是否是真正AIOps的关键点在于:是否能自动从数据学习中总结规律,并利用规律对当前的环境给予决策建议。

国内AIOps处于起步阶段

AIOps的概念非常美好,应用空间也相当广阔。除了互联网,在金融、物联网、医疗、通信、工业等领域,均表现出对智能运维的强烈需求。

数据显示,2020年中国IT智能运维市场规模为560.8亿元,年复合增速为20.1%,预计未来以15.9%复合增速扩张,2025年市场规模达1093.5亿元,表现出较大的市场潜力。

目前,我国政府部门也陆续出台《推动企业上云实施指南(2018-2020年)》《国家新一代人工智能标准体系建设指南》等一系列政策,推动智能运维领域的发展。

但必须承认的是,我国智能运维还处在起步阶段。

尽管国内运维行业在2016年前后迎来了一波融资热,但目前运维行业整体还比较落后。

一方面,技术有限,在线系统本身具有规模性和复杂性,是需要长期投入的研究领域;另一方面,智能运维需要高质量的标注数据,但运维数据积累明显不足,至少还需积累3-5年。

事实上,产品不落地、善于融资、估值虚高,是一些智能运维公司给业内人留下的印象。

目前国内大部分公司在技术层面的原创力都还不够强,很多都是利用国外的开源代码,有的公司甚至将几个开源产品拼凑在一起,内部之间仍是相互独立、割裂的,没有彼此打通,以至于最后的方案也不怎么好用,需要大量的人力运维支持。

因此,尽管随着技术的发展,运维行业已初步进入自动化、智能化初级阶段,但现阶段运维仍旧是一个“费人”的行业。

为了规范国内智能运维领域的发展,中国信息通信研究院发布了《智能化运维AIOps能力成熟度模型》系列标准。

在此内容基础上,由中国信通院牵头的国内外首个智能运维(AIOps)国际标准在国际电信联盟第十三研究组ITU-T SG13也已成功立项。

在《智能化运维AIOps能力成熟度模型》中,面向智能运维整体能力建设,规定了对IT系统或平台进行智能化运维的参考框架及分级评估方法,提出了关于企业建设智能化运维能力的实施路径,能够指导国内互联网和传统行业在智能运维方向的相关实践落地。

结语

“建立一个可供数百万人每天使用,但只需一名兼职人员管理和维护的系统。”这是吉姆·格雷(Jim Gray)在1999年获得图灵奖时对无故障服务器系统的畅想。如今,随着AIOps的开发,我们比以往任何时候都更接近这一愿景,并有望超越这一愿景。

尽管AIOps仍处于起步阶段,但智能化给运维领域带来效率上的质变已肉眼可见。

这个领域的持续创新将为更多企业带来新的业务价值。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
3月前
|
机器学习/深度学习 人工智能 运维
什么是AIOps智能运维?
AIOps(智能运维)是一种利用人工智能和机器学习技术的软件,用于实时分析和处理业务和运营数据,以提供规范性和预测性答案。它通过收集和汇总大量数据,并使用智能筛选和识别重要事件和模式,帮助团队快速解决问题并避免事件发生。AIOps不依赖于人为指定规则,而是通过机器学习算法自动学习和提炼规则。它可以分析异常告警、故障分析、趋势预测等,并在某些情况下自动解决问题。AIOps的团队包括SRE团队、开发工程师团队和算法工程师团队,他们在AIOps相关工作中扮演不同的角色。
|
运维 Kubernetes 监控
SREWorks 云原生数智运维平台揭秘 | 突破规模化智能运维aiops瓶颈
一套规模化运维的流水线——交付、监测、管理、控制、运营、服务。
|
运维
《AIOps在业务运维的最佳应用实践》电子版地址
AIOps在业务运维的最佳应用实践
106 0
《AIOps在业务运维的最佳应用实践》电子版地址
|
人工智能 运维 Prometheus
鼎茂科技和阿里云完成产品集成认证,深度发力云上智能运维建设
近日,鼎茂科技旗下智能运维AIOps平台与阿里云旗下可观测套件ACOS产品,经过严格测试程序,完成了产品集成认证,这是继阿里云云原生加速器生态合作后,双方在云上智能运维领域的深度产品化合作。
195 0
鼎茂科技和阿里云完成产品集成认证,深度发力云上智能运维建设
|
人工智能 运维 监控
|
机器学习/深度学习 人工智能 运维
如何通过AI 全面提升运维效率?选型宝分享AIOps实战案例
前言 运维,是企业IT最基础的工作,也是痛点、槽点最多的工作。海量的数据、频繁的报警、艰难的排障、无情的投诉,足以让运维工程师们感到崩溃和绝望…… Gartner在ITOA (IT Operations Analytics IT运营分析)的基础上,提出了AIOps的概念。
2308 0
|
运维 监控 安全
稳定服务超百万家庭 觅睿科技使用IoT平台大幅降低运维成本
稳定服务超百万家庭 觅睿科技使用IoT平台大幅降低运维成本
212 0
稳定服务超百万家庭 觅睿科技使用IoT平台大幅降低运维成本
|
机器学习/深度学习 人工智能 运维
2022 年智能运维(AIOps)的发展趋势
人类无法跟上技术进步的步伐,但人工智能的智能应用可以让企业处理大数据、新的网络安全需求,并简化不断增长的架构。
2022 年智能运维(AIOps)的发展趋势
|
机器学习/深度学习 人工智能 运维
强化企业 IT 运维的五大 AIOps 策略
在现代化的企业中工作,我们希望 AIOps(中文资料中也称为“智能运维”——译者注)能强化 IT 运维,使企业在提高性能的同时降低成本、预防 IT 事故并提高业务的敏捷性。但在市场上存在着多种差异化的 AIOps 产品,我们如何能确保所选路线的正确性?一旦决定采用 AIOps,应如何最大化地发挥其作用?
476 0
强化企业 IT 运维的五大 AIOps 策略