如何通过AI 全面提升运维效率?选型宝分享AIOps实战案例

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
日志服务 SLS,月写入数据量 50GB 1个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 前言运维,是企业IT最基础的工作,也是痛点、槽点最多的工作。海量的数据、频繁的报警、艰难的排障、无情的投诉,足以让运维工程师们感到崩溃和绝望……Gartner在ITOA (IT Operations Analytics IT运营分析)的基础上,提出了AIOps的概念。

前言

运维,是企业IT最基础的工作,也是痛点、槽点最多的工作。海量的数据、频繁的报警、艰难的排障、无情的投诉,足以让运维工程师们感到崩溃和绝望……

Gartner在ITOA (IT Operations Analytics IT运营分析)的基础上,提出了AIOps的概念。当时,AIOps的含义是“基于算法的IT运维(Algorithmic IT Operations)”。随着AI热潮的到来,Gartner也顺时应势,在2017年的一份报告中,将AIOps重新定义为“Artificial Intelligence for IT Operations”,也就是现在大家都在谈论的“智能运维”。

AIOps概念的提出,是尝试把机器学习、深度学习等人工智能算法应用于IT运维工具和业务系统所采集的大型数据集,并尝试模拟人类行为(如发现、判断、响应)的智能化运维管理平台。

AIOps希望让运维管理具备算法和机器学习的能力,通过持续学习,使运维更加智能化,并将运维人员从纷繁复杂的日常工作中解放出来。

两年多过去了,AIOps到底是依然停留在理念和愿景层面,还是变成了可以落地实施的解决方案?

带着这些问题,选型宝直播采访了国内AIOps技术前沿探索者,Gartner AIOps Sample Vendors——云智慧的副总裁李诚先生。

以下就是李诚先生在直播节目中为大家分享的部分精彩内容,希望能对您有所启发和帮助。

1
AIOps的概念、应用场景和用户价值

李维良:AIOps可以应用在哪些运维的场景下?

李诚:AIOps的应用场景非常广泛,能够切中传统运维中的大量痛点,比如:异常检测、故障预测、关联分析、根因分析、告警抑制、故障自动处理等等。

李维良:云智慧怎么理解AIOps的概念?

李诚:在云智慧的理念中,IT即是业务,因此,我们将AIOps理解为“智能业务运维”,并在2016年发布了智能业务运维平台DOCP(Digital Operation Central Platform)。DOCP包含了大数据运维、业务运维、智能运维等解决方案,旨在帮助用户全面提升IT运营效率,强化IT的业务价值。云智慧的智能业务运维将Gartner的AIOps理念与中国的IT运维实践相结合,更加场景化,更接地气。

李维良:过去两年里,云智慧的AIOps的方案应用在哪些行业?带来了哪些价值?

李诚:在过去的两年里,云智慧智能业务运维解决方案已经在银行、保险、证券、航空、医药、制造、消费品等多个领域的大型企业的业务场景中成功落地。

智能业务运维解决方案通过运维的自动化、智能化和IT团队赋能,大幅提升了运维工作的效率。同时,智能业务运维使运维的方式更加科学,减少了对个人经验的过度依赖,克服了人工运维的不稳定性,从而大幅提高了运维工作的质量。智能业务运维可以将运维人员从巨量、繁琐、重复性的劳动中解放出来,使他们能够将更多的精力投入到IT和业务的创新中。

鉴于云智慧在AIOps领域的贡献和努力,Gartner在新近发布的《中国ICT行业技术成熟度曲线,2018》报告中,将云智慧提名为AIOps领域的Sample Vendors。

2
AIOps实战案例分享

李维良:是否可以结合一些行业案例,做一些具体的阐述?

李诚:
应用场景1:异常监测

我们的一家做航空行业的客户,在业务开展过程中,每天600个业务应用系统(包括售票系统、退票系统、进仓系统、订单查询系统等)产生海量日志数据(2个小时产生7TB/10亿条的增量数据)。用户希望能够对海量数据进行实时分析,及时发现业务波动并进行预警。这家客户的需求,具有数据量大、指标复杂度高、实时性要求高(1分钟之内完成数据的采集、分析、呈现)等特点。

云智慧从2016年开始服务这家客户,并为其建立了业务运营实时监控分析平台,实现了业务异常预警、业务基线预警、运营监控分析、日志实时查询等目标。

通过分布式大数据处理、内存计算等技术,我们为该用户实现了10万条/秒的并发数据实时分析处理和秒级告警处理。通过深度学习、时序预测等算法的应用,使预测的准确率得到大幅提升,预测结果与实际情况的偏差仅有3%。

应用场景2 :关联分析

我们的一家金融行业客户是数字化步伐比较快的大型金融机构,在国内拥有3个数据中心,600个业务应用系统,上万台物理设备,系统彼此之间调用关系复杂,并且部分核心业务之间具有强依赖关系。

这些应用系统每天产生海量日志数据和告警信息,对日志报文数据的处理分析时效性差,效率低,IT的整体运维效率已经成为制约企业数字化发展的障碍。

针对这家企业的情况,云智慧基于过去多年在监控宝、透视宝、压测宝等产品上积累的技术和经验,为其建立起了业务与IT的统一视图,厘清了各类指标数据、日志数据和事件数据的内在关联关系,并进行了统一的建模和分析。

在此基础上,云智慧的智能业务运维平台为这家客户实现了关键业务指标和体验指标的预测和异常检测,提升了业务运营和IT管理效率,初步实现了IT运营的数字化和智能化。

金融管控中心大屏效果展示

应用场景3 :智能告警

当IT故障发生时,多个系统会同时发出告警,这为运维人员带来巨大的困扰,使故障处理的效率大幅降低,这种现象就是“告警风暴”。告警风暴是IT运维中的常见场景,也是AIOps的典型应用之一。

我们的一家药企客户,现有近10个面向各类客户的线上产品和办公系统,随着业务的快速发展,他们在全国范围内建设了3个数据中心,拥有上万台物理设备。系统彼此之间调用关系复杂,并且部分核心业务之间具有强依赖关系。

运维团队每天会接收近万条的故障告警通知消息,人均接收量在100-200条,并且漏报、错报情况频发。故障发生时,需要各部门协调才能定位解决问题,平均解决时间需要1个小时以上。用户目前有5套监控系统,并且每个系统会独立的产生告警通知,当出现大规模故障时,运维人员会同时收到来自各个系统的大量告警通知,对正常的工作造成了极大困扰。

针对这家企业的情况,我们为其部署了智能告警平台,利用 restAPI 、agnet 采集等方式,对接各个监控系统,将各个系统的告警消息通过智能告警平台进行统一汇聚和整合,让运维人员可以在一个平台处理所有故障。

智能告警平台正式部署后,我们成功将告警量压缩了93%,即每100条报警数据,可以压缩到7条。同时,系统还可以对报警信息进行科学分类,并及时发送给正确的人。

智能告警平台大幅缩短了整个运维团队的平均响应时间(MTTA),从过去的平均25分23秒降低到了4分16秒。通过动态基线等技术,可以将错报、漏报率分别从22.4%降低到了8.5%;9.3%降低到了3.8%。

在此基础上,我们最近还为用户实现了“故障预测”功能,帮助用户提前了解可能发生的IT问题,最大限度降低IT故障对业务的影响。

3
部署方式与落地方法论

李维良:AIOps落地,需要怎样的方法?

李诚:
智能运维的落地也不是一蹴而就的,它需要经历三个阶段:

第一阶段是大数据运维,构建统一监控平台,实现IT资源的统一管控。利用大数据的手段,采集、分析基础设施、网络、日志等IT监控数据,通过海量IT数据的实时处理分析,消除数据孤岛,实现统一的告警,提升运维管理效率。

第二阶段是业务运维,全面提升用户体验和业务系统健康,实现业务和IT的双向驱动。用户体验和业务效能是数字化业务的两大核心指标,通过IT和业务双向驱动的业务运维,能够帮助企业发现IT故障对业务造成的影响有多大、IT如何更好地支撑业务转型、如何最大程度地降低业务损失。

第三阶段是智能运维,构建智能化的IT运营管控体系,持续提升业务价值。通过智能告警、异常监测、根因分析、自动处置、故障预测,极大提升IT运维效率、保障业务连续、减少业务损失。

这其中,大数据平台是基础,是整个智能业务运维体系的基座。企业用户可先打好大数据基础、并在此之上,逐步增加应用模块,采用积累经验、小步快跑的方式,让AIOps在自己的企业成功落地。

李维良:云智慧智能业务运维平台支持怎样的部署方式?

李诚:云智慧智能业务运维平台采用混合云架构,支持本地私有化部署和基于公有云的SaaS部署。做为国内第一家实现AIOps跨行业场景化应用的业务运维解决方案提供商,云智慧可以为用户提供从大数据平台,到智能运维模块、再到专家与实施的全方位服务,满足企业的基础需求和个性化需求,促进企业数字化业务的发展。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
12天前
|
机器学习/深度学习 人工智能 物联网
AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营
12月14日,由中国软件行业校园招聘与实习公共服务平台携手魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行AIGC项目实战营·湖南大学站圆满结营。
AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营
|
3天前
|
机器学习/深度学习 人工智能 资源调度
基于AI的运维资源调度:效率与智能的双重提升
基于AI的运维资源调度:效率与智能的双重提升
34 16
基于AI的运维资源调度:效率与智能的双重提升
|
5天前
|
人工智能 运维 Kubernetes
阿里云容器服务AI助手2.0 - 新一代容器智能运维能力
2024年11月,阿里云容器服务团队进一步深度融合现有运维可观测体系,在场景上覆盖了K8s用户的全生命周期,正式推出升级版AI助手2.0,旨在更好地为用户使用和运维K8S保驾护航。
|
1天前
|
人工智能 运维 监控
AI辅助的运维流程自动化:实现智能化管理的新篇章
AI辅助的运维流程自动化:实现智能化管理的新篇章
36 22
|
29天前
|
机器学习/深度学习 人工智能 JSON
【实战干货】AI大模型工程应用于车联网场景的实战总结
本文介绍了图像生成技术在AIGC领域的发展历程、关键技术和当前趋势,以及这些技术如何应用于新能源汽车行业的车联网服务中。
367 34
|
5天前
|
人工智能 自然语言处理 前端开发
三大行业案例:AI大模型+Agent实践全景
本文将从AI Agent和大模型的发展背景切入,结合51Talk、哈啰出行以及B站三个各具特色的行业案例,带你一窥事件驱动架构、RAG技术、人机协作流程,以及一整套行之有效的实操方法。具体包含内容有:51Talk如何让智能客服“主动进攻”,带来约课率、出席率双提升;哈啰出行如何由Copilot模式升级为Agent模式,并应用到客服、营销策略生成等多个业务场景;B站又是如何借力大模型与RAG方法,引爆了平台的高效内容检索和强互动用户体验。
78 5
|
13天前
|
数据采集 机器学习/深度学习 人工智能
基于AI的网络流量分析:构建智能化运维体系
基于AI的网络流量分析:构建智能化运维体系
84 13
|
26天前
|
人工智能 自然语言处理 算法
AI时代的企业内训全景图:从案例到实战
作为一名扎根在HR培训领域多年的“老兵”,我越来越清晰地感受到,企业内训的本质其实是为企业持续“造血”。无论是基础岗的新人培训、技能岗的操作规范培训,还是面向技术中坚力量的高阶技术研讨,抑或是管理层的战略思维提升课,内训的价值都是在帮助企业内部提升能力水平,进而提高组织生产力,减少对外部资源的依赖。更为重要的是,在当前AI、大模型、Embodied Intelligence等新兴技术快速迭代的背景下,企业必须不断为人才升级赋能,才能在市场竞争中保持领先。
|
26天前
|
数据采集 人工智能 运维
AI辅助的系统监控和预测:新时代的运维利器
AI辅助的系统监控和预测:新时代的运维利器
51 9
|
30天前
|
人工智能 运维 自然语言处理
智能化运维:AI在IT运维领域的深度应用与实践####
本文探讨了人工智能(AI)技术在IT运维领域的深度融合与实践应用,通过分析AI驱动的自动化监控、故障预测与诊断、容量规划及智能决策支持等关键方面,揭示了AI如何赋能IT运维,提升效率、降低成本并增强系统稳定性。文章旨在为读者提供一个关于AI在现代IT运维中应用的全面视角,展示其实际价值与未来发展趋势。 ####
169 4