阿里巴巴发布智能运维故障管理AI+生态计划

简介: 为响应马老师“家国情怀,世界担当”的号召,开放“AI+”生态计划,将让集团内部服务过程中积累下的技术与经验更好地回馈社会,任何企业或合作伙伴均可以简单方便的接入阿里巴巴智能故障管理平台,通过对接入数据的训练学习实时提供异常检测、关联分析、根因定位的能力,使原有的IT管理模型瞬间实现低成本的智能化升级,为IT同行们更便捷的提升工作效率、降低人力成本尽一份绵薄之力。

0602ced832a29b0b1d65278b30108df76a1b4d39

       6月7日,2018云栖大会·上海峰会在上海世博中心举行。本次大会以“驱动数字中国”为主题,聚焦人工智能、金融、零售、IoT等行业,聚焦产业生态新发展,展现产业链上下游新应用,推动云端新融合,降低行业企业信息化成本,助力上海经济新发展。大会全面展现数字化魅力,如何利用“数字”带动企业转型、促进业态发展、创造产业新动能,激发数字经济新引擎。

  对于当前IT运维圈子里最火爆的AIOps概念,本次大会也设立了主题分会场,共同探讨人工智能在IT运维领域的应用与实践。

 

开放“AI+”生态计划,回馈社会


  阿里巴巴全球运行指挥中心(GOC)掌门人沈乘黄首先分享了“智能运维在阿里巴巴线上故障管理领域的应用经验”。沈乘黄站在集团业务连续性保障的角度,讲述了GOC团队如何通过机器学习应对每秒数千万数据的处理,把握阿里每一项业务的运行状况,实现对近百个技术团队、数万名研发人员的应急信息实时互联,让一切线上问题无所遁形,让所有阿里技术团队令行禁止。

3510fc1524f5b5c5d0902477a59e8425057b747c

  同时,沈乘黄正式宣布,为响应马老师“家国情怀,世界担当”的号召,开放“AI+”生态计划,将让集团内部服务过程中积累下的技术与经验更好地回馈社会,任何企业或合作伙伴均可以简单方便的接入阿里巴巴智能故障管理平台,通过对接入数据的训练学习实时提供异常检测、关联分析、根因定位的能力,使原有的IT管理模型瞬间实现低成本的智能化升级,为IT同行们更便捷的提升工作效率、降低人力成本尽一份绵薄之力。

 

智能算法,为业务稳定连续运行保驾护航


阿里巴巴高级技术专家王肇刚由浅入深分享了“全球运行指挥中心(GOC)团队提供的智能算法模块的技术实现与应用心得”,讲述了如何在复杂的业务场景下迅速发现异常事件,并从千万个指标中寻找关联事件,最终确定异常事件的根源,并通过应急、通知、恢复、复盘、演练等一系列动作完成故障管理的闭环,最终确保业务稳定连续的运行。

12deb0dfd6375cc457cfb7e101f4f15034a912dc


ffee68933aa85960c4ece392af0227a067c517a5


4b2b28d102f12f1d6c83709e8e7962fb1c6a18e9



单指标多维下钻分析

当业务指标总量异常出现时,准确地智能定位到出现异常的分量或分量组合。

 

7092f6c6507ce7574b5a52ec54d8e1aa400a09d6

多指标相关性分析

        当指标异常时,动态发现有相似下跌形态的相关指标,为原因定位提供重要线索。
        通过离线分析,发现业务报警之间的关联规则,当单业务异常时能够对其它业务进行提前预警。

b43156c99b6a6a9b58bac2b2361c640fc4f62342

可疑应用/事件分析

       自动基于运维数据仓库进行相关应用/事件检索,锁定怀疑范围。

       自动根据指标异常和事件相关性进行推荐排序,筛掉无关事件。

7cba829d2e09e8f8c4ae32f042678984588379bc

 

开放合作,为用户带来更多价值


      大会所在的世博中心曾经是上海世博会的会议中心,秉承着平等开放、合作共赢的理念向全世界展示了中国的新面貌,本次云栖大会也正传承了开放合作的理念,首批“AI+”生态合作伙伴涵盖了网络分析、应用交付、云计算服务、日志分析、业务运维等不同领域。


其中成都科来软件有限公司技术副总裁龙成、深信服科技股份有限公司研发部总经理邱亮、上海驻云信息科技有限公司执行总监李俊涛、北京优特捷信息技术有限公司(日志易)技术总监饶琛琳、云智慧(北京)科技有限公司高级技术顾问杨路分别在其各自领域就智能运维的落地实践,以及与阿里巴巴智能故障管理平台结合后为客户带来的价值提升做了分享,让企业在智能化升级的过程中有更多的方案选择。

bf4abd5e911f3507609937c88ef8dc336d5a02ac


      分会场上技术专家的精彩演讲,得到了广泛好评,智能运维等词成为会场热议话题。不少参加会议的专家和观众表示,演讲很有收获,从技术和应用的层面对AI在运维领域的应用与实践有了更多更深的了解,也希望未来能够了解更多智能运维领域的技术和发展。 

 

了解更多AIOps故障管理解决方案,欢迎访问阿里云AIOps解决方案:

https://www.aliyun.com/solution/aiops

目录
相关文章
|
3月前
|
缓存 运维 监控
运维之道:从故障响应到系统优化的实战之旅
在信息技术飞速发展的今天,高效、可靠的系统运维已成为企业IT部门的核心任务。本文将通过一系列真实案例分析,深入探讨运维团队如何从日常的故障响应出发,逐步过渡到系统性能的深度优化。我们将一起探索运维的最佳实践,包括自动化工具的应用、性能监控的重要性以及如何构建一个弹性和高可用性的系统架构。文章旨在为读者提供一套完整的运维解决方案,帮助他们在面对复杂多变的技术环境时,能够迅速定位问题并实施有效的解决策略。
215 0
|
2天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维:AI在IT运维中的应用探索###
随着信息技术的飞速发展,传统的IT运维模式正面临着前所未有的挑战。本文旨在探讨人工智能(AI)技术如何赋能IT运维,通过智能化手段提升运维效率、降低故障率,并为企业带来更加稳定高效的服务体验。我们将从AI运维的概念入手,深入分析其在故障预测、异常检测、自动化处理等方面的应用实践,以及面临的挑战与未来发展趋势。 ###
|
16天前
|
机器学习/深度学习 数据采集 运维
智能化运维:机器学习在故障预测和自动化响应中的应用
【10月更文挑战第1天】智能化运维:机器学习在故障预测和自动化响应中的应用
47 3
|
1月前
|
机器学习/深度学习 人工智能 运维
|
1月前
|
存储 弹性计算 运维
自动化监控和响应ECS系统事件
阿里云提供的ECS系统事件用于记录云资源信息,如实例启停、到期通知等。为实现自动化运维,如故障处理与动态调度,可使用云助手插件`ecs-tool-event`。该插件定时获取并转化ECS事件为日志存储,便于监控与响应,无需额外开发,适用于大规模集群管理。详情及示例可见链接文档。
|
28天前
|
人工智能 数据中心
使用光模块Breakout功能减少AI训练中断故障
本文介绍了使用大成鹏通信光模块Breakout功能可以减少AI训练中断故障的问题。通过Breakout功能,单通道故障不会中断其他通道的数据转发,有效解决了传统光模块因单通道故障导致的训练中断问题。同时,还介绍了如何利用Breakout功能进行更灵活的AI基础网络组网。
|
1月前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI技术在IT管理中的创新应用
本文将探讨如何运用人工智能技术优化IT运维流程,提升效率并减少人为错误。我们将从智能监控、自动化响应到预测性维护等方面,分析AI在现代IT运维中的角色和价值。文章旨在为读者提供一种全新的视角,理解AI技术如何成为IT部门的强大盟友,并指出实施这些技术时可能遇到的挑战及应对策略。
|
2月前
|
机器学习/深度学习 数据采集 人工智能
智能化运维的崛起:AI在IT管理中的应用与挑战
【8月更文挑战第26天】 随着科技的不断进步,人工智能(AI)正逐步渗透到我们的工作和生活中。在IT运维领域,AI技术的引入不仅极大地提高了效率和准确性,还为传统的运维模式带来了颠覆性的变革。本文将探讨AI在IT运维中的应用实例、面临的挑战以及未来的发展方向,旨在为读者提供对智能化运维趋势的深入理解。
78 7
|
2月前
|
机器学习/深度学习 数据采集 人工智能
智能运维:AI在IT管理中的应用与挑战
当AI遇上IT运维,一场智能化的革命悄然开启。本文将带你一探究竟,看看AI如何改变着IT运维的面貌,提升效率的同时带来哪些前所未有的挑战。从自动化故障检测到预测性维护,再到安全防护的升级,我们将一步步揭开智能运维的神秘面纱。
57 4