让AIOps把你从繁复耗时的基础运维中解放出来

简介: 云智慧科技有限公司杨路在2018云栖大会上海峰会中做了题为AIOps在业务运维的最佳应用实践的分享,从云智慧与AIOps结缘开始介绍,再到云智慧AIOps的最佳实践以及AIOps更大的价值三大方面的内容分别做了深入的分析,带你了解AIOps是如何把CIO和IT部门从繁复耗时容易出错的基础运维工作中解放出来的。

云智慧科技有限公司杨路在2018云栖大会上海峰会中做了题为AIOps在业务运维的最佳应用实践的分享,从云智慧与AIOps结缘开始介绍,再到云智慧AIOps的最佳实践以及AIOps更大的价值三大方面的内容分别做了深入的分析,带你了解AIOps是如何把CIO和IT部门从繁复耗时容易出错的基础运维工作中解放出来的。
数十款阿里云产品限时折扣中,赶快点击这里,领券开始云上实践吧!
直播视频回顾
PPT下载请点击
以下是精彩视频内容整理:

云智慧与AIOps结缘

2009年云智慧成立,在2010年互联网站迅速增长,自2013以后数字化转型这个字眼逐渐深入人心,企业越来越重视终端用户体验的认知度,这推动了APM等一类产品的发展。2015互联网+的提出使得运维体系的革新发生了巨大的变化。2017年云智慧开始进入了不同的行业,包括金融、房地产和制造业等300多家企业的管理层,消费者已经踏入数字化的时代,但是整个中国的企业却要慢一拍。
对于如何使企业能够快速享受互联网所带来的优势问题,云智慧提出了三个优化方向,首先要提升IT基础架构运营能力,基于大数据分析的思路在IT领域运用大数据技术,更加科学高效的对基础架构进行监控、问题发现、告警与处置。其次优化用户体验及业务运营能力,基于大数据技术对用户体验进行全面分析,不断优化用户端到端的用户体验及业务运营能力。最后提升智能化运营能力,通过大数据和人工智能最新技术实现更加智慧与高效的企业运营,为社会与企业创造更多的价值。

云智慧AIOps最佳实践

9

在大数据运维阶段必须部署大数据核心平台,以支持IT、网络以及私有云等数据的接入,并建立IT 基础设施监控及大屏、网络监控及大屏和私有云平台可视化大屏,并且部署统一告警平台,落地大数据运维基础分析。
业务运维阶段需要采集用户端以及后端性能的数据,应用拓扑实时大屏、真实用户体验监控及大屏和浏览器用户体验及大屏,进行端到端应用性能的深入分析,同时也需要建立企业业务管理驾驶舱,以便进行业务到应用到 IT 系统的关联分析。
智能运维阶段需要部署机器学习平台和深度学习平台,以便更好地进行IT资源规划的预测、用户体验与用户留存的预测以及应用健康对业务影响的预测等。

11

整个云智慧架构主要分为三部分:

  1. 大数据采集部分:构建一套针对硬件设施、网络、主机系统、关键业务监控、分析、日志抓取以及属性收集的大数据采集平台,使其能够快速采集和展现监控对象的基本信息及运行状态,可全面、准确评估各类硬件、网络、主机系统和关键业务的健康度水平。
  2. 大数据管理部分:建立标准的大数据抽取、管理和建模平台,通过配套各种大数据处理工具,选取相关角色所需的信息,处理策略和操控动作,自由组合各类接口、大数据、功能模块和处理流程,形成针对该大数据应用场景的定制化工作平台,对大数据进行加工和处理。同时不断沉淀大数据,形成大数据运维管理仓库,提供丰富大数据管理工具、插件,为大数据的进一步应用提供支撑。
  3. 大数据应用部分:从海量的沉淀大数据中,通过成熟的大数据分析模型和智能化算法,为相关人员提供重要决策大数据依据,从“决策”、“管理”、“执行”三个视角对“网络”、“数据中心”、“应用”、“安全”、“运维”五个维度进行大数据建模、计算和结果展现,最终实现多维度大数据组合分析、辅助决策的大数据运维管理能力。
    在整个IT发展的过程中,可以发现服务器规模在加速增长,业务场景也变得更加多样化。另外在从离散海量数据中找到故障根本原因时所使用的工具也越来越丰富,例如基础设施与服务采用的是开源的Zabbix监控,网络监控使用的是Solarwinds软件,应用性能管理采用Dyantrace,部分业务和性能使用日志的手段进行监控等。这些工具都可以在一定程度上帮助运维人员进行分析,但是由于这些软件之间是相互割裂的,怎样才能将业务的变化与IT系统关联起来是往后的一个研究方向。

案例分析

12

某药品制造企业IT部门不仅负责传统意义上的运维系统,并且包括了多项运营管理职责。例如门禁系统、考评系统、上网行为管理、基础设备规划、产线监控系统等。因此如何快速的聚合多系统数据,并且进一步挖掘其中的价值非常迫切。在平台搭建完成后,在日常运维或使用过程中,由于不可能单独划分出人力资源对该平台进行区别维护,因此系统的易用性和可操作性对于该企业尤为重要。对于多样的应用场景,该企业也需要能够有更多的业界经验进行借鉴,特别是制造业对IT运维、运营、安全场景的优秀案例。所以可以利用云智慧来帮助运维人员快速发现问题,提高运维效率,帮助管理人员对业务进行高效管理和科学决策。

智能运维

13

告警是运维人员与系统交流的途径,运维人员每天有50%工作内容中,仅有50%在计划内。 随着越来越多的企业上云,运维工作范围也在急速扩大。故障原因日趋复杂,仅凭已有经验进行处理已然不可行,部分故障是已知问题,但因为牵涉面广暂时不做解决,需要周期性的进行重复处理。

动态告警基线

14

传统的固定告警基线有很多缺陷,例如反复触发、恢复会产生大量告警,并且反复触发的告警也会掩盖真实情况。动态告警基线是根据历史数据统计值生成的,除自动生成外,也可人为创建、修改。
对于AI来说应用于整个运维会有一些价值,首先更加主动地将系统数据进行采集,实时感知真实用户性能体验,借助机器学习能够进行故障预测,采用更加丰富多样的告警通知方式。从关联性角度来讲,更高效的找到问题根因,通过时序或逻辑,找到多个现象互相影响的关系将告警进行关联后,减少人为筛选无用或重复信息的成本。从业务视角切入,更直接的支持业务提升,通过大数据技术,打通多个业务之间的数据孤岛更好体现IT部门在公司中的价值。API多种呈现的方式灵活多样,不仅有大屏、报表、报告,还有大数据技术,使得实时数据呈现成为可能,并且在同面积视野中,能够呈现更多维度的信息。

AIOps更大的价值

如果在IT基础架构运营、优化用户体验及业务运营以及实现智能化运营三个方面的能力都得到提升的情况下,是否还有更多的事情需要做?针对这个问题,可以从以下几个方面来进行更深入的思考:

  • 跨系统:能够将多系统的数据进行统一的汇总,在相应模型的梳理下,将原本孤立的数据孤岛进行连接。
  • 高效率:不再割裂的看到故障现象,能够快速的在多个表象中,理清因果关系,并将根因快速的挖掘出来。
  • 高精准:最大程度的避免人为判断时引入的干扰因素,使得分析结果的可行度大大提升。也随着故障处理次数的积累,可以给出相应的处理意见。
  • 面向业务:从最终也是最重要的业务角度入手,自影响业务的结果入手,不断拓展需要考虑的影响因素。在此基础上,才能真正发现业务与运维数据之间的关联性。
相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
机器学习/深度学习 运维 监控
智能化运维:从自动化到AIOps的演进之路####
本文深入探讨了IT运维领域如何由传统手工操作逐步迈向高度自动化,并进一步向智能化运维(AIOps)转型的过程。不同于常规摘要仅概述内容要点,本摘要将直接引入一个核心观点:随着云计算、大数据及人工智能技术的飞速发展,智能化运维已成为提升企业IT系统稳定性与效率的关键驱动力。文章详细阐述了自动化工具的应用现状、面临的挑战以及AIOps如何通过预测性分析和智能决策支持,实现运维工作的质变,引领读者思考未来运维模式的发展趋势。 ####
|
人工智能 运维 自然语言处理
对话蚂蚁开源蒋炜:让 Agent 把运维人员从 24 小时的待命中解放出来
当整个行业的智慧都集中在一件事情上时,比起闭门造车,开源一定能带来更好的技术迭代和发展。CodeFuse 「编码挑战季」活动火热进行中,诚邀广大开发者们参与编码挑战
897 3
对话蚂蚁开源蒋炜:让 Agent 把运维人员从 24 小时的待命中解放出来
|
机器学习/深度学习 数据采集 人工智能
智能化运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的崛起背景,深入分析了其核心概念、关键技术、应用场景及面临的挑战,并对比了传统IT运维模式,揭示了AIOps如何引领运维管理向更高效、智能的方向迈进。通过实际案例分析,展示了AIOps在不同行业中的应用成效,为读者提供了对未来智能运维趋势的洞察与思考。 ####
1133 1
|
机器学习/深度学习 数据采集 人工智能
运维新纪元:AIOps引领智能运维变革####
本文探讨了人工智能与运维管理深度融合的前沿趋势——AIOps(Artificial Intelligence for Operations),它通过机器学习、大数据分析等技术手段,为现代IT运维体系带来前所未有的智能化升级。不同于传统依赖人力的运维模式,AIOps能够实现故障预测、自动化修复、性能优化等功能,大幅提升系统稳定性和运营效率。文章将深入分析AIOps的核心价值、关键技术组件、实施路径以及面临的挑战,旨在为读者揭示这一新兴领域如何重塑运维行业的未来。 ####
|
机器学习/深度学习 人工智能 运维
智能运维:AIOps在大型系统运维中的实践与挑战
【10月更文挑战第28天】随着云计算、大数据和人工智能的发展,AIOps(人工智能运维)应运而生,旨在通过算法和机器学习提高运维效率和质量。本文探讨了AIOps在大型系统运维中的实践与挑战,包括数据质量、模型选择和团队协作等方面,并通过一个异常检测案例展示了其应用。尽管面临挑战,AIOps仍有望成为未来运维的重要方向。
718 5
|
机器学习/深度学习 人工智能 运维
智能化运维:从传统到AIOps的转型之路####
本文探讨了智能化运维(AIOps)的兴起背景、核心价值及其对现代IT运维模式的深刻影响。通过分析传统运维面临的挑战,阐述了AIOps如何利用大数据、机器学习技术实现故障预测、自动化处理与决策支持,进而提升运维效率和服务质量。文章还概述了实施AIOps的关键步骤与面临的主要挑战,为组织向智能化运维转型提供参考路径。 ####
|
机器学习/深度学习 运维 监控
智能运维未来:AIOps在预测性维护与故障排查中的潜力
【10月更文挑战第26天】随着数字化转型的深入,企业对IT系统的依赖日益增加。传统的运维方式已无法满足需求,智能运维(AIOps)应运而生。AIOps通过集成和分析多源数据,利用机器学习算法实现系统状态的实时监控和预测性维护,显著提升了运维效率和质量。 示例代码展示了如何使用Python和scikit-learn实现故障预测模型,进一步说明了AIOps的应用价值。
814 5
|
机器学习/深度学习 人工智能 运维
利用AIOps实现智能运维:提升IT运维的新策略
在数字化迅速发展的今天,传统IT运维已难以应对日益复杂的系统。AIOps通过融合AI、机器学习和大数据技术,革新了IT运维方式。其核心优势包括预测性维护、自动化处理、智能分析和资源优化。AIOps平台能自动检测、诊断并解决IT问题,显著提升运维效率。尽管面临数据质量、模型准确性和技术复杂性等挑战,但AIOps正逐步成为智能运维的重要趋势。
|
机器学习/深度学习 边缘计算 运维
智能化运维的演进之路:从脚本工具到AIOps
在数字化浪潮下,企业运维管理正经历一场深刻的变革。本文将探索智能化运维的发展脉络,从最初的脚本工具应用到当下的AIOps实践,揭示这一过程中的关键技术进步和理念更新。我们将通过具体案例,展示如何利用大数据、机器学习等技术提升运维效率,降低人力成本,并预测未来运维领域的发展趋势。

热门文章

最新文章