让AIOps把你从繁复耗时的基础运维中解放出来

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 云智慧科技有限公司杨路在2018云栖大会上海峰会中做了题为AIOps在业务运维的最佳应用实践的分享,从云智慧与AIOps结缘开始介绍,再到云智慧AIOps的最佳实践以及AIOps更大的价值三大方面的内容分别做了深入的分析,带你了解AIOps是如何把CIO和IT部门从繁复耗时容易出错的基础运维工作中解放出来的。

云智慧科技有限公司杨路在2018云栖大会上海峰会中做了题为AIOps在业务运维的最佳应用实践的分享,从云智慧与AIOps结缘开始介绍,再到云智慧AIOps的最佳实践以及AIOps更大的价值三大方面的内容分别做了深入的分析,带你了解AIOps是如何把CIO和IT部门从繁复耗时容易出错的基础运维工作中解放出来的。
数十款阿里云产品限时折扣中,赶快点击这里,领券开始云上实践吧!
直播视频回顾
PPT下载请点击
以下是精彩视频内容整理:

云智慧与AIOps结缘

2009年云智慧成立,在2010年互联网站迅速增长,自2013以后数字化转型这个字眼逐渐深入人心,企业越来越重视终端用户体验的认知度,这推动了APM等一类产品的发展。2015互联网+的提出使得运维体系的革新发生了巨大的变化。2017年云智慧开始进入了不同的行业,包括金融、房地产和制造业等300多家企业的管理层,消费者已经踏入数字化的时代,但是整个中国的企业却要慢一拍。
对于如何使企业能够快速享受互联网所带来的优势问题,云智慧提出了三个优化方向,首先要提升IT基础架构运营能力,基于大数据分析的思路在IT领域运用大数据技术,更加科学高效的对基础架构进行监控、问题发现、告警与处置。其次优化用户体验及业务运营能力,基于大数据技术对用户体验进行全面分析,不断优化用户端到端的用户体验及业务运营能力。最后提升智能化运营能力,通过大数据和人工智能最新技术实现更加智慧与高效的企业运营,为社会与企业创造更多的价值。

云智慧AIOps最佳实践

9

在大数据运维阶段必须部署大数据核心平台,以支持IT、网络以及私有云等数据的接入,并建立IT 基础设施监控及大屏、网络监控及大屏和私有云平台可视化大屏,并且部署统一告警平台,落地大数据运维基础分析。
业务运维阶段需要采集用户端以及后端性能的数据,应用拓扑实时大屏、真实用户体验监控及大屏和浏览器用户体验及大屏,进行端到端应用性能的深入分析,同时也需要建立企业业务管理驾驶舱,以便进行业务到应用到 IT 系统的关联分析。
智能运维阶段需要部署机器学习平台和深度学习平台,以便更好地进行IT资源规划的预测、用户体验与用户留存的预测以及应用健康对业务影响的预测等。

11

整个云智慧架构主要分为三部分:

  1. 大数据采集部分:构建一套针对硬件设施、网络、主机系统、关键业务监控、分析、日志抓取以及属性收集的大数据采集平台,使其能够快速采集和展现监控对象的基本信息及运行状态,可全面、准确评估各类硬件、网络、主机系统和关键业务的健康度水平。
  2. 大数据管理部分:建立标准的大数据抽取、管理和建模平台,通过配套各种大数据处理工具,选取相关角色所需的信息,处理策略和操控动作,自由组合各类接口、大数据、功能模块和处理流程,形成针对该大数据应用场景的定制化工作平台,对大数据进行加工和处理。同时不断沉淀大数据,形成大数据运维管理仓库,提供丰富大数据管理工具、插件,为大数据的进一步应用提供支撑。
  3. 大数据应用部分:从海量的沉淀大数据中,通过成熟的大数据分析模型和智能化算法,为相关人员提供重要决策大数据依据,从“决策”、“管理”、“执行”三个视角对“网络”、“数据中心”、“应用”、“安全”、“运维”五个维度进行大数据建模、计算和结果展现,最终实现多维度大数据组合分析、辅助决策的大数据运维管理能力。
    在整个IT发展的过程中,可以发现服务器规模在加速增长,业务场景也变得更加多样化。另外在从离散海量数据中找到故障根本原因时所使用的工具也越来越丰富,例如基础设施与服务采用的是开源的Zabbix监控,网络监控使用的是Solarwinds软件,应用性能管理采用Dyantrace,部分业务和性能使用日志的手段进行监控等。这些工具都可以在一定程度上帮助运维人员进行分析,但是由于这些软件之间是相互割裂的,怎样才能将业务的变化与IT系统关联起来是往后的一个研究方向。

案例分析

12

某药品制造企业IT部门不仅负责传统意义上的运维系统,并且包括了多项运营管理职责。例如门禁系统、考评系统、上网行为管理、基础设备规划、产线监控系统等。因此如何快速的聚合多系统数据,并且进一步挖掘其中的价值非常迫切。在平台搭建完成后,在日常运维或使用过程中,由于不可能单独划分出人力资源对该平台进行区别维护,因此系统的易用性和可操作性对于该企业尤为重要。对于多样的应用场景,该企业也需要能够有更多的业界经验进行借鉴,特别是制造业对IT运维、运营、安全场景的优秀案例。所以可以利用云智慧来帮助运维人员快速发现问题,提高运维效率,帮助管理人员对业务进行高效管理和科学决策。

智能运维

13

告警是运维人员与系统交流的途径,运维人员每天有50%工作内容中,仅有50%在计划内。 随着越来越多的企业上云,运维工作范围也在急速扩大。故障原因日趋复杂,仅凭已有经验进行处理已然不可行,部分故障是已知问题,但因为牵涉面广暂时不做解决,需要周期性的进行重复处理。

动态告警基线

14

传统的固定告警基线有很多缺陷,例如反复触发、恢复会产生大量告警,并且反复触发的告警也会掩盖真实情况。动态告警基线是根据历史数据统计值生成的,除自动生成外,也可人为创建、修改。
对于AI来说应用于整个运维会有一些价值,首先更加主动地将系统数据进行采集,实时感知真实用户性能体验,借助机器学习能够进行故障预测,采用更加丰富多样的告警通知方式。从关联性角度来讲,更高效的找到问题根因,通过时序或逻辑,找到多个现象互相影响的关系将告警进行关联后,减少人为筛选无用或重复信息的成本。从业务视角切入,更直接的支持业务提升,通过大数据技术,打通多个业务之间的数据孤岛更好体现IT部门在公司中的价值。API多种呈现的方式灵活多样,不仅有大屏、报表、报告,还有大数据技术,使得实时数据呈现成为可能,并且在同面积视野中,能够呈现更多维度的信息。

AIOps更大的价值

如果在IT基础架构运营、优化用户体验及业务运营以及实现智能化运营三个方面的能力都得到提升的情况下,是否还有更多的事情需要做?针对这个问题,可以从以下几个方面来进行更深入的思考:

  • 跨系统:能够将多系统的数据进行统一的汇总,在相应模型的梳理下,将原本孤立的数据孤岛进行连接。
  • 高效率:不再割裂的看到故障现象,能够快速的在多个表象中,理清因果关系,并将根因快速的挖掘出来。
  • 高精准:最大程度的避免人为判断时引入的干扰因素,使得分析结果的可行度大大提升。也随着故障处理次数的积累,可以给出相应的处理意见。
  • 面向业务:从最终也是最重要的业务角度入手,自影响业务的结果入手,不断拓展需要考虑的影响因素。在此基础上,才能真正发现业务与运维数据之间的关联性。
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
6月前
|
机器学习/深度学习 人工智能 运维
什么是AIOps智能运维?
AIOps(智能运维)是一种利用人工智能和机器学习技术的软件,用于实时分析和处理业务和运营数据,以提供规范性和预测性答案。它通过收集和汇总大量数据,并使用智能筛选和识别重要事件和模式,帮助团队快速解决问题并避免事件发生。AIOps不依赖于人为指定规则,而是通过机器学习算法自动学习和提炼规则。它可以分析异常告警、故障分析、趋势预测等,并在某些情况下自动解决问题。AIOps的团队包括SRE团队、开发工程师团队和算法工程师团队,他们在AIOps相关工作中扮演不同的角色。
|
17天前
|
人工智能 运维 自然语言处理
对话蚂蚁开源蒋炜:让 Agent 把运维人员从 24 小时的待命中解放出来
当整个行业的智慧都集中在一件事情上时,比起闭门造车,开源一定能带来更好的技术迭代和发展。CodeFuse 「编码挑战季」活动火热进行中,诚邀广大开发者们参与编码挑战
76 3
对话蚂蚁开源蒋炜:让 Agent 把运维人员从 24 小时的待命中解放出来
|
6天前
|
机器学习/深度学习 人工智能 运维
智能化运维:从传统到AIOps的转型之路####
本文探讨了智能化运维(AIOps)的兴起背景、核心价值及其对现代IT运维模式的深刻影响。通过分析传统运维面临的挑战,阐述了AIOps如何利用大数据、机器学习技术实现故障预测、自动化处理与决策支持,进而提升运维效率和服务质量。文章还概述了实施AIOps的关键步骤与面临的主要挑战,为组织向智能化运维转型提供参考路径。 ####
|
10天前
|
机器学习/深度学习 人工智能 运维
智能运维:AIOps在大型系统运维中的实践与挑战
【10月更文挑战第28天】随着云计算、大数据和人工智能的发展,AIOps(人工智能运维)应运而生,旨在通过算法和机器学习提高运维效率和质量。本文探讨了AIOps在大型系统运维中的实践与挑战,包括数据质量、模型选择和团队协作等方面,并通过一个异常检测案例展示了其应用。尽管面临挑战,AIOps仍有望成为未来运维的重要方向。
36 5
|
12天前
|
机器学习/深度学习 运维 监控
智能运维未来:AIOps在预测性维护与故障排查中的潜力
【10月更文挑战第26天】随着数字化转型的深入,企业对IT系统的依赖日益增加。传统的运维方式已无法满足需求,智能运维(AIOps)应运而生。AIOps通过集成和分析多源数据,利用机器学习算法实现系统状态的实时监控和预测性维护,显著提升了运维效率和质量。 示例代码展示了如何使用Python和scikit-learn实现故障预测模型,进一步说明了AIOps的应用价值。
54 5
|
1月前
|
机器学习/深度学习 人工智能 运维
利用AIOps实现智能运维:提升IT运维的新策略
在数字化迅速发展的今天,传统IT运维已难以应对日益复杂的系统。AIOps通过融合AI、机器学习和大数据技术,革新了IT运维方式。其核心优势包括预测性维护、自动化处理、智能分析和资源优化。AIOps平台能自动检测、诊断并解决IT问题,显著提升运维效率。尽管面临数据质量、模型准确性和技术复杂性等挑战,但AIOps正逐步成为智能运维的重要趋势。
|
4月前
|
机器学习/深度学习 边缘计算 运维
智能化运维的演进之路:从脚本工具到AIOps
在数字化浪潮下,企业运维管理正经历一场深刻的变革。本文将探索智能化运维的发展脉络,从最初的脚本工具应用到当下的AIOps实践,揭示这一过程中的关键技术进步和理念更新。我们将通过具体案例,展示如何利用大数据、机器学习等技术提升运维效率,降低人力成本,并预测未来运维领域的发展趋势。
|
6月前
|
消息中间件 SQL 运维
AIOps 智能运维:比专家经验更优雅的错/慢调用分析工具
本文主要介绍ARMS 错/慢 Trace 分析功能基本原理; 该功能能够覆盖哪些异常 Trace 根因; 最后会介绍一些最佳实践案例。
49921 28
|
5月前
|
运维 监控 安全
自动化运维:解放双手,提升效率
【6月更文挑战第19天】本文将深入探讨自动化运维的重要性和优势,以及如何实现自动化运维。我们将从自动化运维的定义开始,然后讨论它的优势,包括提高效率、减少错误、节省成本等。接下来,我们将详细介绍如何实现自动化运维,包括选择合适的工具和技术、设计自动化流程、测试和优化等步骤。最后,我们将通过一个实际案例来展示自动化运维的实施过程和效果。
|
5月前
|
运维 监控
自动化运维:解放双手,提升效率
【6月更文挑战第18天】在数字化时代,运维工作的复杂性和重要性日益凸显。传统的人工运维方式已经难以满足现代企业的需求。自动化运维作为一种新兴的运维模式,通过引入自动化工具和技术,实现对IT资源的高效管理。本文将介绍自动化运维的概念、优势以及实施步骤,帮助读者更好地理解和应用自动化运维。