云智慧科技有限公司杨路在2018云栖大会上海峰会中做了题为AIOps在业务运维的最佳应用实践的分享,从云智慧与AIOps结缘开始介绍,再到云智慧AIOps的最佳实践以及AIOps更大的价值三大方面的内容分别做了深入的分析,带你了解AIOps是如何把CIO和IT部门从繁复耗时容易出错的基础运维工作中解放出来的。
数十款阿里云产品限时折扣中,赶快点击这里,领券开始云上实践吧!
直播视频回顾
PPT下载请点击
以下是精彩视频内容整理:
云智慧与AIOps结缘
2009年云智慧成立,在2010年互联网站迅速增长,自2013以后数字化转型这个字眼逐渐深入人心,企业越来越重视终端用户体验的认知度,这推动了APM等一类产品的发展。2015互联网+的提出使得运维体系的革新发生了巨大的变化。2017年云智慧开始进入了不同的行业,包括金融、房地产和制造业等300多家企业的管理层,消费者已经踏入数字化的时代,但是整个中国的企业却要慢一拍。
对于如何使企业能够快速享受互联网所带来的优势问题,云智慧提出了三个优化方向,首先要提升IT基础架构运营能力,基于大数据分析的思路在IT领域运用大数据技术,更加科学高效的对基础架构进行监控、问题发现、告警与处置。其次优化用户体验及业务运营能力,基于大数据技术对用户体验进行全面分析,不断优化用户端到端的用户体验及业务运营能力。最后提升智能化运营能力,通过大数据和人工智能最新技术实现更加智慧与高效的企业运营,为社会与企业创造更多的价值。
云智慧AIOps最佳实践
在大数据运维阶段必须部署大数据核心平台,以支持IT、网络以及私有云等数据的接入,并建立IT 基础设施监控及大屏、网络监控及大屏和私有云平台可视化大屏,并且部署统一告警平台,落地大数据运维基础分析。
业务运维阶段需要采集用户端以及后端性能的数据,应用拓扑实时大屏、真实用户体验监控及大屏和浏览器用户体验及大屏,进行端到端应用性能的深入分析,同时也需要建立企业业务管理驾驶舱,以便进行业务到应用到 IT 系统的关联分析。
智能运维阶段需要部署机器学习平台和深度学习平台,以便更好地进行IT资源规划的预测、用户体验与用户留存的预测以及应用健康对业务影响的预测等。
整个云智慧架构主要分为三部分:
- 大数据采集部分:构建一套针对硬件设施、网络、主机系统、关键业务监控、分析、日志抓取以及属性收集的大数据采集平台,使其能够快速采集和展现监控对象的基本信息及运行状态,可全面、准确评估各类硬件、网络、主机系统和关键业务的健康度水平。
- 大数据管理部分:建立标准的大数据抽取、管理和建模平台,通过配套各种大数据处理工具,选取相关角色所需的信息,处理策略和操控动作,自由组合各类接口、大数据、功能模块和处理流程,形成针对该大数据应用场景的定制化工作平台,对大数据进行加工和处理。同时不断沉淀大数据,形成大数据运维管理仓库,提供丰富大数据管理工具、插件,为大数据的进一步应用提供支撑。
- 大数据应用部分:从海量的沉淀大数据中,通过成熟的大数据分析模型和智能化算法,为相关人员提供重要决策大数据依据,从“决策”、“管理”、“执行”三个视角对“网络”、“数据中心”、“应用”、“安全”、“运维”五个维度进行大数据建模、计算和结果展现,最终实现多维度大数据组合分析、辅助决策的大数据运维管理能力。
在整个IT发展的过程中,可以发现服务器规模在加速增长,业务场景也变得更加多样化。另外在从离散海量数据中找到故障根本原因时所使用的工具也越来越丰富,例如基础设施与服务采用的是开源的Zabbix监控,网络监控使用的是Solarwinds软件,应用性能管理采用Dyantrace,部分业务和性能使用日志的手段进行监控等。这些工具都可以在一定程度上帮助运维人员进行分析,但是由于这些软件之间是相互割裂的,怎样才能将业务的变化与IT系统关联起来是往后的一个研究方向。
案例分析
某药品制造企业IT部门不仅负责传统意义上的运维系统,并且包括了多项运营管理职责。例如门禁系统、考评系统、上网行为管理、基础设备规划、产线监控系统等。因此如何快速的聚合多系统数据,并且进一步挖掘其中的价值非常迫切。在平台搭建完成后,在日常运维或使用过程中,由于不可能单独划分出人力资源对该平台进行区别维护,因此系统的易用性和可操作性对于该企业尤为重要。对于多样的应用场景,该企业也需要能够有更多的业界经验进行借鉴,特别是制造业对IT运维、运营、安全场景的优秀案例。所以可以利用云智慧来帮助运维人员快速发现问题,提高运维效率,帮助管理人员对业务进行高效管理和科学决策。
智能运维
告警是运维人员与系统交流的途径,运维人员每天有50%工作内容中,仅有50%在计划内。 随着越来越多的企业上云,运维工作范围也在急速扩大。故障原因日趋复杂,仅凭已有经验进行处理已然不可行,部分故障是已知问题,但因为牵涉面广暂时不做解决,需要周期性的进行重复处理。
动态告警基线
传统的固定告警基线有很多缺陷,例如反复触发、恢复会产生大量告警,并且反复触发的告警也会掩盖真实情况。动态告警基线是根据历史数据统计值生成的,除自动生成外,也可人为创建、修改。
对于AI来说应用于整个运维会有一些价值,首先更加主动地将系统数据进行采集,实时感知真实用户性能体验,借助机器学习能够进行故障预测,采用更加丰富多样的告警通知方式。从关联性角度来讲,更高效的找到问题根因,通过时序或逻辑,找到多个现象互相影响的关系将告警进行关联后,减少人为筛选无用或重复信息的成本。从业务视角切入,更直接的支持业务提升,通过大数据技术,打通多个业务之间的数据孤岛更好体现IT部门在公司中的价值。API多种呈现的方式灵活多样,不仅有大屏、报表、报告,还有大数据技术,使得实时数据呈现成为可能,并且在同面积视野中,能够呈现更多维度的信息。
AIOps更大的价值
如果在IT基础架构运营、优化用户体验及业务运营以及实现智能化运营三个方面的能力都得到提升的情况下,是否还有更多的事情需要做?针对这个问题,可以从以下几个方面来进行更深入的思考:
- 跨系统:能够将多系统的数据进行统一的汇总,在相应模型的梳理下,将原本孤立的数据孤岛进行连接。
- 高效率:不再割裂的看到故障现象,能够快速的在多个表象中,理清因果关系,并将根因快速的挖掘出来。
- 高精准:最大程度的避免人为判断时引入的干扰因素,使得分析结果的可行度大大提升。也随着故障处理次数的积累,可以给出相应的处理意见。
- 面向业务:从最终也是最重要的业务角度入手,自影响业务的结果入手,不断拓展需要考虑的影响因素。在此基础上,才能真正发现业务与运维数据之间的关联性。