一目了然,看民生银行 IT 运维故障管理可视化案例

简介:

一、前言

民生银行 IT 运维工作经历了多年实践,已经建设了CMDB、IT运维管理系统(流程平台)、集中监控系统、交易性能监控系统、自动化运维系统、日志管理平台等管理工具,并在实际工作中不断深入的优化,在近年还打造了运维大数据平台,用以支撑 IT 运维管理工作。

在日常工作中,监(各类监控)、管(流程)、控(自动化)和CMDB系统均建立了映射关系,用以打通各系统的数据消费场景。

但实际工作中依然面临着工具分散,依靠运维人员经验和频繁切换各专业分析工具,以实现故障定位、影响分析等操作,运维数据消费效率存在进步空间。

49c86d87c405b8b1be50385be16c63bfb4115e08

二、建设思路与成果

基于上述背景,民生银行尝试借助架构管理可视化工具,将配置数据(CMDB)、监控数据(集中监控告警、交易性能监控)、自动化运维管理工具、IT运维管理系统的变更数据整合到 IT 运维架构图上,打造统一的运维数据消费场景 - IT运维架构管理可视化平台,行内称之为云图系统。

在系统建设之初,我们先定义了四类运维数据消费场景,如下图所示:

88e9135ba3b42afa6bc0b6d53f8c408384f6b86d

下面,我们先对这四个比较具备代表性的场景进行说明:

1 日常监控

作为运维人员,每个人都需要对各自负责系统的运行情况了如指掌。系统本身的各项性能指标可以通过对数据库、中间件、操作系统和网络流量分析等监控手段实时主动监测,系统的交易性能情况则需要通过交易性能监控系统进行实时的诊断输出和告警。

一线值班人员需要打开不同工具的监控窗口,实时监测系统的告警和异常指标,这些窗口占用了大量的终端资源;

二线运维人员接到异常告警后,也需要打开各个监控平台进行故障判断和问题定位,往往在登陆和跳转的过程中浪费一定的时间和精力,无法有效满足“10分钟定位故障、10分钟处置恢复”的“双十”目标。

通过云图系统对上述各专业监控工具的数据实现高效整合,目前已经能够以应用为中心,在统一的页面上实现上述多种运行状态数据的呈现,实时同步的显示告警数据和性能数据,并与特定场景的可视化相结合,直观高效,一目了然。

举例:图1是我行网银互联系统发往工行、农行、中行、建行、交行、招行等14家对手行的交易量、响应时间、响应率和成功率一览图,当交易异常告警发生时,告警会实时挂载在应用系统图标上。

1db1839114ac52ff658bbd5318076152e76b1c5f

图1:网银互联至对手机构交易情况监控

2 排障定位

在日常IT运维工作中,有时会面对一些较复杂的故障定位场景,比如大量系统几乎同时涌现高级别告警,这些系统之间依托于各类网络,存在着支撑和依赖关系,而每个系统本身也被复杂的系统架构所承载。

这种情况下,如何在有限的时间内定位故障并快速恢复业务,是运维人员面临的低频但高风险的疑难问题。

对比传统排障思路,运维人员需要综合分析这些告警,确定可能的根因。

一般思路是各应用系统负责人分别找数据库、操作系统、中间件、网络等团队确认是否是本系统导致的。

如果不是,则需要通过事前绘制的上下游系统关系图梳理可能的根因节点,再查询相应疑似故障根因系统的架构内是否存在故障,从而进行进一步处理。

由于相关工作既存在跨部门沟通,又需要强大的视图化逻辑思维能力,对运维人员要求极高。

而通过云图系统,我们可以先通过对应用墙的整体查看(如图2所示),分析各系统告警的分布情况,之后依照经验初步判断交易关键节点,点击钻取进入应用关系全景图。

7ddc97baf88fc4822507e2437aa71cf13d0d6394

图2:应用墙展示

在图中可以查看到基于时序的告警、性能指标曲线、近期变更记录,从而进一步缩小需要深入判断的故障域;再基于疑似的故障根因节点钻取到系统架构图和网络拓扑图,同样对架构图中对象的告警、变更、性能数据进行分析,进一步定位故障源头(如图3所示)。

0656744eb01d9eb27f1913a33cdf9989103809a0

图3:应用交互关系展示

最后,将自动化操作也集成到相应的架构图中,包括一键巡检等操作,缩短大脑思考和逐一登陆各系统消耗的宝贵时间,完成处理后再次对比相应架构图中的实时监控数据,确认故障处理效果。

排障结束后,还可借助应用画像功能(如下图4所示),对故障的形成原因及解决方法进行复盘,制定预案,为可能的故障二次发生或次生风险提供预防措施和紧急处理指导意见。

1e14d9cd3c1bda1d2c95163424c3ea24e671c32a

图4:应用画像展示

3 变更影响分析

在日常的变更管理工作中,分析变更影响,进行变更过程评审是变更管理工作的重点。

就变更影响分析而言,如果CMDB数据中的关系数据不够完善,影响范围的确认就变得异常艰辛,需要投入更多的经验判断、多方沟通以及大量思考。

依托于云图系统,变更影响分析的工作得到了系统化改善。举例来说,当需要对存储系统进行维护时,只需要搜索该存储设备的任意配置项属性,便可知道哪些系统与该存储存在关联关系,同时还可以链接到相应的系统架构图,从而进一步了解深层次的影响范围(如下图5所示)

9315dcbadcadb54a01aaae8e21be7077a0fb8cef

图5:存储与应用影响关系展示

4 知识共享

知识共享能够提升人与人之间的协作和分享能力,发挥团队成员的主动性和创造性。举例来说,基于配置数据的架构图,结合相关的监控信息和变更记录,可以由专业二线人员进行场景组装,并将其分享给ECC一线值班经理。

值班经理一方面可以通过更易理解的架构图,熟悉所需管理的各类系统情况,还能够在故障定位时,更易缩小故障域根因范围,进而向专业二线传递信息,提升整体排障效率。

此外,日常运维中演示汇报是知识共享的场景之一,架构图作为IT管理领域存在共识的表现形式,本身就具备演示汇报的基础能力。

不论是对新员工培训或与运维备份岗的日常沟通过程中,还是在向业务单位介绍IT运维日常工作,又或者是描述一些重要的系统建设成果。

通过该系统的演示模式都可以有效的提升沟通效率,使整个组织形成知识积累、统一认知、快速分享和实时更新的机制。

61bc030a3f07b910adddd59ee45ca4607aeba67b

图6:演示汇报大屏模式

三、未来展望

1 可视化AIOps

近年来AIOps的理念逐渐深入人心,Gartner也在监管控运维架构的基础上补充了AIOps的核心节点。作为AIOps,从各类数据源汇总成为大数据库,在这个基础上进行计算、分析、融入算法、增加机器学习能力,并最终以可视化供给数据消费是已知的发展路径。

民生银行运维大数据平台已经建设完成,目前也已开展与清华大学智能运维实验室的合作,将其机器学习和算法研究成果投入到生产环境进行积累和学习。

下一步云图系统将对接智能运维系统的异常监测分析数据,实现AiOps与IT运维架构可视化故障定位的展示能力。

举例来说,在架构图中呈现的事件信息,除了经历了过滤、压缩、关联、丰富等操作,还会补充单值标异常检测系统在性能数据中挖掘的系统异常。

比如业务系统交易响应时长原本定义在100ms生成告警事件,而在异常检测系统上线后,机器学习会基于数据特征,在低峰期,即便其响应时长只有50ms,也可以发现系统异常,从而进一步补充事件提醒,结合云图系统,实现故障预警的可视化,进一步提高运维质量。

774c244020fad8aff313b00c7606cea02f3af232

图7:Gartner监管控运维架构

2 自动化场景可视化

下一步,系统将实现应用发布及灾备切换自动化的可视化能力:

应用发布和灾备切换需要管理的各种资源关系复杂,应用系统之间依存性高,自动化运维系统的流程管理可以清晰定义以上各种关系,有力的保障了灾备系统的服务质量、提高应对突发事件的能力。

与此同时,各部门同事及领导可以通过大屏幕,一目了然的了解流程执行情况,使ECC成为统一的“作战指挥中心”。

3 深入的场景化建设

基于架构图和各类数据的集成,架构管理可视化工具已经成为了最贴近运维人员的综合情势研判工具。

基于此,系统可以做进一步深化,站在运维人员不同的工作场景进行功能深化和数据封装。

举例而言,故障在很多情况下源于变更,在系统变更前需要对变更进行评审,场景化能力可以在评审前,将变更前后需要关注的系统架构、应用交易性能指标、系统和网络层面负载指标,以及各应用的日志新产生数量,均封装在一个页面上。

当变更日的次日清晨,应用运维人员可以自动收到邮件通知,将上述信息进行汇总,点击后即可打开封装好上述数据和图形的场景化页面,从而对变更后的状态一目了然,一旦出现问题也可以查看问题表征,并迅速定位上下游影响。

四、总结

“心灵没有意象就永远不能思考”,亚里士多德的这句名言,映射到IT运维管理中,架构图便是心灵意象的一种可视化呈现。

对于IT架构图的规范化梳理,一方面在IT治理层面保障了运维管理工作可持续的优化;

另一方面随着架构可视化管理的深入,以IT架构图贯穿运维工作思考流的习惯正在逐渐形成。

未来,将配置数据、监控数据、日志数据、自动化工具、流程工具,基于架构图进行有机整合,激发了运维人员对运维所需工具的新需求,从而形成更加高效的数据消费场景。


原文发布时间为:2018-09-26

本文作者:胡经伟

本文来自云栖社区合作伙伴“高效运维”,了解相关信息可以关注“高效运维”。

相关文章
|
21天前
|
人工智能 运维 自然语言处理
智能化运维:AI在IT运维领域的深度应用与实践####
本文探讨了人工智能(AI)技术在IT运维领域的深度融合与实践应用,通过分析AI驱动的自动化监控、故障预测与诊断、容量规划及智能决策支持等关键方面,揭示了AI如何赋能IT运维,提升效率、降低成本并增强系统稳定性。文章旨在为读者提供一个关于AI在现代IT运维中应用的全面视角,展示其实际价值与未来发展趋势。 ####
131 4
|
22天前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI与大数据在IT运维中的应用探索####
本文旨在探讨人工智能(AI)与大数据分析技术如何革新传统IT运维模式,提升运维效率与服务质量。通过具体案例分析,揭示AI算法在故障预测、异常检测及自动化修复等方面的实际应用成效,同时阐述大数据如何助力实现精准运维管理,降低运营成本,提升用户体验。文章还将简要讨论实施智能化运维面临的挑战与未来发展趋势,为IT管理者提供决策参考。 ####
|
23天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维在企业IT管理中的应用与实践####
本文深入探讨了智能化运维(AIOps)的核心技术原理,通过对比传统运维模式,揭示了AIOps如何利用大数据、机器学习等先进技术提升故障预测准确性、优化资源分配及自动化处理流程。同时,文章详细阐述了智能化运维平台的实施步骤,包括数据收集与分析、模型训练与部署、以及持续监控与优化,旨在为企业IT部门提供一套切实可行的智能化转型路径。最后,通过几个典型应用案例,如某大型电商平台的智能告警系统和金融企业的自动化故障排查流程,直观展示了智能化运维在实际业务场景中的显著成效,强调了其在提升运维效率、降低运营成本方面的关键作用。 ####
44 4
|
25天前
|
数据采集 机器学习/深度学习 人工智能
智能运维在IT管理中的实践与探索
【10月更文挑战第21天】 本文深入探讨了智能运维(AIOps)技术在现代IT管理中的应用,通过分析其核心组件、实施策略及面临的挑战,揭示了智能运维如何助力企业实现自动化监控、故障预测与快速响应,从而提升整体运维效率与系统稳定性。文章还结合具体案例,展示了智能运维在实际环境中的显著成效。
50 4
|
1月前
|
运维 监控 安全
自动化运维的利剑:Ansible在现代IT架构中的应用
在数字化浪潮中,企业对IT系统的敏捷性和可靠性要求日益提高。Ansible,一种简单但强大的自动化运维工具,正成为现代IT架构中不可或缺的一部分。它通过声明式编程语言YAM,简化了系统配置、应用部署和任务自动化的过程,显著提升了运维效率和准确性。本文将深入探讨Ansible的核心特性、应用场景以及如何有效整合进现有IT环境,为读者揭示其在自动化运维中的实用价值和未来发展潜力。
|
1月前
|
数据采集 机器学习/深度学习 人工智能
智能运维在IT管理中的实践与探索####
【10月更文挑战第21天】 本文深入探讨了智能运维(AIOps)技术在现代IT管理中的应用,通过分析其核心组件、实施策略及面临的挑战,揭示了智能运维如何助力企业实现自动化监控、故障预测与快速响应,从而提升整体运维效率与系统稳定性。文章还结合具体案例,展示了智能运维在实际环境中的显著成效。 ####
|
1月前
|
数据采集 机器学习/深度学习 运维
智能运维在IT服务管理中的实践与挑战####
本文深入探讨了智能运维(AIOps)在现代IT服务管理中的应用,通过分析其如何提升效率、预测故障并优化资源分配,阐述了智能运维的实施策略与面临的主要挑战。不同于传统摘要,本部分旨在直接概述文章的核心观点与结论,为读者提供快速了解全文主旨的窗口。
|
1月前
|
机器学习/深度学习 数据采集 人工智能
智能化运维:AI在IT运维中的应用与挑战###
本文探讨了人工智能(AI)技术在IT运维领域的应用现状、具体实现方式及其面临的挑战。通过分析AI如何优化故障预测、自动化处理和资源管理,文章旨在揭示AI赋能下运维工作的变革潜力与实践难题,为读者提供对智能化运维趋势的深刻理解。 ###
|
1月前
|
机器学习/深度学习 人工智能 运维
智能运维:AI驱动的IT运维革命###
【10月更文挑战第21天】 随着数字化转型的深入,智能运维(AIOps)正逐步成为企业IT管理的核心。本文将探讨AI技术如何赋能运维领域,通过自动化、智能化手段提升系统稳定性和效率,降低运营成本,并分享实施智能运维的最佳实践与挑战应对策略。 ###
85 1
|
20天前
|
人工智能 运维 监控
自动化运维:提升IT效率的关键策略
在当今快速发展的信息技术时代,企业面临着不断增长的数据量和复杂的系统架构。为了保持竞争力,自动化运维成为提高IT部门效率和响应速度的关键策略。本文将探讨自动化运维的核心概念、实施步骤以及面临的挑战,旨在为IT专业人员提供实现高效运维管理的实用指南。
33 0

热门文章

最新文章