一目了然,看民生银行 IT 运维故障管理可视化案例

简介:

一、前言

民生银行 IT 运维工作经历了多年实践,已经建设了CMDB、IT运维管理系统(流程平台)、集中监控系统、交易性能监控系统、自动化运维系统、日志管理平台等管理工具,并在实际工作中不断深入的优化,在近年还打造了运维大数据平台,用以支撑 IT 运维管理工作。

在日常工作中,监(各类监控)、管(流程)、控(自动化)和CMDB系统均建立了映射关系,用以打通各系统的数据消费场景。

但实际工作中依然面临着工具分散,依靠运维人员经验和频繁切换各专业分析工具,以实现故障定位、影响分析等操作,运维数据消费效率存在进步空间。

49c86d87c405b8b1be50385be16c63bfb4115e08

二、建设思路与成果

基于上述背景,民生银行尝试借助架构管理可视化工具,将配置数据(CMDB)、监控数据(集中监控告警、交易性能监控)、自动化运维管理工具、IT运维管理系统的变更数据整合到 IT 运维架构图上,打造统一的运维数据消费场景 - IT运维架构管理可视化平台,行内称之为云图系统。

在系统建设之初,我们先定义了四类运维数据消费场景,如下图所示:

88e9135ba3b42afa6bc0b6d53f8c408384f6b86d

下面,我们先对这四个比较具备代表性的场景进行说明:

1 日常监控

作为运维人员,每个人都需要对各自负责系统的运行情况了如指掌。系统本身的各项性能指标可以通过对数据库、中间件、操作系统和网络流量分析等监控手段实时主动监测,系统的交易性能情况则需要通过交易性能监控系统进行实时的诊断输出和告警。

一线值班人员需要打开不同工具的监控窗口,实时监测系统的告警和异常指标,这些窗口占用了大量的终端资源;

二线运维人员接到异常告警后,也需要打开各个监控平台进行故障判断和问题定位,往往在登陆和跳转的过程中浪费一定的时间和精力,无法有效满足“10分钟定位故障、10分钟处置恢复”的“双十”目标。

通过云图系统对上述各专业监控工具的数据实现高效整合,目前已经能够以应用为中心,在统一的页面上实现上述多种运行状态数据的呈现,实时同步的显示告警数据和性能数据,并与特定场景的可视化相结合,直观高效,一目了然。

举例:图1是我行网银互联系统发往工行、农行、中行、建行、交行、招行等14家对手行的交易量、响应时间、响应率和成功率一览图,当交易异常告警发生时,告警会实时挂载在应用系统图标上。

1db1839114ac52ff658bbd5318076152e76b1c5f

图1:网银互联至对手机构交易情况监控

2 排障定位

在日常IT运维工作中,有时会面对一些较复杂的故障定位场景,比如大量系统几乎同时涌现高级别告警,这些系统之间依托于各类网络,存在着支撑和依赖关系,而每个系统本身也被复杂的系统架构所承载。

这种情况下,如何在有限的时间内定位故障并快速恢复业务,是运维人员面临的低频但高风险的疑难问题。

对比传统排障思路,运维人员需要综合分析这些告警,确定可能的根因。

一般思路是各应用系统负责人分别找数据库、操作系统、中间件、网络等团队确认是否是本系统导致的。

如果不是,则需要通过事前绘制的上下游系统关系图梳理可能的根因节点,再查询相应疑似故障根因系统的架构内是否存在故障,从而进行进一步处理。

由于相关工作既存在跨部门沟通,又需要强大的视图化逻辑思维能力,对运维人员要求极高。

而通过云图系统,我们可以先通过对应用墙的整体查看(如图2所示),分析各系统告警的分布情况,之后依照经验初步判断交易关键节点,点击钻取进入应用关系全景图。

7ddc97baf88fc4822507e2437aa71cf13d0d6394

图2:应用墙展示

在图中可以查看到基于时序的告警、性能指标曲线、近期变更记录,从而进一步缩小需要深入判断的故障域;再基于疑似的故障根因节点钻取到系统架构图和网络拓扑图,同样对架构图中对象的告警、变更、性能数据进行分析,进一步定位故障源头(如图3所示)。

0656744eb01d9eb27f1913a33cdf9989103809a0

图3:应用交互关系展示

最后,将自动化操作也集成到相应的架构图中,包括一键巡检等操作,缩短大脑思考和逐一登陆各系统消耗的宝贵时间,完成处理后再次对比相应架构图中的实时监控数据,确认故障处理效果。

排障结束后,还可借助应用画像功能(如下图4所示),对故障的形成原因及解决方法进行复盘,制定预案,为可能的故障二次发生或次生风险提供预防措施和紧急处理指导意见。

1e14d9cd3c1bda1d2c95163424c3ea24e671c32a

图4:应用画像展示

3 变更影响分析

在日常的变更管理工作中,分析变更影响,进行变更过程评审是变更管理工作的重点。

就变更影响分析而言,如果CMDB数据中的关系数据不够完善,影响范围的确认就变得异常艰辛,需要投入更多的经验判断、多方沟通以及大量思考。

依托于云图系统,变更影响分析的工作得到了系统化改善。举例来说,当需要对存储系统进行维护时,只需要搜索该存储设备的任意配置项属性,便可知道哪些系统与该存储存在关联关系,同时还可以链接到相应的系统架构图,从而进一步了解深层次的影响范围(如下图5所示)

9315dcbadcadb54a01aaae8e21be7077a0fb8cef

图5:存储与应用影响关系展示

4 知识共享

知识共享能够提升人与人之间的协作和分享能力,发挥团队成员的主动性和创造性。举例来说,基于配置数据的架构图,结合相关的监控信息和变更记录,可以由专业二线人员进行场景组装,并将其分享给ECC一线值班经理。

值班经理一方面可以通过更易理解的架构图,熟悉所需管理的各类系统情况,还能够在故障定位时,更易缩小故障域根因范围,进而向专业二线传递信息,提升整体排障效率。

此外,日常运维中演示汇报是知识共享的场景之一,架构图作为IT管理领域存在共识的表现形式,本身就具备演示汇报的基础能力。

不论是对新员工培训或与运维备份岗的日常沟通过程中,还是在向业务单位介绍IT运维日常工作,又或者是描述一些重要的系统建设成果。

通过该系统的演示模式都可以有效的提升沟通效率,使整个组织形成知识积累、统一认知、快速分享和实时更新的机制。

61bc030a3f07b910adddd59ee45ca4607aeba67b

图6:演示汇报大屏模式

三、未来展望

1 可视化AIOps

近年来AIOps的理念逐渐深入人心,Gartner也在监管控运维架构的基础上补充了AIOps的核心节点。作为AIOps,从各类数据源汇总成为大数据库,在这个基础上进行计算、分析、融入算法、增加机器学习能力,并最终以可视化供给数据消费是已知的发展路径。

民生银行运维大数据平台已经建设完成,目前也已开展与清华大学智能运维实验室的合作,将其机器学习和算法研究成果投入到生产环境进行积累和学习。

下一步云图系统将对接智能运维系统的异常监测分析数据,实现AiOps与IT运维架构可视化故障定位的展示能力。

举例来说,在架构图中呈现的事件信息,除了经历了过滤、压缩、关联、丰富等操作,还会补充单值标异常检测系统在性能数据中挖掘的系统异常。

比如业务系统交易响应时长原本定义在100ms生成告警事件,而在异常检测系统上线后,机器学习会基于数据特征,在低峰期,即便其响应时长只有50ms,也可以发现系统异常,从而进一步补充事件提醒,结合云图系统,实现故障预警的可视化,进一步提高运维质量。

774c244020fad8aff313b00c7606cea02f3af232

图7:Gartner监管控运维架构

2 自动化场景可视化

下一步,系统将实现应用发布及灾备切换自动化的可视化能力:

应用发布和灾备切换需要管理的各种资源关系复杂,应用系统之间依存性高,自动化运维系统的流程管理可以清晰定义以上各种关系,有力的保障了灾备系统的服务质量、提高应对突发事件的能力。

与此同时,各部门同事及领导可以通过大屏幕,一目了然的了解流程执行情况,使ECC成为统一的“作战指挥中心”。

3 深入的场景化建设

基于架构图和各类数据的集成,架构管理可视化工具已经成为了最贴近运维人员的综合情势研判工具。

基于此,系统可以做进一步深化,站在运维人员不同的工作场景进行功能深化和数据封装。

举例而言,故障在很多情况下源于变更,在系统变更前需要对变更进行评审,场景化能力可以在评审前,将变更前后需要关注的系统架构、应用交易性能指标、系统和网络层面负载指标,以及各应用的日志新产生数量,均封装在一个页面上。

当变更日的次日清晨,应用运维人员可以自动收到邮件通知,将上述信息进行汇总,点击后即可打开封装好上述数据和图形的场景化页面,从而对变更后的状态一目了然,一旦出现问题也可以查看问题表征,并迅速定位上下游影响。

四、总结

“心灵没有意象就永远不能思考”,亚里士多德的这句名言,映射到IT运维管理中,架构图便是心灵意象的一种可视化呈现。

对于IT架构图的规范化梳理,一方面在IT治理层面保障了运维管理工作可持续的优化;

另一方面随着架构可视化管理的深入,以IT架构图贯穿运维工作思考流的习惯正在逐渐形成。

未来,将配置数据、监控数据、日志数据、自动化工具、流程工具,基于架构图进行有机整合,激发了运维人员对运维所需工具的新需求,从而形成更加高效的数据消费场景。


原文发布时间为:2018-09-26

本文作者:胡经伟

本文来自云栖社区合作伙伴“高效运维”,了解相关信息可以关注“高效运维”。

相关文章
|
11天前
|
机器学习/深度学习 人工智能 运维
企业内训|LLM大模型在服务器和IT网络运维中的应用-某日企IT运维部门
本课程是为某在华日资企业集团的IT运维部门专门定制开发的企业培训课程,本课程旨在深入探讨大型语言模型(LLM)在服务器及IT网络运维中的应用,结合当前技术趋势与行业需求,帮助学员掌握LLM如何为运维工作赋能。通过系统的理论讲解与实践操作,学员将了解LLM的基本知识、模型架构及其在实际运维场景中的应用,如日志分析、故障诊断、网络安全与性能优化等。
35 2
|
22天前
|
运维 Linux Apache
,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具
【10月更文挑战第7天】随着云计算和容器化技术的发展,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具,通过定义资源状态和关系,确保系统始终处于期望配置状态。本文介绍Puppet的基本概念、安装配置及使用示例,帮助读者快速掌握Puppet,实现高效自动化运维。
45 4
|
5天前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI驱动下的IT运维革命###
本文探讨了人工智能(AI)技术在IT运维领域的创新应用,强调其在提升效率、预防故障及优化资源配置中的关键作用,揭示了智能运维的新趋势。 ###
|
1天前
|
机器学习/深度学习 人工智能 运维
智能化运维:提升IT服务效率的新引擎###
本文深入浅出地探讨了智能化运维(AIOps)如何革新传统IT运维模式,通过大数据、机器学习与自动化技术,实现故障预警、快速定位与处理,从而显著提升IT服务的稳定性和效率。不同于传统运维依赖人工响应,AIOps强调预测性维护与自动化流程,为企业数字化转型提供强有力的支撑。 ###
|
15天前
|
人工智能 运维 监控
智能化运维:AI在IT运维中的挑战与机遇###
本文探讨了人工智能(AI)技术在IT运维领域的应用,重点分析了AI如何提升运维效率、减少故障恢复时间,并预测未来发展趋势。通过具体案例展示了AI在实际运维中的应用效果,同时指出当前面临的挑战和解决方案,为读者提供一个全面了解智能化运维的视角。 ###
|
14天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维:AI在IT运维中的应用探索###
随着信息技术的飞速发展,传统的IT运维模式正面临着前所未有的挑战。本文旨在探讨人工智能(AI)技术如何赋能IT运维,通过智能化手段提升运维效率、降低故障率,并为企业带来更加稳定高效的服务体验。我们将从AI运维的概念入手,深入分析其在故障预测、异常检测、自动化处理等方面的应用实践,以及面临的挑战与未来发展趋势。 ###
|
27天前
|
运维 Prometheus 监控
运维中的自动化实践每月一次的系统维护曾经是许多企业的噩梦。不仅因为停机时间长,更因为手动操作容易出错。然而,随着自动化工具的引入,这一切正在悄然改变。本文将探讨自动化在IT运维中的重要性及其具体应用。
在当今信息技术飞速发展的时代,企业对系统的稳定性和效率要求越来越高。传统的手动运维方式已经无法满足现代企业的需求。自动化技术的引入不仅提高了运维效率,还显著降低了出错风险。本文通过几个实际案例,展示了自动化在IT运维中的具体应用,包括自动化部署、监控告警和故障排除等方面,旨在为读者提供一些实用的参考。
|
28天前
|
机器学习/深度学习 数据采集 运维
智能化运维:机器学习在故障预测和自动化响应中的应用
【10月更文挑战第1天】智能化运维:机器学习在故障预测和自动化响应中的应用
64 3
|
7天前
|
人工智能 运维 监控
运维技术深度解析:构建高效、稳定的IT基础设施
【10月更文挑战第22天】运维技术深度解析:构建高效、稳定的IT基础设施
23 0
|
7天前
|
机器学习/深度学习 边缘计算 运维
运维技术深度解析:构建高效、稳定的IT基础设施
【10月更文挑战第22天】运维技术深度解析:构建高效、稳定的IT基础设施
16 0