FinTech领域实践:乐维监控助力西南某上市城商行IT运维转型升级!

简介: 企业IT运维自动化的转型之路。

FinTech领域实践:乐维监控助力西南某上市城商行IT运维转型升级!

项目背景

随着信息化的逐步深入,企业业务运营活动对IT的依赖程度越来越高,传统的局部、粗放、碎片化的IT运维管理模式已经无法满足安全生产的实际需要,IT运维必须向自动化、全面化、流程化模式转变,构建一站式监控平台,则成为企业 IT 架构升级、自动化转型的战略刚需。

0a76b59aaa97042db21d1d31c38e4524e570831c

相对其他行业来说,银行行业因为网络环境、系统软件复杂,资源整合程度高,系统数据安全级别高,权限管理复杂等原因,对技术的可靠性、稳定性和成熟性有着更高的要求。

 

客户简介

某银行是一家以国有股本为主、股权多元化的地方性股份制商业银行,引入马来西亚某银行作为境外战略投资合作伙伴。在上海证券交易所挂牌上市,成为某省首家上市银行、全国第8家A股上市城市商业银行。该银行致力于为广大小微企业客户提供优质高效的金融服务,利用自身优势,加强产品创新和“本土化”改造,开发了一批“特色化、标准化、本土化”产品。目前,旗下“财富金翼”小微企业融资品牌包括“壮大贷”、“成长贷”、“科创贷”、“科票通”、“创业贷”、“惠农贷”、“易采贷”等10余种产品,为不同发展阶段的小微企业融资提供多种金融方案以及一站式金融服务,不遗余力支持企业成长发展。

 

项目背景

该银行信息化建设蓬勃开展,IT规模逐年扩大,相应的故障次数也逐年增加。而在采用有效的管理方式之前,管理相关部门仍然采用传统的、分散、不统一的手工管理方式,且无专业团队对现有IT系统软硬件进行统一管理维护,建设、运行、支撑职责不分,缺乏有效的管理和运行监视手段,缺乏有效的针对设备/设施的资产管理。系统配套的管理手段的创建已经落后于相关建设的步伐,这样就造成了管理模式跟不上系统建设的工作矛盾。

该银行现有的生产监控系统于2011年开发完成,主要是基于IBM商业产品Tivoli,已使用7年时间。需在其基础上衍生基础设施纳控、集中告警、巡检报表等。为解决此问题,需对基础监控平台系统进行升级改造。一方面可以解决目前该银行监控系统存在的问题,另一方面也可以提高运维工作效率,降低运行风险。

 

解决方案

乐维监控结合该银行发展的现状及发展需求,在进行需求的前期调研和现场调研后,针对性的制定设计了一套完整的实施方案,帮助其构建一个安全、实用、可持续发展的智能监控管理平台

通过改造,对银行所有软硬件设备进行管理,综合展现运维管理数据和相关统计信息,以一个综合展现平台的方式展现所有关键管理数据,通过灵活的告警设备,精确的告警检测,多样的告警推送方式,简单的告警经验积累方式,实现用户有效及时得到故障信息。提供快速故障定位,故障分析,最终实现IT运维管理要求:

1.基础监控平台需完成生产系统服务器、操作系统、数据库、中间件、存储、网络设备等的实时监控,确保能够在故障发生时提供及时的告警和操作;

2.需有比较美观的展示界面和人性化的UI,能清晰方便的反映出企业纳控的IT资产运行状态及相关信息;

3.在完成对各项基础监控项的同时,需定制开发针对银行的特殊要求,监控项之间能配置关联关系,并能够生成性能分析和故障报告;

4.基础监控平台需将告警信息接入统一展示界面(与现有系统接入方式保持一致)。

5.需具备智能巡检功能,设置巡检周期,自动生成巡检报表,对重点关注指标进行检查并汇总发至指定人员邮箱,以供分析决策。

 

实施过程

针对该银行所面临的问题,乐维监控基于开源Zabbix(最新版本4.0)深度二次开发,利用开源技术及自身产品的高可用、可伸缩、易维护等特性,对银行的IT资产进行了梳理纳控,建设优化的处理。

c89cf6d56bbc94c703bdd5c004fc5ee4b1584a59

产品逻辑图谱

 

 

对象统一纳控,集中管理

1.     主机监控:RedHat、Windows、AIX、HMC

l  针对监控AIX小机LPAR信息、JFS文件系统、errpt日志信息、LVM信息和Linux不一样

l  AIX的HMC数据资源的管理

l  防火墙状态和应用服务监控

 

2.     网络设备监控:Cisco、H3C、华为、F5、迈普、山石、深信服

l  F5的层级划分、主备状态、配置同步、活跃连接数、pool

l  SDN-spine、SDN-leaf监控

l  网络设备的syslog日志对接

l  网络设备日常巡检相关报表展示

l  链路探测的不同方式(NQA、SQA),登录交互探测

 

3.     虚拟化监控:VMWARE

l  监控Clusters、Datacenters、Datastores、Hypervisors、VM

l  vCenter平台告警对接

l  Clusters、Datacenters、Datastores、Hypervisors、VM资源相互关联状态

l  模块与监控平台集成

l  消息与队列处理,对接

 

4.     数据库监控:Oracle、DB2、Mysql、Redis

l  SQL排名-时间

l  redo log

l  数据库dataguard状态、日志同步情况

 

5.     中间件监控:Weblogic、Tomcat、Nginx、RabbitMQ、ZooKeeper、WebSphere

l  接口对接

l  控制台数据采集

l  最大连接数、当前连接数

l  健康状态

l  线程池状态

l  server状态

 

6.     存储监控:EMC VNX、EMC VMAX、Netapp

l  需采用专门的存储工具,连接查询数据

 

7.     安全设备监控

l  电子银行WEB应用防火墙

l  电子银行IPS

 

标签化管理,对象分组,权限配置,为数据安全保驾护航

1.     支持标签化管理,方便对海量用户信息进行搜索、分类、整理记录。

2.     对象分组,可进行分类、排序、检索、批量删除。

3.     用户管理,支持登录名、手机、微信、密码、角色、有效期及是否能登录Zabbix等管理功能,支持对用户的角色授权的功能。

4.     权限配置,统计报表、首页、告警、监控对象等各个功能权限设置,可按照管理员级别进行分类设置。

 f458c169da3c997e463afdd551544f00ec12ee32

 

秒级智能告警平台,内置知识库,使运维有迹可循

l  自定义告警策略(告警分级、收敛),故障快照,动态基线,快速对接微信客户端、邮件、短信等多种工具,结合专家智库对故障高效处理,保障业务系统长期平稳运行。

l  告警关联专家智库,运维人员将故障处理方式记录到专家智库,这些信息将通过算法自动匹配到告警列表,为运维人员下次处理类似告警提供参考依据,支持对专家智库信息进行点赞和点踩,专家智库的匹配算法会根据用户点赞和点踩的行为进行智能匹配告警。

 7a6bde55318ef3803e5f293637980bd0f1a762db

 

 

智能运维巡检报表,定时邮件发送

l  支持自定义设置巡检周期、时间点对重点关注指标(包括但不限于CPU使用率、内存使用率、接口接收流量、借口发送流量、风扇转速、机房温度、机房备电灯等)展开日常巡检工作, 生成报表汇总发至指定人员邮箱,节约运维工程师人工巡检时间,提升运维效率。

 

 

 

终端UI界面全新升级,灵活切换主题皮肤

l  结合客户VI,对界面整体改良升级,并制定出标准版和暗黑版两款个性化皮肤,供自行选择切换,适用大多数应用场景,满足客户需求定制。


 484ee8393ddbd579a03bbca2d58aa873b2ff2137

标准版&暗黑版

 

客户收益

1.   通过IT资产全面梳理、全栈监控、实时告警等新型智能运维手段,建设出一套完善且灵活的成熟运维体系,告别传统“救火”式运维,运维效率提升10倍,企业运维成本降低超过50%。

2.   从项目、用户、角色等多个维度实施权限配置管理,为系统安全性和保密性提供保障。

3.   高可用的技术架构和灵活的调度能力,可覆盖并应用于绝大多数业务场景,持续赋能。

4.   智能高效的运维管理体系,帮助客户从IT管理的层面加快自动化进程。

相关文章
|
3天前
|
Prometheus 运维 监控
Prometheus+Grafana+NodeExporter:构建出色的Linux监控解决方案,让你的运维更轻松
本文介绍如何使用 Prometheus + Grafana + Node Exporter 搭建 Linux 主机监控系统。Prometheus 负责收集和存储指标数据,Grafana 用于可视化展示,Node Exporter 则采集主机的性能数据。通过 Docker 容器化部署,简化安装配置过程。完成安装后,配置 Prometheus 抓取节点数据,并在 Grafana 中添加数据源及导入仪表盘模板,实现对 Linux 主机的全面监控。整个过程简单易行,帮助运维人员轻松掌握系统状态。
31 3
|
21天前
|
运维 监控 持续交付
自动化运维在现代数据中心的应用与实践####
本文探讨了自动化运维技术在现代数据中心中的应用现状与实践案例,分析了其如何提升运维效率、降低成本并增强系统稳定性。通过具体实例,展示了自动化工具如Ansible、Puppet及Docker在环境配置、软件部署、故障恢复等方面的实际应用效果,为读者提供了一套可参考的实施框架。 ####
|
21天前
|
运维 监控 Devops
自动化运维实践:打造高效的DevOps流水线
在软件开发的快节奏中,自动化运维成为提升效率、确保质量的关键。本文将引导你理解自动化运维的价值,通过实际案例分享如何构建一个高效、可靠的DevOps流水线。我们将从持续集成(CI)开始,逐步深入到持续部署(CD),并展示代码示例来具体说明。准备好让你的运维工作飞跃式进步了吗?让我们开始吧!
|
21天前
|
人工智能 运维 自然语言处理
智能化运维:AI在IT运维领域的深度应用与实践####
本文探讨了人工智能(AI)技术在IT运维领域的深度融合与实践应用,通过分析AI驱动的自动化监控、故障预测与诊断、容量规划及智能决策支持等关键方面,揭示了AI如何赋能IT运维,提升效率、降低成本并增强系统稳定性。文章旨在为读者提供一个关于AI在现代IT运维中应用的全面视角,展示其实际价值与未来发展趋势。 ####
129 4
|
22天前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI与大数据在IT运维中的应用探索####
本文旨在探讨人工智能(AI)与大数据分析技术如何革新传统IT运维模式,提升运维效率与服务质量。通过具体案例分析,揭示AI算法在故障预测、异常检测及自动化修复等方面的实际应用成效,同时阐述大数据如何助力实现精准运维管理,降低运营成本,提升用户体验。文章还将简要讨论实施智能化运维面临的挑战与未来发展趋势,为IT管理者提供决策参考。 ####
|
23天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维在企业IT管理中的应用与实践####
本文深入探讨了智能化运维(AIOps)的核心技术原理,通过对比传统运维模式,揭示了AIOps如何利用大数据、机器学习等先进技术提升故障预测准确性、优化资源分配及自动化处理流程。同时,文章详细阐述了智能化运维平台的实施步骤,包括数据收集与分析、模型训练与部署、以及持续监控与优化,旨在为企业IT部门提供一套切实可行的智能化转型路径。最后,通过几个典型应用案例,如某大型电商平台的智能告警系统和金融企业的自动化故障排查流程,直观展示了智能化运维在实际业务场景中的显著成效,强调了其在提升运维效率、降低运营成本方面的关键作用。 ####
44 4
|
20天前
|
人工智能 运维 监控
自动化运维:提升IT效率的关键策略
在当今快速发展的信息技术时代,企业面临着不断增长的数据量和复杂的系统架构。为了保持竞争力,自动化运维成为提高IT部门效率和响应速度的关键策略。本文将探讨自动化运维的核心概念、实施步骤以及面临的挑战,旨在为IT专业人员提供实现高效运维管理的实用指南。
32 0
|
2月前
|
运维 Linux Apache
,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具
【10月更文挑战第7天】随着云计算和容器化技术的发展,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具,通过定义资源状态和关系,确保系统始终处于期望配置状态。本文介绍Puppet的基本概念、安装配置及使用示例,帮助读者快速掌握Puppet,实现高效自动化运维。
67 4
|
27天前
|
机器学习/深度学习 运维 监控
智能化运维:从自动化到AIOps的演进之路####
本文深入探讨了IT运维领域如何由传统手工操作逐步迈向高度自动化,并进一步向智能化运维(AIOps)转型的过程。不同于常规摘要仅概述内容要点,本摘要将直接引入一个核心观点:随着云计算、大数据及人工智能技术的飞速发展,智能化运维已成为提升企业IT系统稳定性与效率的关键驱动力。文章详细阐述了自动化工具的应用现状、面临的挑战以及AIOps如何通过预测性分析和智能决策支持,实现运维工作的质变,引领读者思考未来运维模式的发展趋势。 ####
|
27天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的崛起背景,深入分析了其核心概念、关键技术、应用场景及面临的挑战,并对比了传统IT运维模式,揭示了AIOps如何引领运维管理向更高效、智能的方向迈进。通过实际案例分析,展示了AIOps在不同行业中的应用成效,为读者提供了对未来智能运维趋势的洞察与思考。 ####
67 1