FinTech领域实践:乐维监控助力西南某上市城商行IT运维转型升级!

简介: 企业IT运维自动化的转型之路。

FinTech领域实践:乐维监控助力西南某上市城商行IT运维转型升级!

项目背景

随着信息化的逐步深入,企业业务运营活动对IT的依赖程度越来越高,传统的局部、粗放、碎片化的IT运维管理模式已经无法满足安全生产的实际需要,IT运维必须向自动化、全面化、流程化模式转变,构建一站式监控平台,则成为企业 IT 架构升级、自动化转型的战略刚需。

0a76b59aaa97042db21d1d31c38e4524e570831c

相对其他行业来说,银行行业因为网络环境、系统软件复杂,资源整合程度高,系统数据安全级别高,权限管理复杂等原因,对技术的可靠性、稳定性和成熟性有着更高的要求。

 

客户简介

某银行是一家以国有股本为主、股权多元化的地方性股份制商业银行,引入马来西亚某银行作为境外战略投资合作伙伴。在上海证券交易所挂牌上市,成为某省首家上市银行、全国第8家A股上市城市商业银行。该银行致力于为广大小微企业客户提供优质高效的金融服务,利用自身优势,加强产品创新和“本土化”改造,开发了一批“特色化、标准化、本土化”产品。目前,旗下“财富金翼”小微企业融资品牌包括“壮大贷”、“成长贷”、“科创贷”、“科票通”、“创业贷”、“惠农贷”、“易采贷”等10余种产品,为不同发展阶段的小微企业融资提供多种金融方案以及一站式金融服务,不遗余力支持企业成长发展。

 

项目背景

该银行信息化建设蓬勃开展,IT规模逐年扩大,相应的故障次数也逐年增加。而在采用有效的管理方式之前,管理相关部门仍然采用传统的、分散、不统一的手工管理方式,且无专业团队对现有IT系统软硬件进行统一管理维护,建设、运行、支撑职责不分,缺乏有效的管理和运行监视手段,缺乏有效的针对设备/设施的资产管理。系统配套的管理手段的创建已经落后于相关建设的步伐,这样就造成了管理模式跟不上系统建设的工作矛盾。

该银行现有的生产监控系统于2011年开发完成,主要是基于IBM商业产品Tivoli,已使用7年时间。需在其基础上衍生基础设施纳控、集中告警、巡检报表等。为解决此问题,需对基础监控平台系统进行升级改造。一方面可以解决目前该银行监控系统存在的问题,另一方面也可以提高运维工作效率,降低运行风险。

 

解决方案

乐维监控结合该银行发展的现状及发展需求,在进行需求的前期调研和现场调研后,针对性的制定设计了一套完整的实施方案,帮助其构建一个安全、实用、可持续发展的智能监控管理平台

通过改造,对银行所有软硬件设备进行管理,综合展现运维管理数据和相关统计信息,以一个综合展现平台的方式展现所有关键管理数据,通过灵活的告警设备,精确的告警检测,多样的告警推送方式,简单的告警经验积累方式,实现用户有效及时得到故障信息。提供快速故障定位,故障分析,最终实现IT运维管理要求:

1.基础监控平台需完成生产系统服务器、操作系统、数据库、中间件、存储、网络设备等的实时监控,确保能够在故障发生时提供及时的告警和操作;

2.需有比较美观的展示界面和人性化的UI,能清晰方便的反映出企业纳控的IT资产运行状态及相关信息;

3.在完成对各项基础监控项的同时,需定制开发针对银行的特殊要求,监控项之间能配置关联关系,并能够生成性能分析和故障报告;

4.基础监控平台需将告警信息接入统一展示界面(与现有系统接入方式保持一致)。

5.需具备智能巡检功能,设置巡检周期,自动生成巡检报表,对重点关注指标进行检查并汇总发至指定人员邮箱,以供分析决策。

 

实施过程

针对该银行所面临的问题,乐维监控基于开源Zabbix(最新版本4.0)深度二次开发,利用开源技术及自身产品的高可用、可伸缩、易维护等特性,对银行的IT资产进行了梳理纳控,建设优化的处理。

c89cf6d56bbc94c703bdd5c004fc5ee4b1584a59

产品逻辑图谱

 

 

对象统一纳控,集中管理

1.     主机监控:RedHat、Windows、AIX、HMC

l  针对监控AIX小机LPAR信息、JFS文件系统、errpt日志信息、LVM信息和Linux不一样

l  AIX的HMC数据资源的管理

l  防火墙状态和应用服务监控

 

2.     网络设备监控:Cisco、H3C、华为、F5、迈普、山石、深信服

l  F5的层级划分、主备状态、配置同步、活跃连接数、pool

l  SDN-spine、SDN-leaf监控

l  网络设备的syslog日志对接

l  网络设备日常巡检相关报表展示

l  链路探测的不同方式(NQA、SQA),登录交互探测

 

3.     虚拟化监控:VMWARE

l  监控Clusters、Datacenters、Datastores、Hypervisors、VM

l  vCenter平台告警对接

l  Clusters、Datacenters、Datastores、Hypervisors、VM资源相互关联状态

l  模块与监控平台集成

l  消息与队列处理,对接

 

4.     数据库监控:Oracle、DB2、Mysql、Redis

l  SQL排名-时间

l  redo log

l  数据库dataguard状态、日志同步情况

 

5.     中间件监控:Weblogic、Tomcat、Nginx、RabbitMQ、ZooKeeper、WebSphere

l  接口对接

l  控制台数据采集

l  最大连接数、当前连接数

l  健康状态

l  线程池状态

l  server状态

 

6.     存储监控:EMC VNX、EMC VMAX、Netapp

l  需采用专门的存储工具,连接查询数据

 

7.     安全设备监控

l  电子银行WEB应用防火墙

l  电子银行IPS

 

标签化管理,对象分组,权限配置,为数据安全保驾护航

1.     支持标签化管理,方便对海量用户信息进行搜索、分类、整理记录。

2.     对象分组,可进行分类、排序、检索、批量删除。

3.     用户管理,支持登录名、手机、微信、密码、角色、有效期及是否能登录Zabbix等管理功能,支持对用户的角色授权的功能。

4.     权限配置,统计报表、首页、告警、监控对象等各个功能权限设置,可按照管理员级别进行分类设置。

 f458c169da3c997e463afdd551544f00ec12ee32

 

秒级智能告警平台,内置知识库,使运维有迹可循

l  自定义告警策略(告警分级、收敛),故障快照,动态基线,快速对接微信客户端、邮件、短信等多种工具,结合专家智库对故障高效处理,保障业务系统长期平稳运行。

l  告警关联专家智库,运维人员将故障处理方式记录到专家智库,这些信息将通过算法自动匹配到告警列表,为运维人员下次处理类似告警提供参考依据,支持对专家智库信息进行点赞和点踩,专家智库的匹配算法会根据用户点赞和点踩的行为进行智能匹配告警。

 7a6bde55318ef3803e5f293637980bd0f1a762db

 

 

智能运维巡检报表,定时邮件发送

l  支持自定义设置巡检周期、时间点对重点关注指标(包括但不限于CPU使用率、内存使用率、接口接收流量、借口发送流量、风扇转速、机房温度、机房备电灯等)展开日常巡检工作, 生成报表汇总发至指定人员邮箱,节约运维工程师人工巡检时间,提升运维效率。

 

 

 

终端UI界面全新升级,灵活切换主题皮肤

l  结合客户VI,对界面整体改良升级,并制定出标准版和暗黑版两款个性化皮肤,供自行选择切换,适用大多数应用场景,满足客户需求定制。


 484ee8393ddbd579a03bbca2d58aa873b2ff2137

标准版&暗黑版

 

客户收益

1.   通过IT资产全面梳理、全栈监控、实时告警等新型智能运维手段,建设出一套完善且灵活的成熟运维体系,告别传统“救火”式运维,运维效率提升10倍,企业运维成本降低超过50%。

2.   从项目、用户、角色等多个维度实施权限配置管理,为系统安全性和保密性提供保障。

3.   高可用的技术架构和灵活的调度能力,可覆盖并应用于绝大多数业务场景,持续赋能。

4.   智能高效的运维管理体系,帮助客户从IT管理的层面加快自动化进程。

相关文章
|
8天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维在现代IT基础设施中的应用与价值####
本文探讨了智能化运维(AIOps)在现代IT基础设施管理中的实际应用、面临的挑战及其带来的深远影响。通过引入先进的算法和机器学习模型,智能化运维不仅提高了故障检测与响应的速度,还显著优化了资源配置,降低了运营成本,为企业数字化转型提供了强有力的技术支撑。 ####
|
5天前
|
运维 监控
构建高效运维体系:从理论到实践
在当今快速发展的信息化时代,高效的运维体系是保障企业信息系统稳定运行的关键。本文旨在探讨如何构建一个高效、可靠的运维体系,通过分析当前运维面临的挑战,提出相应的解决策略,并结合实际案例,展示这些策略的实施效果。文章首先介绍了高效运维的重要性,接着分析了运维过程中常见的问题,然后详细阐述了构建高效运维体系的策略和步骤,最后通过一个实际案例来验证这些策略的有效性。
|
8天前
|
机器学习/深度学习 运维 监控
智能化运维:从被动响应到主动预防的转型之路####
本文深入探讨了智能化运维(AIOps)如何引领信息技术管理从传统的被动响应模式向主动预防机制转变,强调了大数据、人工智能算法与机器学习技术在提升系统稳定性和效率中的关键作用。通过分析智能化运维的核心价值、实施策略及面临的挑战,本文为读者揭示了一个更加智能、高效且灵活的IT运维未来蓝图。 ####
|
5天前
|
机器学习/深度学习 数据采集 人工智能
智能运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的兴起背景、核心组件及其在现代IT运维中的应用。通过对比传统运维模式,阐述了AIOps如何利用机器学习、大数据分析等技术,实现故障预测、根因分析、自动化修复等功能,从而提升系统稳定性和运维效率。文章还深入分析了实施AIOps面临的挑战与解决方案,并展望了其未来发展趋势。 ####
|
11天前
|
机器学习/深度学习 人工智能 运维
智能化运维:从传统到AIOps的转型之路####
本文探讨了智能化运维(AIOps)的兴起背景、核心价值及其对现代IT运维模式的深刻影响。通过分析传统运维面临的挑战,阐述了AIOps如何利用大数据、机器学习技术实现故障预测、自动化处理与决策支持,进而提升运维效率和服务质量。文章还概述了实施AIOps的关键步骤与面临的主要挑战,为组织向智能化运维转型提供参考路径。 ####
|
13天前
|
人工智能 运维 监控
构建高效运维体系:理论与实践的深度融合####
本文旨在探讨高效IT运维体系的构建策略,通过理论框架与实际案例并重的方式,深入剖析了现代企业面临的运维挑战。文章开篇概述了当前运维领域的新趋势,包括自动化、智能化及DevOps文化的兴起,随后详细阐述了如何将这些先进理念融入日常运维管理中,形成一套既灵活又稳定的运维机制。特别地,文中强调了数据驱动决策的重要性,以及在快速迭代的技术环境中保持持续学习与适应的必要性。最终,通过对比分析几个典型企业的运维转型实例,提炼出可复制的成功模式,为读者提供具有实操性的指导建议。 ####
|
15天前
|
机器学习/深度学习 人工智能 运维
智能运维:AIOps在大型系统运维中的实践与挑战
【10月更文挑战第28天】随着云计算、大数据和人工智能的发展,AIOps(人工智能运维)应运而生,旨在通过算法和机器学习提高运维效率和质量。本文探讨了AIOps在大型系统运维中的实践与挑战,包括数据质量、模型选择和团队协作等方面,并通过一个异常检测案例展示了其应用。尽管面临挑战,AIOps仍有望成为未来运维的重要方向。
46 5
|
11天前
|
运维 负载均衡 Ubuntu
自动化运维的利器:Ansible入门与实践
【10月更文挑战第31天】在当今快速发展的信息技术时代,高效的运维管理成为企业稳定运行的关键。本文将引导读者了解自动化运维工具Ansible的基础概念、安装步骤、基本使用,以及如何通过实际案例掌握其核心功能,从而提升工作效率和系统稳定性。
|
13天前
|
运维 资源调度 监控
提升运维效率的关键技术与实践
在当今快速发展的信息技术时代,运维工作面临着前所未有的挑战和机遇。本文旨在探讨如何通过采用先进的技术和实施最佳实践来提高IT运维的效率和效果。我们将深入分析自动化工具、监控策略、灾难恢复计划以及持续集成/持续部署(CI/CD)等关键领域,展示它们如何协同工作以优化运维流程。此外,文章还将提供一些实际案例研究,帮助读者更好地理解这些概念的应用。无论是对于初创公司还是大型企业,掌握这些技术都将是提升竞争力的关键。
|
8天前
|
机器学习/深度学习 运维 监控
智能运维在现代IT架构中的转型之路####
【10月更文挑战第29天】 本文旨在探讨智能运维(AIOps)如何成为现代IT架构不可或缺的一部分,通过分析其核心价值、关键技术及实践案例,揭示AIOps在提升系统稳定性、优化资源配置及加速故障响应中的关键作用。不同于传统运维模式的被动响应,智能运维强调预测性维护与自动化处理,为企业数字化转型提供强有力的技术支撑。 ####
36 0