国华电力早在许久之前就曾经使用北塔网络监控产品,但由于当前国华电力信息中心的网络管理系统呈分散状态,其范围也非常有限,致使无法全面了解国华电力客户信息网中计算机及网络系统的实时运行状况,对网络资源配置及网络流量分布也无法进行有效监控,关键在于无法实现运维流程与事故报警的联动。国华电力客户的各项业务系统对计算机网络和IT基础平台的依赖性越来越高,对系统与网络的可用性、可靠性和稳定性也提出了更高的要求。因此,对全局的计算机及网络系统进行高效、统一、集中的监控和管理是保证国华电力客户及各项业务系统正常运行的重要条件。
之前国华电力客户的IT管理主要面临以下问题:
网络管理的覆盖范围不足
缺乏统一的运维管理平台
作为网络管理员,必须有效地了解网络中数据传输是否正常、服务器以及网络设备是否过载运行、局域网内部以及局域网与互联网的连接是否正常、局域网是否受到非法者的攻击、用户之间的数据传输是否正常等等,同时,在遇到网络时断时续、网络内部用户不能正常上网等网络故障时,必须能快速定位故障点并将其排除。由于网络之间的数据传输的不透明性,没有统一的网络管理平台,管理手段落后,网络管理人员很难及时准确完成上述要求。
网络性能得不到充分发挥。
由于没有网络性能方面的管理工具,网管人员不能对网络进行有效的调整和优化。
对于国华电力这个集生产业务网络和电子政务外网混合组网的网络系统来讲,如果没有一个有效而集中的工具进行管理和分析网络的运行趋势,找到隐藏的性能瓶颈,为网络系统管理的长期规划提供数字依据。将难以保证网络及各项业务应用的顺利运行。
从业务视角管理IT
国华电力的业务系统通常由以下几个组件组成:
网络
主机
应用
用户
当某个组件出现问题,问题就会反映在业务服务仪表盘上,用户(包括业务部门)只关心提供给他们所使用的业务服务的状态与性能,而不关心技术细节。
之前国华电力客户的IT管理主要面临以下问题:
网络管理的覆盖范围不足
缺乏统一的运维管理平台
作为网络管理员,必须有效地了解网络中数据传输是否正常、服务器以及网络设备是否过载运行、局域网内部以及局域网与互联网的连接是否正常、局域网是否受到非法者的攻击、用户之间的数据传输是否正常等等,同时,在遇到网络时断时续、网络内部用户不能正常上网等网络故障时,必须能快速定位故障点并将其排除。由于网络之间的数据传输的不透明性,没有统一的网络管理平台,管理手段落后,网络管理人员很难及时准确完成上述要求。
网络性能得不到充分发挥。
由于没有网络性能方面的管理工具,网管人员不能对网络进行有效的调整和优化。
对于国华电力这个集生产业务网络和电子政务外网混合组网的网络系统来讲,如果没有一个有效而集中的工具进行管理和分析网络的运行趋势,找到隐藏的性能瓶颈,为网络系统管理的长期规划提供数字依据。将难以保证网络及各项业务应用的顺利运行。
从业务视角管理IT
国华电力的业务系统通常由以下几个组件组成:
网络
主机
应用
用户
当某个组件出现问题,问题就会反映在业务服务仪表盘上,用户(包括业务部门)只关心提供给他们所使用的业务服务的状态与性能,而不关心技术细节。
通过服务仪表盘,国华电力信息管理部门可以随时了解到:
业务服务运行状态
KPI指标(平均无故障时间MTBF、平均恢复时间MTTR)
各服务组件之间的依赖关系
故障对于服务的影响
以用户的身份感受IT服务
国华电力信息化建设为遍布全国的二十多个电厂业务支撑体系提供了大量的业务系统,从用户体验的角度出发,严格审查业务系统的可用成都,通过模拟用户行为,对业务支撑系统的业务流程进行监测,从应用的层面监控业务支撑系统的可用性。
业务服务运行状态
KPI指标(平均无故障时间MTBF、平均恢复时间MTTR)
各服务组件之间的依赖关系
故障对于服务的影响
以用户的身份感受IT服务
国华电力信息化建设为遍布全国的二十多个电厂业务支撑体系提供了大量的业务系统,从用户体验的角度出发,严格审查业务系统的可用成都,通过模拟用户行为,对业务支撑系统的业务流程进行监测,从应用的层面监控业务支撑系统的可用性。
三步走式的故障分析策略
国华电力目前针对全国二十个电厂提供的业务支撑系统复杂度相对较高,在出现异常情况时往往在初步的故障分析中就浪费了大量的时间,为此,国华电力信息管理中心提出了“三步走”式的监控机制,当出现故障时通过图形化的展示界面即可快速定位到故障点。
第一步:排除周边影响因素。即当故障时首先通过自动监控机制判断该业务系统主机的网络连接情况、业务系统首页打开情况、Web访问的端口情况等,将网络、主机、业务表现三个因素综合进行初步故障分析。
第二步:查清平台级影响因素。即在周边条件均正常时,通过自动监控机制提供各个应用平台级底层指标的性能负载及资源消耗情况,主要体现在对一些中间件、数据库、J2EE应用平台等IT资源中,实现业务应用平台级的故障分析。
第三步:由于在国华电力业务支撑体系中存在大量自行开发的应用程序,对这些程序的执行效率监控就形成了故障分析的法宝,通过自动化的日志监控机制将程序执行过程中的异常抛出按照关键字以及日志级别等方式进行过滤,使运维人员不在因错失日志而无法解决问题。
本文转自赖永锋51CTO博客,原文链接:http://blog.51cto.com/mochasoft/320170
,如需转载请自行联系原作者