事件管理决定一个网管软件的成功与失败

简介:
  很多人用网管软件很长时间了,但是还是觉得用起网管软件来,很不方便。这是什么原因呢?认真分析种种原因,最终发现,原来是很多人并没有把网管软件中的事件管理用好。
什么是事件管理
  首先向大家说明一下,什么是事件管理。首先我们想象一下,网络中各种IT元素也像人类这个社会一样,每天都会发生各种各样的事情,如某个网络设备宕机了,某个服务器重启了,或者某个网络端口宕掉了,等等。因此一旦网络中某些设备或者某些资源出现了问题,或者说设备的状态发生了变化,就自然而然会产生事件,如端口由UP状态变为Down状态;或者反之,由Down状态变为Up状态,都会产生事件。
  那么,我们再想象一下,如果没有事件管理,网管将会怎样?如果没有事件管理的话,针对IT资源的管理永远将会是处于一片混乱,我们根本不知道过去整个网络中到底发生了什么,我们只能够通过网络拓扑图仅仅看到红灯由绿变红,而后又由红变绿。这也就是为什么,很多人使用了网络管理软件后,总觉得网管软件不好用的原因之一,因为他觉得只要看网络拓扑图就足够了,而真正的驱动整个网络管理的运维流程和为管理维护人员产生短信通知等,都是事件管理的功劳。因此,说事件管理决定一个网管软件的成功和失败是不为过的。
好的事件管理软件好在何处
在这里,我们就为大家好好说一说一个好的事件管理软件是如何做到的:
1. 好的事件管理是能够进行根源性分析的。
  一旦网络中某个核心路由宕机,导致某个网段内的IT设备都不可访问,如果没有根源性分析的话,网管人员将会看到成百上千的故障事件,而有了根源性分析的话,管理人员只会收到一个故障事件的报告,网管人员只要恢复该故障事件即可解决问题。因此,一个好的事件管理能帮助网管人员减轻大量的工作量,而且能起到一剑封喉的作用,直接解决问题,省却大量的故障查找时间和故障分析时间。
2. 好的事件管理是能够防止误报的。
  一个网管系统上线后,网管人员常常会收到大量的故障告警,而通过查找和对比,网管人员往往会发现,其中95%的故障告警是垃圾告警,长此以往,真正的故障告警发生的时候,将会是狼来了,却没有人理会。这个是为什么呢?因为,市面上,很多网管软件都没有做误报过滤处理,如下图,很多的时候,一个性能超标事件常常是因为某个偶然因素,会向上跳至超标线,而后迅速恢复至正常。如果将该种超标视为故障而报警的话,将会导致网管人员疲于奔命的效果,因此摩卡软件公司的网管软件采用了Flapping技术,当某个指标连续超标N次后,才会告警。这个N是可以根据用户的实际需求,而灵活调整的。
3. 好的事件管理是能够提供压缩事件的。
  当一个服务器宕机后,如果在1个小时内没有恢复的话,很多网管软件会每隔几分钟就不间断的发出短信告警,但实际上运维人员已经在处理故障了,因此摩卡软件根据这个特点,实行了故障事件压缩处理,当故障事件产生后,只会发出一条告警事件,直到故障恢复。
4. 好的事件管理能够和问题指标自动关联的。
  很多时候,一个设备出现问题,往往不止是一个原因,因此摩卡软件的事件管理能够将性能故障和多个性能指标事件相关联,方便管理人员进行综合分析。
5. 好的事件管理是能够产生自定义事件,以方便和运维流程整合。
  故障事件产生后,是需要流程去解决的,因此必须为流程的启动和工单的触发预留足够的接口,而摩卡网管软件支持用户自定义事件,为流程的整合提供了灵活的接口,方便网管软件和IT运维流程管理软件进行整合。
总结
  如果没有事件管理,那么网管软件将会彻底的沦为形象工程,事件管理将决定一个网管软件的成功和失败,好的事件管理将会帮助网管人员节省大量的时间,提高工作效率,并帮助管理人员排定处理事故的优先级别,有序而高效的开展网络管理工作。








本文转自赖永锋51CTO博客,原文链接:http://blog.51cto.com/mochasoft/176190 ,如需转载请自行联系原作者
相关文章
|
20天前
【Azure 应用服务】Azure Function 部署槽交换时,一不小心把预生产槽上的配置参数交换到生产槽上,引发生产错误
【Azure 应用服务】Azure Function 部署槽交换时,一不小心把预生产槽上的配置参数交换到生产槽上,引发生产错误
|
1月前
|
运维 监控 安全
谷歌生产服务的事件管理方法
谷歌生产服务的事件管理方法
26 9
|
4月前
|
存储 监控 安全
企业如何建立网络事件应急响应团队?
建立企业网络事件应急响应团队是应对勒索软件等威胁的关键。团队的迅速、高效行动能减轻攻击影响。首先,企业需决定是外包服务还是自建团队。外包通常更经济,适合多数公司,但大型或有复杂IT环境的企业可能选择内部团队。团队包括应急响应小组和技术支持监控团队,前者专注于安全事件处理,后者负责日常IT运维和安全监控。团队应包括安全分析工程师、IT工程师、恶意软件分析师、项目经理、公关和法律顾问等角色。此外,选择合适的工具(如SIEM、SOAR、XDR),制定行动手册、合规政策,创建报告模板,并进行定期训练和演练以确保团队的有效性。外包时,理解团队构成和运作方式依然重要。
106 1
|
4月前
|
弹性计算 运维 监控
动态服务器监控与通知系统
【4月更文挑战第30天】
46 0
|
4月前
|
消息中间件 架构师 NoSQL
以架构师的视角,深入剖析如何设计订单超时自动取消的功能
我们在美团 APP 下单,假如没有立即支付,进入订单详情会显示倒计时,如果超过支付时间,订单就会被自动取消。 这篇文章,笔者想以架构师的视角,深入剖析如何设计订单超时自动取消的功能。
以架构师的视角,深入剖析如何设计订单超时自动取消的功能
|
4月前
|
移动开发 运维 监控
应用研发平台EMAS常见问题之前台控制在收到通知后通知栏不显示通知如何解决
应用研发平台EMAS(Enterprise Mobile Application Service)是阿里云提供的一个全栈移动应用开发平台,集成了应用开发、测试、部署、监控和运营服务;本合集旨在总结EMAS产品在应用开发和运维过程中的常见问题及解决方案,助力开发者和企业高效解决技术难题,加速移动应用的上线和稳定运行。
|
4月前
|
缓存
okcc呼叫中心系统坐席账户显示离线状态要怎么设置
如果 OKCC 坐席账户显示离线状态,可以尝试以下解决方案: 1. 检查网络连接:确保你的设备已连接到稳定的互联网网络。检查网络连接并重试登录,确保网络连接正常,并且没有任何限制或故障。 2. 重新登录:尝试退出 OKCC 坐席账户并重新登录。有时候重新登录可以解决账户离线状态的问题。 3. 清除缓存和数据:进入设备的设置,找到 OKCC 坐席应用,清除其缓存和数据。然后重新启动应用并尝试登录。 4.查看当前坐席创建的数量是否已超出坐席授权数量。 5. 登陆客户管理员账户,设置->业务中是否勾选“不允许通过web修改坐席状态”的选项。 6. 更新应用版本:确保你的 OKCC 坐席应
|
4月前
|
安全 前端开发 PHP
医院安全不良事件报告管理系统源码 包括护理相关事件、医疗相关事件、药件相关事件、设备相关事件、院感相关事件、输血相关事件、医技相关事件、安保后勤事件、信息相关事件
医院安全不良事件报告管理系统源码 包括护理相关事件、医疗相关事件、药件相关事件、设备相关事件、院感相关事件、输血相关事件、医技相关事件、安保后勤事件、信息相关事件
73 0
|
12月前
|
安全 数据挖掘 BI
医疗安全(不良)事件管理系统源码 不良事件上报系统
医疗安全(不良)事件管理系统,主要包括对上报事件的保存、审批、修改及基本事件的统计分析等功能。 随着对患者安全关注度的逐渐提高,对于医院可能存在的各类不良事件进行上报和处理,对数据进行统计和分析,完成对事件的持续改进和整体风险评估,有效预防不良事件再次发生。 医疗安全(不良)事件管理,让上报者更加准确、快捷的将不良事件内容报告给相关管理人员,使管理者系统地收集资料,并通过深入分析和学习,寻找管理中的薄弱环节,完善系统结构,最终有效预防不良事件再次发生。
|
存储 设计模式 监控
流程级事件风暴
流程级事件风暴