IT运维管理中问题管理的关键点包括哪些?

简介: 采取任何可能的方法,包括一个临时解决方案(应急措施)来快速地解决事件,尽可能确保最好的服务质量和可用性。

问题管理的目标是找出突发事件产生的根本原因,由于IT基础架构错误引起的突发事件和问题的负面影响,防止与错误相关的突发事件的再次发生。通过实施主动问题管理,在事件发生之前发现问题并解决,从而减少事件发生的数量。

问题是导致一个或多个事件的根本原因,而这些根本原因还没有诊断出来。事件管理强调在给用户和公司的正常业务活动带来最小影响的情况下,尽快恢复到SLA中定义的正常服务级别。采取任何可能的方法,包括一个临时解决方案(应急措施)来快速地解决事件,尽可能确保最好的服务质量和可用性。与事件管理强调速度不同,问题管理则注重诊断事件的根源,确定问题的根本原因,从而制定恰当的解决方案,从根本上解决问题,防止类似事件的再次发生。事件管理为了尽可能快地恢复服务,往往会采用临时解决方案,问题管理比起事件管理则会花费更长的时间。

(1)问题的识别和记录。原则上,任何一个由未知原因引起的事件都与某个问题有关。问题的识别通常会发生在以下情况:在事件管理流程中没有问题或已知错误来匹配事件;通过分析发现该事件又再次发生了,或者发生了重大事件;事件不能与现有问题或已知错误相匹配;通过对IT基础设施的分析识别出导致事件的问题。

问题记录和事件记录一样都被记录在配置管理数据库(Configuration Management Database,CMDB)中,问题记录会跟所有有关联的事件记录关联在一起。事件的解决方案以及临时解决方案的细节都应该被记录在问题记录中而不是事件记录中,以便它们可以用于将来有关联的事件中。

(2)问题的诊断和处理。通过问题诊断成功获取问题的根本原因并找到解决途径后,该问题将转变为一个已知错误。问题调查除了与事件调查的目标不同外,其流程类似。事件调查的主要目的是为了恢复服务的正常运作,而问题管理则是为了确定问题的根源。

在事件调查期间所采用的任何应急措施,都应该在问题调查阶段考虑,如果有必要的话,在问题记录中还要更新与已知错误、解决方案和应急措施相关的信息。

一旦诊断出配置项中的故障,那么该问题状态被转变为已知错误,然后开始进行错误控制。当一个问题被诊断为一个程序错误而不是配置项故障时,记录应该被更新为正确的代码然后关闭该问题,通常这样的问题不会转化成已知错误。

(3)问题的关闭。在满足问题关闭规则指定的条件之后,关闭问题,同时可将关联的所有事件一同关闭。

相关文章
|
6天前
|
传感器 安全 数据处理
资源管理新策略:系统设计中的创新方法
资源管理新策略:系统设计中的创新方法
60 1
|
8月前
|
运维 监控 持续交付
基于应用视角的智能运维
基于应用视角的智能运维
103 0
|
9月前
|
存储 弹性计算 运维
如何从用户视角搭建可观测体系?阿里云ECS业务团队的设计思路
本文以阿里云ECS业务为例,探讨阿里云最核心、亚太地区业务规模最大的产品之一,在极高的稳定性和性能要求下,如何基于云构建可观测性并从客户视角建立观测能力,以及在推进体系建设中的成功经验和待改进之处。
如何从用户视角搭建可观测体系?阿里云ECS业务团队的设计思路
|
10月前
|
Linux Docker 容器
综合管控平台基础环境部署(一)
综合管控平台基础环境部署(一)
274 0
|
10月前
|
关系型数据库 MySQL 数据安全/隐私保护
综合管控平台基础环境部署(二)
综合管控平台基础环境部署(二)
177 0
|
12月前
|
存储 监控 安全
「技术管理」有效技术生命周期管理的6个步骤
「技术管理」有效技术生命周期管理的6个步骤
|
运维 数据可视化 数据挖掘
IT运维服务管理中的知识的重要性
通过知识的创建、共享、积累、分析,以及知识的快速检索与获取,利用知识创造价值,从而提高IT部门的能力和运维人员的个人能力
111 0
IT运维服务管理中的知识的重要性
|
运维 监控 算法
如何建立高效告警体系提升日常运维效|学习笔记
快速学习如何建立高效告警体系提升日常运维效。
253 0
如何建立高效告警体系提升日常运维效|学习笔记
|
SQL 运维 监控
Dataphin产品核心功能大图:调度运维,为数据建设保驾护航
Dataphin运维中心支持任务调度配置、异常运行诊断、监控告警和重跑等运维操作,为数据有序产出和任务稳定运行保驾护航!
Dataphin产品核心功能大图:调度运维,为数据建设保驾护航
|
运维 监控 安全
IT运维管理中可能存在的关键问题
公司在信息化水平日益完善的同时,随之而来的是更多的应用系统、软硬件平台和设备等需要维护和管理。如何对结构复杂的IT系统进行有效的监控和管理,已经成为了企业信息化部门非常关注的一个问题。作为IT管理部门,经常被大量的IT故障和问题所困扰,“拆东墙补西墙”的尴尬场景也是常常上演。不论哪一家企业,只要它的员工和IT系统发展到一定的水平,就会不可避免地面临IT系统管理的一系列难题。
311 0
IT运维管理中可能存在的关键问题