问题管理的目标是找出突发事件产生的根本原因,由于IT基础架构错误引起的突发事件和问题的负面影响,防止与错误相关的突发事件的再次发生。通过实施主动问题管理,在事件发生之前发现问题并解决,从而减少事件发生的数量。
问题是导致一个或多个事件的根本原因,而这些根本原因还没有诊断出来。事件管理强调在给用户和公司的正常业务活动带来最小影响的情况下,尽快恢复到SLA中定义的正常服务级别。采取任何可能的方法,包括一个临时解决方案(应急措施)来快速地解决事件,尽可能确保最好的服务质量和可用性。与事件管理强调速度不同,问题管理则注重诊断事件的根源,确定问题的根本原因,从而制定恰当的解决方案,从根本上解决问题,防止类似事件的再次发生。事件管理为了尽可能快地恢复服务,往往会采用临时解决方案,问题管理比起事件管理则会花费更长的时间。
(1)问题的识别和记录。原则上,任何一个由未知原因引起的事件都与某个问题有关。问题的识别通常会发生在以下情况:在事件管理流程中没有问题或已知错误来匹配事件;通过分析发现该事件又再次发生了,或者发生了重大事件;事件不能与现有问题或已知错误相匹配;通过对IT基础设施的分析识别出导致事件的问题。
问题记录和事件记录一样都被记录在配置管理数据库(Configuration Management Database,CMDB)中,问题记录会跟所有有关联的事件记录关联在一起。事件的解决方案以及临时解决方案的细节都应该被记录在问题记录中而不是事件记录中,以便它们可以用于将来有关联的事件中。
(2)问题的诊断和处理。通过问题诊断成功获取问题的根本原因并找到解决途径后,该问题将转变为一个已知错误。问题调查除了与事件调查的目标不同外,其流程类似。事件调查的主要目的是为了恢复服务的正常运作,而问题管理则是为了确定问题的根源。
在事件调查期间所采用的任何应急措施,都应该在问题调查阶段考虑,如果有必要的话,在问题记录中还要更新与已知错误、解决方案和应急措施相关的信息。
一旦诊断出配置项中的故障,那么该问题状态被转变为已知错误,然后开始进行错误控制。当一个问题被诊断为一个程序错误而不是配置项故障时,记录应该被更新为正确的代码然后关闭该问题,通常这样的问题不会转化成已知错误。
(3)问题的关闭。在满足问题关闭规则指定的条件之后,关闭问题,同时可将关联的所有事件一同关闭。