网络故障排查与管理
故障监视就是要尽快地发现故障,找出故障原因,以便及时采取补救措施。在复杂的系统中,发现和诊断故障是不容易的。首先是有些故障很难观察到,例如分布处理中出现的死锁就很难发现。其次是有些故障现象不足以表明故障原因,例如发现远程节点没有响应,但是否低层通信协议失效不得而知。更有些故障现象具有不确定性和不一致性,引起故障的原因很多,使得故障定位复杂化。例如,终端死机、线路中断、网络拥塞或主机故障都会引起同样的故障现象,到底问题出在哪儿,需要复杂的故障定位手段。故障管理可分为如下三个功能模块。