随着大量数据应用和业务量的激增,对大多数企业来说数据中心安全运行至关重要。然而,大多数企业低估了维护数据中心安全运行的重要性。据统计,数据中心的停机一分钟平均损失将超过8800美元。
那么,数据中心停机的原因是什么?又该如何避免这么此类事件发生呢?
以下是数据中心停机的一些最主要的原因:
- UPS系统故障。如果企业投资建设数据中心,就必然要构建可靠的UPS供电系统,虽然其名为“不间断”,但并不能保证百分之百的可靠性,无论采用什么类型的UPS,仍然有可能发生短时间(10秒以内)或长时间(超过10秒)故障。这些故障可能是由一些潜在的问题引起的,例如UPS本身具有固有的缺陷,其质量或可靠性会随着时间的推移逐渐下降,另外蓄电池组失效,以及使用和维护不当也是引起UPS系统故障的原因,当然,雷电等自然灾害也是引起其故障的一个原因。
- 网络犯罪。根据波洛蒙研究所的一项研究,网络犯罪是导致数据中心停机或业务中断的一个日益增长的原因,2010年网络犯罪引起数据中心停机只占所有事件的2%,如今已上升至22%。如果一个网络犯罪分子找到一种远程访问企业数据中心的方式,那么他就可能很容易挟持数据中心的数据和操作,或者完全拒绝数据中心的正常访问和操作。
- IT设备自身故障。企业的服务器本身故障也是停机时间的主要原因。如果维护不当,或者电源连接不可靠,那么数据中心就有可能因此发生故障。
显然,这些停机原因并不是不受企业的控制。正如业界专家所说,预防性维护和主动维护可以避免大部分的停机。主动维护应注重以下三个方面:
(1)减少人为错误。首先,企业需要减少因人为错误引起的设备风险。如果企业的IT人员没有对如何维护设备进行适当的培训,或者不知道如何识别潜在问题或对其及时的做出反应,那么当他们面对故障时将无法采取必要措施。此外,大多数网络犯罪或因没有采用强大的密码,或是因为钓鱼网络而被侵入,最终都归因于某种人为错误。如果企业希望尽可能长时间地保持数据中心的全面运行,对其员工进行更好的培训是必要的措施。
(2)定期检查维护。服务器是复杂的机器,需要得到良好维护,如果企业希望最大限度地延长其生命周期,则需要定期监控其性能,检查内部风扇和电源连接等,并定期更换零件。持续的维护虽然会产生额外的费用,但是与因停机造成的损失相比要低得多。
(3)制定预防策略。最后,企业可以通过制定不同的风险预防策略来降低风险。例如,通过更好地保护物理服务器,并在不同的位置进行镜像备份来减轻自然灾害的风险;通过进行主动的安全防护,可以减少网络犯罪的风险;还可以通过使用优质的电源设备,降低遭受停电的风险。
减少几分钟的数据中心停机时间,可以节省数万美元的业务成本,甚至避免出现难以挽回的损失。企业需要花费时间和精力构建一套更好的系统来主动管理硬件以及公司员工。采取这样的策略之后,企业将会受益无穷。
本文作者:佚名
来源:51CTO