亲历火灾:数据中心灾难恢复启示录

简介:

作者注:该故事基于真实事件。每个细节都来自我的学生和我获得的一手事实。

凌晨三点,我的手机收到一封告警。自从我们安装了新的数据中心基础设施管理系统后,每晚我都能收到十倍以上的告警,但都不是很严重的问题。但这次不同,我们主数据中心的温度虽然都在ASHRAE的允许温度范围内——但高于公司运营限制,而且还在不断上升。

财务部门在有人确定既定标准与设计之前就决定了我们新数据中心的预算,我们不得不经常削减其中的灾难恢复策略。我曾坚持要求额外的空调以及模块化的不间断电源系统(UPS)冗余。除了这些,设计师认定我们在Uptime Tier III级别标准,但我们也没有理由去花钱来获得认证。

我通知了保安。他们也收到了相同的告警,但没有一个人能够定位问题。在叫醒了设施经理,他表示会安排人员到场后,我穿好衣服并前往设施。

压力与无力感

一小时后,我走进那个感觉像沙哈拉沙漠的数据中心。灯光到处闪烁,服务器所有的风扇全速运转,我们10台空调有2台出现了故障。一些服务器已经自动关机了。我突然意识到本该落实到位的灾难恢复策略已经开始崩溃。

数据中心基础设施管理显示的内容令人困扰,而且图形用户界面并没有任何意义,用户登陆后的首菜单后,没有看到问题。一大串数据显示温度已经持续升高了数小时。为什么我没有更早得到告警?我发现一张看起来像天书的电气图,但我知道这个可能是UPS系统。我知道从那里可以找到我们服务器机柜的面板,但并不知道具体的控制机制。墙上还有一些电器面板,但标签没有任何意义。“LBTA-3”可能是任何东西,而且面板门被锁住了。

设施与IT不匹配,数据中心就崩溃了——特别是在紧急情况下。解决冲突的一种方案是让某个IT团队成员也对设施管理负责。另一种方法是简化两部门之间的沟通。

设施工作人员赶到现场后,他证实了我已知道的事实:没有足够能源来支持我们所有设备。他检查了所能找到的断路器,没有发现任何错误,但在没有电工的情况下我们无法进一步排查。这时候只好继续打电话给设施经理,接着等电工到达。

一台接一台,我关闭了服务器,避免灾难性崩溃发生。不久电工到了,而且他知道电路板在哪里——那扇我们无法进入,只有靠他的特殊钥匙才能打开的门后面。他开启了大门,里面很凉快。这间同样是UPS室,而里面只有一台空调在运转。单台空调意味着我们的冗余UPS被安置在非冗余冷却环境中。

事情升温

在电工重置了跳闸的主断路器后,空调开始恢复运作——但好景不长。火苗从电箱面板的小裂缝处冒出。我们的吸气式烟雾探测系统如果及时通知我们事情严重了,我们就能在主消防系统释放灭火气体之前解决问题。烟雾迅速弥漫整个数据中心,伴随着震耳欲聋的告警声。但在没有任何预警的情况下,主系统已经开始气体释放倒计时。由于数据中心内没有着火,我按下了重载按钮,但只有倒计时被重置了。消防员出现在门口。只有空调电源出现问题,不是UPS或服务器电源,但他们立刻到达了大红色的EPO(紧急电源关闭)按钮处。我朝他们大喊,但他们还是按下去了。几秒钟后,灭火气体释放了。电工赶往地下室切断机房的主供电,而消防员正在往燃烧的配电箱中浇灌泡沫。

在DR站点遭到冷遇

当外海办事处同事通过越洋电话询问我发生了何事,为什么他们无法访问公司电话时,我向他们保证,根据我们的灾难恢复策略,需求会被转发到灾难恢复站点。然而,虽然我们已经签约了站点,但我们实际并没有进行任何传输操作,就是我们还没有转移IT基础设施——无论是物理的还是虚拟的——到DR站点。当我打电话给DR供应商宣布紧急状况时,他们告诉我站点没有热维护,也无法随时上线。我们一直都在做日常数据备份到灾难恢复中心,但需要时间让我们进行用户转移操作。而且我们需要自己的员工到场才能进行。

当数据中心灾难发生,必须与组织的其余部门进行通信。通过创建通信树计划来避免混乱,也可以通过自动通知系统来告知数据中心灾难。

在电气室,火已经扑灭,电源被关闭,我们需要靠应急灯照明才能工作。电工在移除交换板的面板后,发现总线已经烧毁,把备用总线也烧毁了。我知道现在唯一的选择就是让IT服务在DR站点恢复运转,并重新评估我们的灾难恢复计划。

研究表明,75%的数据中心故障是人为错误,这意味着我们可以从他人的经验中学习,包括上述事件。
本文转自d1net(转载)

相关文章
|
数据中心
盘点数据中心火灾案例
盘点数据中心火灾案例几乎每个夏天我们都能看到数据中心失火的新闻,由于数据中心的特殊性与重要性,每次火灾都会对数据中心造成重大影响:2014年7月20日,重庆农商行数据中心发生火灾,起因为该行总行扩展机房突发线路电气故障,导致电气系统着火。
|
7月前
|
存储 传感器 监控
探索现代数据中心的冷却技术革新
【4月更文挑战第23天】 在信息技术迅猛发展的今天,数据中心作为计算和存储的核心枢纽,其稳定性和效率至关重要。然而,随着处理能力的增强,设备发热量急剧上升,有效的冷却方案成为确保数据中心持续运行的关键因素。本文将深入分析当前数据中心面临的热管理挑战,并探讨几种前沿的冷却技术,包括液冷系统、热管技术和环境自适应控制策略。通过比较不同技术的优缺点,我们旨在为数据中心管理者提供实用的冷却解决方案参考。
|
4月前
|
机器学习/深度学习 存储 监控
利用机器学习技术优化数据中心能效
【7月更文挑战第36天】在数据中心管理和运营中,能源效率已成为关键性能指标之一。随着能源成本的不断上升以及环境保护意识的增强,开发智能化、自动化的解决方案以降低能耗和提高能源利用率变得尤为重要。本文探讨了如何应用机器学习技术对数据中心的能源消耗进行建模、预测和优化,提出了一个基于机器学习的框架来动态调整资源分配和工作负载管理,以达到节能的目的。通过实验验证,该框架能够有效减少数据中心的能耗,同时保持服务质量。
|
7月前
|
存储 大数据 数据处理
探索现代数据中心的冷却技术
【5月更文挑战第25天】 在信息技术迅猛发展的今天,数据中心作为其核心基础设施之一,承载了巨大的数据处理需求。随着服务器密度的增加和计算能力的提升,数据中心的能耗问题尤其是冷却系统的能效问题日益凸显。本文将深入探讨现代数据中心所采用的高效冷却技术,包括液冷解决方案、热管技术和环境自适应控制等,旨在为数据中心的绿色节能提供参考和启示。