英国《泰晤士报》报道,由于主要数据中心供电问题,英国航空公司5月27日的航班受到严重影响,大约75000名乘客受到取消航班影响。据称,这是由于承包商意外关闭数据中心电源造成的。由于影响到公司几乎所有的IT系统,英国航空公司被迫在公众假期周末期间取消从伦敦的希思罗机场和盖特威克机场出发的所有航班。
英国航空公司(BA)表示正在进行“详尽的调查”,以确定数据中心停电的根本原因。
正如行业媒体“计算机周刊”所报道,这个数据中心电力故障导致英国航空公司的入住,行李处理,预订和联络中心系统在5月27日宕机,导致两天内的两个机场的大部分航班被取消。
英国航空公司发言人表示,该公司知道发生了什么事情,但现在正在确定其事故原因。
该公司在声明说:“由于不受控制的电力中断,英国的数据中心遭受了巨大的损失,电源浪涌导致我们的IT系统宕机。我们正在进行详尽的调查,以了解具体情况,最重要的是要确保这种事情不能再次发生。”
在发生混乱的期间,航空专线小组工会就发表了自己的声明,指责2016年英国航空公司决定将其部分IT功能外包给印度,这是发生中断事件的一个因素。
英国航空公司的声明驳回了专线小组的指责,表示决定外包只是为了满足其资讯科技的要求,并不会造成中断事件。
据《电讯报》报道,“IT宕机并不是IT设备的失效,与IT外包无关。这是一个电力供应中断导致的事件。”让人们对这种中断有了更多的了解。并表明英国航空公司基于希思罗机场的两个数据中心之一的故障可能来自不间断电源(UPS)故障。
这个数据中心的电力最初在5月27日上午8时30分失效,如果UPS正常工作,电力应该被恢复。但是,正如英国航空公司的声明中所证实的那样,恰恰相反,没有提供备用电源,使其服务器发生了“灾难性的物理伤害”。
行业媒体“计算机周刊”的数据中心技术和生态高效IT研究副总裁Andy Lawrence表示,大多数数据中心供电系统的设计就是为了应对这种电力中断问题。他说:“电力系统中的一些系统显然未能达到预期的水平。”
英国航空公司进行的调查即将结束。然而为什么这么多的航空公司的系统受到影响,Lawrence对此表示不解。
他说:“很显然,英国航空公司一直在努力解决几个问题,从电源开始,再扩展到网络/消息系统,以及数据库/应用程序设计。从所有这些问题中恢复,当他们跨越多个团队并涉及多个承包商时,是具有挑战性的。”
他说,从整体应用架构的转变可能是一个因素。他表示,随着时间的推移,这些系统也在不断变化和发展,开发多个外部依赖关系的每个系统都在做出贡献。所有这些都要求采用分布式弹性战略,确保应用程序能够充分应对部分故障和不完整的数据。”Lawrence说。
他表示,“同样,数据中心冗余备份和关键的相互关联的系统可能需要在电气和逻辑上彼此分离。如果它们在同一个数据中心运行,那么这个数据中心规划和运行方面需要得到良好的实施,以减少其中断风险。”
本文转自d1net(转载)