损失惨重!数据中心失火,360 万个网站下线,Rust 游戏 25 台服务器数据永久丢失

简介: 数据中心失火,360 万个网站被迫下线,一些企业甚至还没有灾难恢复计划,这是被一锅端了?

作者:核子可乐、Tina

欧洲云计算巨头 OVH 位于法国斯特拉斯堡的机房近日发生严重火灾,该区域总共有 4 个数据中心 (Strasbourg Data Center),发生起火的 SBG2 数据中心被完全烧毁,另有一个数据中心 SBG1 的建筑物部分受损。出于安全起见,OVH 位于斯特拉斯堡的全部数据中心暂时关闭了服务。

b217640164f80ca7041d8914133832ec.png

OVH 公司目前在欧洲、北美及亚洲拥有 27 处数据中心,除 AWS、微软 Azure 以及 Google Cloud 之外,OVH 堪称全球体量最大的 Web 托管服务商之一,甚至被不少人视为欧洲托管服务业的希望。毕竟与其把数据交给美国人,还不如由本地运营商打理。

47df24f916f29e4c0649442591f3d0f5.png

火灾之前的数据中心大楼

这场大火彻底摧毁了五层高、占地 500 平方米的 SBG2 数据中心,并导致相邻 SBG1 服务器发生损坏。但消防人员及时赶到,保护 SBG3 与 SBG4 免遭冲击。OVH 公司目前在欧洲运营有 15 处数据中心,其中有 4 处位于斯特拉斯堡园区。园区内另有 1 处新数据中心在建。

在消防员们成功平息火势之后,OVH 立即介入并对斯特拉斯堡园区的数据中心设施进行盘点。该公司发现,SBG2 的某一房间在当天 00:47 发生大火,主体建筑在 04:09 被完全摧毁。位于莱茵河毗杜港莱茵工业区的 SBG1 数据中心同样受到影响。目前,全部 4 处数据中心均已离线。

Klaba 在最新发布的推文中提到,“SBG1 已经遭到部分破坏。”他还建议客户立即启动灾难应对计划,并补充称“整个站点均已被隔离,并影响到 SBG1 至 SBG4 承载的所有服务。”

4a04453300bc66729eb9b315b8d76772.png

232b36ad577a16364fa5c44136c48473.png

OVHcloud 在服务状态页(截至本文发稿时)表达了深切歉意,并恳请客户不要“申请重置”。作为三大云巨头(AWS、微软 Azure、Google Cloud)之外欧洲最大的网络托管服务商,OVH 公司董事长 Klaba 表示恢复计划将“为 SBG3 数据中心重建 2 万伏供电设备”;“为 SBG1/SBG4 重建 240 伏供电设备”;验证网络机房内的路由器 / 交换机;并在各处数据中心内兴建额外的冗余网络机房。他还在另一条推文中提到,“SBG1 中的网络机房并未受到影响。”

引发火灾的原因尚不清楚,但当地报纸称 115 位消防员投入 6 个小时才将其扑灭。经过长达 6 个小时的持续燃烧,SBG2 内的数据恐怕已经彻底丢失。

“不!我没有任何灾难恢复计划!”

这场大火对欧洲范围内的众多网站造成严重影响。据 Netcraft 称,目前跨 464000 个域的多达 360 万个网站皆已下线。

受到此次大火影响的客户包括欧洲航天局的数据与信息访问服务 ONDA 项目,此项目负责为用户托管地理空间数据并在云端构建应用程序。ONDA 项目负责方为 Serco 意大利分部,OVH 则参与提供云基础设施,将来自哥白尼地球观测项目的 10 PB 非预结构化数据通过公有云交付至开发者手中。项目管理方表示,所有服务“在……今天上午斯特拉斯堡 OVH Cloud 基础设施发生重大火灾之后,均被暂时禁用。”

Rust 旗下的游戏工作室 Facepunch Studios 证实,有 25 台服务器被烧毁,他们的数据已在这场大火中全部丢失。即使数据中心重新上线后,也无法恢复任何数据。

c90b3ebbdac581e5af7025d0df97a7ad.png

其他客户还包括法国政府,其 data.gouv.Fr 网站之前被迫下线,但目前已经恢复运行。另外还有加密货币交易所 Deribit,以及负责跟踪 DDoS 僵尸网络与其他网络滥用问题的信息安全威胁情报厂商 Bad Packets。Bad Packets 公司首席研究官 Troy Mursch 在之前的推文中提到,“可能会有部分数据丢失”,但其随后在采访中澄清称这里指的并不是该公司自己的数据。

无论如何,这场大火还是跟信息安全行业搭上了关系。卡巴斯基研究总监兼全球分析团队负责人 Costin Raiu 今天早上宣布,此次火灾还烧掉了不少防止发布恶意软件的服务器。“我们在 OVH 当中已经发现 140 台被 APT 及其他网络犯罪集团利用的已知 C2 服务器,其中约 64% 目前仍然在线。受到影响的 36% 服务器与多个 APT 团伙有关,包括:Charming Kitten、APT39、Bahamut 以及 OceanLotus。”

在一份采访声明中,Raiu 解释道:“根据我们的跟踪数据,OVH 在全部托管有恶意命令与控制基础设施的互联网服务供应商中排名第九。但总体而言,OVH 托管的 APT 与网络犯罪集团 C2 设备在总量中的占比不到 2%,远远低于 CHOOPA 等其他托管服务商。”

他还提到,“我认为这次意外事件对恶意团伙的影响很小;更重要的是,大部分复杂恶意软件都配置有多台 C2,用以缓解入侵及其他风险。很高兴看到此次火灾没有造成人员伤亡,也希望 OVH 及其客户能够从灾难当中尽快恢复。”

受到火灾影响的其他 OVH 客户还包括欧洲人民大学、斯特拉斯堡机场、瑟堡市政府、标致 - 索绍工厂委员会、浏览啤酒厂、克莱蒙费朗橄榄球俱乐部、以及西班牙职业足球俱乐部维拉里尔。市场营销平台 Paper.li 同样受到影响,并在用户通告中表示“我们服务供应商的数据中心出现重大问题,导致服务中断”,并决定“以承担部分后果的方式……支持这家托管服务商。”

专门销售苹果配件的供应商 CoverStyle 以及免费国际象棋平台 Lichess.org 网站也受到了影响,但后者明显灾备措施更到位,短短 24 小时之后即重新上线。此外,加密货币交易所 Deribit、电信公司 AFR-IX、加密货币实用程序 VeraCrypt(包括其 git 与站点)都受到影响。为了解决问题,VeraCrypt 决定将用户引导至 SourceForge 与 GitHub,“在服务中断期间继续下载及访问源代码。”绘图板平台 pr0gramm 则立刻将火灾事件发布给访问用户,并承诺最后一轮备份已经于 2 小时前完成。

但也有人没那么走运:

“不!!!我靠!!!我就是个普通客户,没有任何灾难恢复计划……我的服务器在机架 70C09 上,它现在还好吗?”

不同寻常的火灾

这场火灾强烈地提醒着我们,云服务与所有技术一样,有利也有弊。

云服务最大的优势在于,让人们不必担心硬件问题,具有非常好的可扩展性和灵活性:它可以对需求变化快速地做出反应,并且用户可以按需付费,从任何地方进行访问。但是,即使在云中,用户的数据也始终位于某个地方。这个地方仍然需要安全性、数据保护、备份和灾难恢复。

让很多人疑惑的是,作为一家有名的云服务提供商,技术应该很成熟,也应该有软件对此类事件进行预警,并自动启动灭火系统。但这些系统都没有起到作用,消防员到来后根本就压制不住熊熊的火势。

从历史看,这次火灾也许跟 OVH 公司的电网建设有关。三年前 OVH 公司曾经启动一项“400 万至 500 万欧元的投资计划”,希望杜绝 2017 年 11 月 SBG1、SBG2 与 SBG4 三处数据中心因重大停电事故而导致离线 3.5 小时这类事件的再次发生。Klaba 本人在评论 2017 年断电事件时曾表示,部分原因是“SBG 直接接入当地电网系统,但当地电网在建设之初并没有考虑到大规模基础设施带来的用电负载。”

“SBG2 的电网建立在 SBG1 的电网之上,而非两处数据中心彼此独立。”在被问及此次升级的更多细节时,OVH 方面表示计划“拆除部分货运集装箱(用于放置设备)”以及主体电气工程。

Gartner 公司高级分析师 Tiny Haynes 在谈到这场大火时评论道,“此次火灾不同寻常。我能想到的上一次同类事件发生于 2012 年 7 月,当时毁于大火的是卡尔加里的 Shaw 通信数据中心,一场大火摧毁了整座数据中心,部署于其中的火情监测与抵制系统并没能发挥应有的作用。在没有得到官方信息的情况下,我猜测问题很可能源自 UPS 故障。”

“这是我在职业生涯中亲眼见证的又一次数据中心燃烧事件,好在当时那处设施还没有全面运行。以模块化或者园区形式建设数据中心,就是会带来这样的风险。”

“在初步设计数据中心时,往往设想不到园区的总体电力与制冷能力需求。随着园区规模的发展,对电力及制冷能力的需求也会越来越大。我们已经在伦敦港区的 Harbour Exchange 遇到过类似的情况。对于这类最初设计并非作为数据中心的建筑,总会留下各种各样的疑难杂症。”

在谈到客户面对此类事件该如何保护自己时,Haynes 认为“最重要的是,企业必须在保证数据中心基础设施符合 TIA 942 Iter II 标准的审计之外,还同时具备完善且明确记录在案的变更管理、事件响应以及风险管理方法。”

OVH 公司创始人兼董事长 Octave Klaba 也于昨天简要介绍了恢复计划,表示各处数据中心对应的电力基础设施同样受到影响,预计至少需要七天才能重新运转。Klaba 提到,该公司拥有“随时可以交付给所有受影响客户的免费”新服务器、pcc 与 pci,同时计划“在未来三到四周之内增加 10000 台服务器。”

四天之前,OVH 公司宣布有意竞购法国流媒体初创企业 Shadow(也称 Blade)。本周一,这家云服务商还谈到上市计划。一位发言人在采访中表示,OVH“已经开始在巴黎筹划上市工作。”

火灾发生后,竞争对手 Equinix 给予了出色的回应:

f5cb25cb71397ed16cd66c3a2160118e.png

参考链接:
https://www.theregister.com/2021/03/10/ovh/
https://www.datacenterdynamics.com/en/news/ovh-fire-destroys-rust-game-data-takes-other-sites-offline/

目录
相关文章
|
24天前
|
存储 数据挖掘
服务器数据恢复—用RAID5阵列中部分盘重建RAID5如何恢复原raid5阵列数据?
服务器数据恢复环境: 一台服务器挂接一台存储,该存储中有一组由5块硬盘组建的RAID5阵列。 服务器故障: 存储raid5阵列中有一块硬盘掉线。由于RAID5的特性,阵列并没有出现问题。工作一段时间后,服务器出现故障,用户方请人维修。维修人员在没有了解故障磁盘阵列环境的情况下,用另外4块硬盘(除去掉线的硬盘)重新创建了一组全新的RAID5阵列并完成数据同步,导致原raid5阵列数据全部丢失。
|
2月前
|
存储 弹性计算 缓存
阿里云服务器ECS通用型实例规格族特点、适用场景、指标数据解析
阿里云服务器ECS提供了多种通用型实例规格族,每种规格族都针对不同的计算需求、存储性能、网络吞吐量和安全特性进行了优化。以下是对存储增强通用型实例规格族g8ise、通用型实例规格族g8a、通用型实例规格族g8y、存储增强通用型实例规格族g7se、通用型实例规格族g7等所有通用型实例规格族的详细解析,包括它们的核心特点、适用场景、实例规格及具体指标数据,以供参考。
阿里云服务器ECS通用型实例规格族特点、适用场景、指标数据解析
|
1月前
|
Python
Flask学习笔记(三):基于Flask框架上传特征值(相关数据)到服务器端并保存为txt文件
这篇博客文章是关于如何使用Flask框架上传特征值数据到服务器端,并将其保存为txt文件的教程。
31 0
Flask学习笔记(三):基于Flask框架上传特征值(相关数据)到服务器端并保存为txt文件
|
2月前
|
存储 弹性计算 安全
阿里云服务器ECS计算型实例规格族特点、适用场景、指标数据参考
阿里云服务器ECS提供了丰富的计算型实例规格族,专为满足不同场景下的高性能计算需求而设计。包括计算型实例规格族c8y、计算型实例规格族c7、计算型实例规格族c8i等热门计算型实例规格,以及网络增强型的c7nex、密集计算型的ic5等其他计算型实例规格,每一种规格族都经过精心优化,确保在计算性能、存储效率、网络吞吐和安全特性等方面达到最佳平衡。本文将详细解析阿里云服务器ECS中的多个计算型实例规格族,包括它们的核心特点、适用场景、实例规格及具体指标数据,为用户在云计算资源选型时提供全面参考。
阿里云服务器ECS计算型实例规格族特点、适用场景、指标数据参考
|
1月前
|
SQL 分布式计算 关系型数据库
Hadoop-21 Sqoop 数据迁移工具 简介与环境配置 云服务器 ETL工具 MySQL与Hive数据互相迁移 导入导出
Hadoop-21 Sqoop 数据迁移工具 简介与环境配置 云服务器 ETL工具 MySQL与Hive数据互相迁移 导入导出
51 3
|
1月前
|
弹性计算 Linux 数据库
阿里云国际版如何迁移Linux云服务器系统盘中的数据
阿里云国际版如何迁移Linux云服务器系统盘中的数据
|
1月前
|
弹性计算 安全 测试技术
阿里云国际服务器与游戏出海业务结合,九河云助推企业快速运营
阿里云国际服务器与游戏出海业务结合,九河云助推企业快速运营
|
2月前
|
存储 弹性计算 网络协议
阿里云ECS内存型实例规格族特点、适用场景、指标数据参考
阿里云ECS提供了多样化的内存型实例规格族,专为需要高性能内存资源的应用场景设计。从最新的r8a系列到经过优化的re6p系列,旨在提供稳定、高效且安全的计算环境。这些实例不仅具备强大的计算性能与内存配比,还通过支持ESSD云盘和高效网络协议,显著提升了存储I/O能力和网络带宽,适用于大数据分析、高性能数据库、内存密集型应用等多种场景,为用户带来卓越的计算体验。本文将详细解析阿里云ECS中的多个内存型实例规格族,包括它们的核心特点、适用场景、实例规格及具体指标数据,为用户在云计算资源选型时提供参考。
|
3月前
|
Rust 编译器 开发者
Cargo:Rust的神秘助手,它将如何改变包管理游戏规则?
【8月更文挑战第31天】Rust的包管理器Cargo简化了依赖管理和构建过程,与编译器无缝集成,提供从依赖下载到编译构建的全套解决方案。通过`cargo new`创建项目后,编辑`Cargo.toml`文件即可轻松管理依赖。Cargo还支持自动生成文档、运行测试及发布代码,并通过`crates.io`平台方便查找和分享Rust库,是Rust生态系统中的重要工具,有助于提升开发者生产力。
57 1
|
3月前
|
Rust 安全 开发者
惊爆!Xamarin 携手机器学习,开启智能应用新纪元,个性化体验与跨平台优势完美融合大揭秘!
【8月更文挑战第31天】随着互联网的发展,Web应用对性能和安全性要求不断提高。Rust凭借卓越的性能、内存安全及丰富生态,成为构建高性能Web服务器的理想选择。本文通过一个简单示例,展示如何使用Rust和Actix-web框架搭建基本Web服务器,从创建项目到运行服务器全程指导,帮助读者领略Rust在Web后端开发中的强大能力。通过实践,读者可以体验到Rust在性能和安全性方面的优势,以及其在Web开发领域的巨大潜力。
39 0