十个应对数据中心宕机的措施与方法

简介:

虽然数据中心的设计在理论上不会发生故障,但它确实会出现这种情况,因此数据中心运营商将面临非常严峻的情况,特别是托管数据中心。

根据最近发生的一些事情,表明托管数据中心遭遇停电和业务中断的后果是十分严重的。例如:英国电信公司是全球最大的通讯商和托管数据中心商之一,其运营的数据中心今年遭遇两次宕机事件。据报道,由于故障影响,伦敦及其周边地区的语音和数据流量下降了10%,事故时间长达四小时以上。

尽管在设计和运行数据中心时努力避免中断或事故,但数据中心托管设施并不能避免这些问题,其短期和长期的意外中断都将是代价高昂的。如果客户选择放弃服务,企业可能会因不符合服务等级协议(SLA)而受到经济处罚,也可能会对企业的品牌造成长期的损害,并对业务收入造成损失。

数据中心宕机

从数据中心的角度来看,应该做什么或不应该做什么以防止中断事故的发生,是一个非常简单道理。但是,如果作为数据拥有者,并且其数据中心解决方案存在失误,那么这是一个不同的结论。如果企业客户已经做出战略决定,将其数据放在外部数据中心,并进行了风险分析。但这样就真的做好应对最坏结果的准备好了吗?问题是,如果企业客户发现自己处在这种情况下该怎么办?

对最坏情况做好准备的最好办法是不断地解决这个可能性。如果失败,组织的努力准备和对流程的认识将为其提供减轻失败的资源和工具。如果企业没有考虑或者没有这样做,那么建议从以下几个方面评自己的情况。

1. 分散风险

首先,当企业制定数据中心战略时,应避免将所有数据放在一处,这样做会增加风险因素。同样的道理,也避免将所有关键应用程序放在同一位置。考虑将主要的数据存放在一个位置,并将备份数据存放在另一个位置。然后逐步了解每个场景,并确定任何级别的故障将产生怎么样的影响。每年重复一次这个过程。

2. 信任但要验证

企业从服务提供商获得审核记录,更重要的是认真审查。在许多情况下,托管数据中心需要审计是否符合HIPAA,SOX和PCI等规定。然而有时候,这种审查可能是由不完全了解IT或数据中心如何运营的人员来完成。因此,企业需要安排了解数据中心如何可靠运营的专业人士进行审核。这些第三方审核通常比他们自己识别的风险要容易得多,并且可以提供的信息更加丰富。在大多数情况下,与发生中断事故的成本和运营成本相比,通过审查和验证措施减轻风险的成本通常是最小的。

3. 签署书面协议

企业需要知道数据中心托管提供商将如何处理中断事故。在与供应商签订合同时,坚持签署书面协议,承认双方同意在什么情况将造成中断。这一点至关重要。事实上,数据拥有者发现有时协议并没有涵盖他们的想法。此外,还要书面上保证供应商在中断期间所提供的服务,并承诺在可接受的时间内恢复。

4. 备份策略

企业一定要了解自己的业务面临的风险,并为最坏的情况做好准备。大多数托管数据中心都有一个替代的站点,可以处理基本的灾难恢复,以确保他们的客户对运营几乎没有影响。大多数公司仍在追求在数据中心(托管数据中心,云计算或者内部部署)中部署双活数据库。虽然有些双活部署接近成功,但在尝试使用灾难恢复备份时,其中断却让人痛苦。数据库没有企业期望的那样完整,数据丢失或应用程序在故障转换期间很可能受到影响。

5. 了解(并记录)流程

在事故出现的时候,所有各方都进入危机模式。了解(并记录)企业的托管服务提供者如何处理自然灾害和故障组件等事件很重要。那么采取什么步骤和顺序?企业要问的一个重要问题是在发生故障时谁可以访问?事故发生后,其他企业也会访问这个服务器。企业需要准确了解其是否可以访问,访问权限,谁能访问,以及在访问时允许执行的操作。此外,还要知道在修复期间将采取什么额外的安全措施来保护其数据。

这个过程的重要组成部分是通信协议。开放沟通对于有效管理情况至关重要,并为企业的管理者提供更新信息。企业需要知道谁是主要联系人,联系谁来获取更新,以及更新的频率。另外,定期验证联系人的姓名和电话号码。重要的是,如果呼叫列表中的电话号码作废或联系人员离职,那么这种情况将会更糟。

6. 保存记录文档

文档不仅适用于托管数据中心,而且适用于所有与数据中心业务相关的公司。在调查中发现,许多客户没有记录他们的日常运营流程和程序。就算有记录,也没有经常进行更新。文档对于在发生灾难时做好准备至关重要,这其中包括:了解应用程序运行的位置,知道中断哪些受到影响最大,谁需要了解更改等。

7. 了解失败案例

在评估过程中,大多数托管数据中心商都会告诉企业,系统是如何安装的,以防止服务中断。他们还给为企业提供满意的客户的推荐和参考。但他们通常不会告诉他们失败的案例。

因此,组织要了解托管服务商的失败案例,需要询问他们是否在过去一年遇到事故,如果有过事故,要了解事故的细节,如何纠正,以及采取了哪些步骤来防止再次发生事故。企业可以在这些案例中学到很多关于托管数据中心的知识,以及他们如何处理这种情况。处理危机才是考验合作伙伴是否合格的时候。

8. 了解免责条款

如果企业对托管服务的合作伙伴失去信心,请务必了解合约中的免责条款,这有助于企业顺利地中止合作。确保合同没有采用模糊的语言描述,避免被不合理的条款所限制。

9. 了解自己的选项

大多数托管数据中心的合同期限为几年的时间,在此期间,托管数据中心市场的规模将扩大,新的厂商进入市场。虽然企业可能目前不会寻求采用新的托管数据中心,但应该不断评估其他提供商,或与顾问或经纪人一起审查自己的选择。如果发生失败,企业必须知道移动到新的解决方案的选择。在某些情况下,如果失败是重大的或花费的时间太长,那么后果可能会迫使托管数据中心停止营业,让组织的业务遭受损失。

10. 成为数据中心行家

在英国电信公司的失败案例中,其问题的原因是一个断路器发生故障。虽然有人会认为关键设施会避免单点失败,但证据表明并不是这样。如今,组织运营数据业务,就必须成为数据中心的行家。组织不但要熟知数据中心的知识,而且还要了解市场趋势。

通过询问问题和阅读报告,可以了解数据中心解决方案的各个方面情况。最重要的是,知道潜在的失败点,了解什么情况可能导致中断。人们都希望中断或失败永远不会出现。但是,如果这样做,企业必须为此做好准备好,并指导其团队。最好的建议是在这些故障情况下制定一个计划,并按部就班遵循这个计划。沟通对计划的成功至关重要,因为人们在发生失败可能会不耐烦,但他们必须遵守执行。通过定期检查这些重要领域,将会获得有效地应对中断或失败的知识和经验。


本文作者:佚名

来源:51CTO

目录
相关文章
|
7月前
|
存储 传感器 监控
探索现代数据中心的冷却技术革新
【4月更文挑战第23天】 在信息技术迅猛发展的今天,数据中心作为计算和存储的核心枢纽,其稳定性和效率至关重要。然而,随着处理能力的增强,设备发热量急剧上升,有效的冷却方案成为确保数据中心持续运行的关键因素。本文将深入分析当前数据中心面临的热管理挑战,并探讨几种前沿的冷却技术,包括液冷系统、热管技术和环境自适应控制策略。通过比较不同技术的优缺点,我们旨在为数据中心管理者提供实用的冷却解决方案参考。
|
4月前
|
机器学习/深度学习 存储 监控
利用机器学习技术优化数据中心能效
【7月更文挑战第36天】在数据中心管理和运营中,能源效率已成为关键性能指标之一。随着能源成本的不断上升以及环境保护意识的增强,开发智能化、自动化的解决方案以降低能耗和提高能源利用率变得尤为重要。本文探讨了如何应用机器学习技术对数据中心的能源消耗进行建模、预测和优化,提出了一个基于机器学习的框架来动态调整资源分配和工作负载管理,以达到节能的目的。通过实验验证,该框架能够有效减少数据中心的能耗,同时保持服务质量。
|
7月前
|
存储 大数据 数据处理
探索现代数据中心的冷却技术
【5月更文挑战第25天】 在信息技术迅猛发展的今天,数据中心作为其核心基础设施之一,承载了巨大的数据处理需求。随着服务器密度的增加和计算能力的提升,数据中心的能耗问题尤其是冷却系统的能效问题日益凸显。本文将深入探讨现代数据中心所采用的高效冷却技术,包括液冷解决方案、热管技术和环境自适应控制等,旨在为数据中心的绿色节能提供参考和启示。
|
7月前
|
人工智能 监控 物联网
探索现代数据中心的冷却技术
【5月更文挑战第27天】 在信息技术迅猛发展的今天,数据中心作为信息处理的核心设施,其稳定性和效率至关重要。而随着计算能力的提升,数据中心面临的一个重大挑战便是散热问题。本文将深入探讨现代数据中心冷却技术的进展,包括传统的空气冷却系统、水冷系统,以及新兴的相变材料和热管技术。通过对不同冷却方式的效率、成本及实施难度的分析,旨在为读者提供一份关于数据中心散热优化的参考指南。
|
7月前
|
机器学习/深度学习 资源调度 监控
利用机器学习技术优化数据中心能效
【5月更文挑战第30天】在数据中心管理和运营中,能源效率的优化是降低运营成本和减少环境影响的关键。本文旨在探讨如何应用机器学习技术来提升数据中心的能源效率。通过对现有数据中心运行数据的深入分析,开发预测性维护模型,以及实施智能资源调度策略,我们可以显著提高数据中心的能效。本研究提出了一种集成机器学习算法的框架,该框架能够实时监控并调整数据中心的能源消耗,确保以最佳性能运行。