防止数据中心停机需要采取什么措施

简介:

日前,据调研机构对于数据中心的运营调查报告中表示,某些数据中心宕机事件本不应该发生。而其宕机的主要原因并不是由于恶劣天气、计划外维护、甚至电网故障等因素导致,相反,这是一些组织糟糕的计划和维护不当造成的。从航空公司到互联网巨头,这些主要的用户和企业都已经成为了停机中断事件的受害者,并且也深刻感受到这些可以预防的数据中心中断事件的影响。然而不幸的是,这种情况并不少见。

数据中心行业厂商通过对欧洲各国IT和数据中心管理人员的调查表明:27%的受访者表示在过去的三个月遭遇过长时间的中断,对组织业务产生了不利的影响。绝大多数受访者(82%)认为大多数关键业务流程依赖于IT服务,74%的受访者表示数据中心的健康状况直接影响到IT服务的质量。组织业务主要取决于IT服务和IT设备依赖于数据中心的功能。事实上,四分之一以上的数据中心遭受长时间的中断事件表明在行业层面上有些方法措施是错误的。

防止数据中心停机需要采取什么措施

(1) 事先规划防止电力供应中断

正如关键业务流程依赖IT服务一样,数据中心本身也必须提供弹性以保持业务运行。它是任何企业风险管理战略中的核心资产。

工作人员的失误,备用发电机没有启动,惊慌失措的决定等这些错误都可以通过正确的流程和完善的电力系统设计来防止。然而,组织往往并没有遵循数据中心电力管理的黄金法则:行动获得结果和产生后果需要采取行动。

组织需要灾难恢复流程,并明确规定在重新启动数据中心时应采取哪些步骤。在数据中心停机中断的情况下,工作人员可能处于忙碌紧张状态,并面临恢复正常服务的压力。毕竟,工作人员的主要目标是尽可能快地恢复正常运营。因此,灾难恢复流程有助于避免延长停电时间。

(2) 提高工作人员的技能

实际上,数据中心缺乏电源管理意识和理解是一个常见的问题。参与调查的数据中心专业人员中有三分之二的人表明对电力保障没有充分的信心。而在组织在能够掌握电源管理(从UPS维护到电池检查)之前,可能会有更多的与电源相关的停电事件发生。

但是,工作人员的技能对于提高电源可用性有着至关重要的作用。许多组织发现,无论是在能源效率设计、持续管理消费,或快速有效地处理与电力有关的故障,以避免和减轻停电方面,都很难招募和保留相关的专业人员或人才。

(3) 更新升级基础设施

除了提高技能和保障电力之外,数据中心基础设施本身经常需要更新升级,以满足企业对其效率,可靠性和灵活性的期望。在这个调查中,大约一半受访者表示,他们的核心IT基础架构需要加强,而近三分之二的受访者表示需要加强电力和冷却等方面的设施。

电源管理越来越成为一种软件定义的活动。鉴于工作人员的技能方面的差距,软件可以通过IT人员熟悉的仪表板来提供电源管理选项,以弥合IT部门和电源之间的鸿沟,从而更轻松地进行管理,并实现电力基础设施管理的自动化。采用这种技术可以减少或消除数据中心的停机时间。

行业厂商已经向数据中心的虚拟化环境方向发展。IT和数据中心的专业人员如今已经非常熟悉使用虚拟化技术来维护硬件。那么为什么不使用同样的原则呢?所有的配电设计和相关的弹性软件工具必须与主要虚拟化供应商的产品相兼容,促进基础设施的未来发展。这种方法将使数据中心专业人员可以持续地维护系统,从而减少基础设施陈旧过时的风险。

更好的准备和灾难恢复过程可能会阻止许多中断事件的发生。数据中心行业用户必须从这些事件中吸取教训,并采取必要的措施。因此,为了减少数据中心的中断事件,有效实施电源管理是一个必备措施。


原文发布时间为:2017-11-06

本文作者:苏楠

本文来自云栖社区合作伙伴51CTO,了解相关信息可以关注51CTO。

目录
相关文章
|
安全 数据中心 数据安全/隐私保护
|
8月前
|
存储 传感器 监控
探索现代数据中心的冷却技术革新
【4月更文挑战第23天】 在信息技术迅猛发展的今天,数据中心作为计算和存储的核心枢纽,其稳定性和效率至关重要。然而,随着处理能力的增强,设备发热量急剧上升,有效的冷却方案成为确保数据中心持续运行的关键因素。本文将深入分析当前数据中心面临的热管理挑战,并探讨几种前沿的冷却技术,包括液冷系统、热管技术和环境自适应控制策略。通过比较不同技术的优缺点,我们旨在为数据中心管理者提供实用的冷却解决方案参考。
|
5月前
|
机器学习/深度学习 存储 监控
利用机器学习技术优化数据中心能效
【7月更文挑战第36天】在数据中心管理和运营中,能源效率已成为关键性能指标之一。随着能源成本的不断上升以及环境保护意识的增强,开发智能化、自动化的解决方案以降低能耗和提高能源利用率变得尤为重要。本文探讨了如何应用机器学习技术对数据中心的能源消耗进行建模、预测和优化,提出了一个基于机器学习的框架来动态调整资源分配和工作负载管理,以达到节能的目的。通过实验验证,该框架能够有效减少数据中心的能耗,同时保持服务质量。
|
8月前
|
存储 大数据 数据处理
探索现代数据中心的冷却技术
【5月更文挑战第25天】 在信息技术迅猛发展的今天,数据中心作为其核心基础设施之一,承载了巨大的数据处理需求。随着服务器密度的增加和计算能力的提升,数据中心的能耗问题尤其是冷却系统的能效问题日益凸显。本文将深入探讨现代数据中心所采用的高效冷却技术,包括液冷解决方案、热管技术和环境自适应控制等,旨在为数据中心的绿色节能提供参考和启示。
|
8月前
|
人工智能 监控 物联网
探索现代数据中心的冷却技术
【5月更文挑战第27天】 在信息技术迅猛发展的今天,数据中心作为信息处理的核心设施,其稳定性和效率至关重要。而随着计算能力的提升,数据中心面临的一个重大挑战便是散热问题。本文将深入探讨现代数据中心冷却技术的进展,包括传统的空气冷却系统、水冷系统,以及新兴的相变材料和热管技术。通过对不同冷却方式的效率、成本及实施难度的分析,旨在为读者提供一份关于数据中心散热优化的参考指南。
|
8月前
|
机器学习/深度学习 资源调度 监控
利用机器学习技术优化数据中心能效
【5月更文挑战第30天】在数据中心管理和运营中,能源效率的优化是降低运营成本和减少环境影响的关键。本文旨在探讨如何应用机器学习技术来提升数据中心的能源效率。通过对现有数据中心运行数据的深入分析,开发预测性维护模型,以及实施智能资源调度策略,我们可以显著提高数据中心的能效。本研究提出了一种集成机器学习算法的框架,该框架能够实时监控并调整数据中心的能源消耗,确保以最佳性能运行。
|
8月前
|
存储 大数据 数据中心
提升数据中心能效的先进冷却技术
【5月更文挑战第27天】 在信息技术不断进步的今天,数据中心作为计算和存储的核心枢纽,其能源效率已成为评价其可持续性的关键指标。本文将探讨当前数据中心面临的热管理挑战,并展示一系列创新的冷却技术解决方案,旨在提高数据中心的能效,同时确保系统的稳定性和可靠性。通过对比传统冷却方法和新兴技术,我们将分析各种方案的优势、局限性以及实施难度,为数据中心运营者提供科学的决策参考。
|
8月前
|
存储 传感器 人工智能
探索现代数据中心的冷却技术革新
【5月更文挑战第18天】 在数字化时代,数据中心作为信息处理与存储的核心设施,其稳定性和效能至关重要。随着计算需求的激增,数据中心的冷却系统面临着前所未有的挑战。传统的空调冷却方法不仅耗能巨大,而且效率低下。本文将深入探讨现代数据中心冷却技术的最新进展,包括液冷技术、热管应用、环境辅助设计以及智能化管理等方面,旨在提供一种高效、可持续且经济的解决方案,以应对日益增长的冷却需求。