揭开弹性数据中心的神秘面纱

简介:

当涉及到数据中心时,"弹性"一词可以定义为"在面对环境极端以及人为错误或故意破坏的情况下维持ICT服务的能力",通常可以将更高水平的弹性设计成机械和电力基础设施在成本上的溢价。

Uptime Institute的数据中心的等级标准是广泛用于衡量数据中心基础架构弹性的方法。然而根据研究,"人为错误"是数据中心中断的主要原因,至少为70%。但即使这样,可以通过冗余设计来提高可靠性。在每个总线中使用UPS的双母线供电系统可以在很大程度上保护双接线负载,防止电源故障,人为错误和无效的破坏,但即使如此,也一定要更加小心谨慎。

数字误导用户

当然,数据中心的用户希望数据中心具有更高的可靠性和可用性,并且物有所值。那么,如何了解数据中心的可用性呢?以下两个有些相互关联的"指标":

  • "Uptime Institute(I-IV)"或"TIA-942"(I-IV)的"类型",BICSI的"评级"和EN50600的"可用性类"
  • 可用性百分率,例如99.999%(所谓的"五个九")

除了指出,只有Uptime Institute可以给出一个等级,TIA-942和BICSI是最适用于北美的ANSI标准,EN50600还没有被使用,人们可以将这些标准都概述成描述能力的四个级别"可维护性"和"容错".这些原则是明确的,兼容的可维护性回答了一个问题,即建立一个非常可靠(可能是有弹性的)数据中心,这个数据中心必须每年关闭一次以便维护?虽然容错系统可能会有任何组件,路径或空间"失败",但却不会影响ICT服务。

基础架构

然而滥用最多的是可用性百分率,因为这很容易计算,但可以愚弄非专业的买方和用户,使其造成误解。其实要明确地表示可用性,只需要两个数字就可以,MTBF(平均故障间隔时间,小时)和MTTR(平均修复时间,小时),只需将MTBF除以总时间( MTBF + MTTR)来表示可用性,再乘以100%,就是真正的可用性。

因此,拥有很长的MTBF和很短的MTTR可能会得可用性非常高的结果。不幸的是,MTBF和MTTR却是营销部门可以猜测的数字,如果他们使用这些数字来解释。例如,企业可以通过假设客户端具有丰富经验的工作人员和备件,并可在20分钟内修复UPS,UPS的可用性可以引用99.999%。然而真正的情况是,致电服务工程师上门维修,等待备件,重新投入使用之前进行测试(通常为一天或更长时间)。而假设MTBF为100,000小时(12年以下),而MTTR为20分钟到12小时,这可以产生任何人们想要的结果。

第二个问题是故障事件的数量(多个MTTR求和)和MTBF的组合。旧版本的Uptime Institute白皮书(现已作废)试图将可用率与四个Tier等级相关联,但没有定义测量时间。这导致了一个奇怪的情况,即Tier级别低的数据中心设施每年可以允许53分钟的离线时间,但级别最高的的Tier IV级数据中心只能提供5.3分钟。这很奇怪,然而如果每年发生一次的故障,这个对于TierI-Tier IV的任何级别的数据中心来说都是灾难。

不管怎样,人们不要总是关注这个问题,而要考虑组合问题。这尤其影响到许多非常短暂的失败。最简单的说明方法,就是以人们的心脏跳动为例,某人的心脏是99.9%"可用",这听起来还不错,一年有3153600秒,0.01%代表着一年中可能30000次心跳停止跳动,如果某次时间较长,就会带来生命危险,而如果它们在一年中平均分布,那么可能只是感觉不舒服。在数据中心的术语中,查看电源输入提供给负载的电压。许多现代的服务器无法承受10ms的电力中断,而在6毫秒时,电力系统的可用性为99.9999999%,因此每年可能会产生三个10ms的故障。

那么该怎么办呢?既然可用性是一个度量标准,只要它表达清晰,就没有什么问题。例如,"10年以上测量的99.99%的可用性,单次故障持续不超过10小时"是MTBF(10年)和MTTR(10小时)的明确声明。一些人可能已经算出了答案,可用性将达到99.98859.但是现在人们可能会得出这样一个观点:MTBF比可用性更重要,人们需要采用MTBF来计算可用性在第一位。"单一失败"却避免了多个事件的求和。

当然,弹性数据中心的最终"失败"可能是最容易实现的:并不是通过黑客互联网入侵UPS,而是人为因素或故障关闭电源,提高服务器入口温度,使其宕机。

弹性对于数据中心基础管理和防止出现停机中断都是至关重要的。即使是最好的设计和运营也可能会发生失败。因此数据中心技术人员通过设计和测试来满足运营商操作人员的需求,减少对停机中断的恐惧,同时还可以提高工作人员管理维护数据中心,并提升对可用性的信心。


原文发布时间为:2017-10-16

本文作者:佚名

本文来自云栖社区合作伙伴51CTO,了解相关信息可以关注51CTO。


目录
相关文章
|
8天前
|
存储 运维 区块链
区块链技术对数据中心的潜在影响
区块链技术对数据中心的潜在影响
|
6月前
|
存储 传感器 监控
探索现代数据中心的冷却技术革新
【4月更文挑战第23天】 在信息技术迅猛发展的今天,数据中心作为计算和存储的核心枢纽,其稳定性和效率至关重要。然而,随着处理能力的增强,设备发热量急剧上升,有效的冷却方案成为确保数据中心持续运行的关键因素。本文将深入分析当前数据中心面临的热管理挑战,并探讨几种前沿的冷却技术,包括液冷系统、热管技术和环境自适应控制策略。通过比较不同技术的优缺点,我们旨在为数据中心管理者提供实用的冷却解决方案参考。
|
3月前
|
机器学习/深度学习 存储 监控
利用机器学习技术优化数据中心能效
【7月更文挑战第36天】在数据中心管理和运营中,能源效率已成为关键性能指标之一。随着能源成本的不断上升以及环境保护意识的增强,开发智能化、自动化的解决方案以降低能耗和提高能源利用率变得尤为重要。本文探讨了如何应用机器学习技术对数据中心的能源消耗进行建模、预测和优化,提出了一个基于机器学习的框架来动态调整资源分配和工作负载管理,以达到节能的目的。通过实验验证,该框架能够有效减少数据中心的能耗,同时保持服务质量。
|
6月前
|
存储 大数据 数据处理
探索现代数据中心的冷却技术
【5月更文挑战第25天】 在信息技术迅猛发展的今天,数据中心作为其核心基础设施之一,承载了巨大的数据处理需求。随着服务器密度的增加和计算能力的提升,数据中心的能耗问题尤其是冷却系统的能效问题日益凸显。本文将深入探讨现代数据中心所采用的高效冷却技术,包括液冷解决方案、热管技术和环境自适应控制等,旨在为数据中心的绿色节能提供参考和启示。
|
6月前
|
人工智能 监控 物联网
探索现代数据中心的冷却技术
【5月更文挑战第27天】 在信息技术迅猛发展的今天,数据中心作为信息处理的核心设施,其稳定性和效率至关重要。而随着计算能力的提升,数据中心面临的一个重大挑战便是散热问题。本文将深入探讨现代数据中心冷却技术的进展,包括传统的空气冷却系统、水冷系统,以及新兴的相变材料和热管技术。通过对不同冷却方式的效率、成本及实施难度的分析,旨在为读者提供一份关于数据中心散热优化的参考指南。