管理超大规模数据中心的五个实用经验

简介:

数据中心扩大规模时,大多数IT团队会寻求这样一种管理控制台:能够提供一种直观、全面的视图,从而简化日常的管理任务。IT团队在管理超大规模的数据中心时,还学会了寻找这样一种控制台:可以调用如今的数据中心平台带来的细粒度数据。这包括每一个服务器、机架或整屋子计算设备的实时用电情况和温度。

第一个经验:别忽视了“小”数据。

整合能源管理中间件的管理控制台可以把这些数据中心的数据点聚合到一览无遗的热相图和电力图,并将用于趋势分析和容量规划的所有数据记入日志。之后可以充分利用这些数据,用于各种削减成本的实践。比如说,数据中心的团队可以根据实际的耗电情况,更高效地配置机架。要是不了解实时模式,数据中心团队就只好依赖电源额定功率和静态的实验室测试。

一种示例性的使用场合表明了实时监控与静态计算之间的重大区别。配置4000瓦电量的机架时,传统的计算方法导致数据中心团队为每个机架安装大约10台服务器。(在这个例子中,服务器电源额定功率为650瓦,实验室测试表明400瓦对预期的配置而言是个稳妥的数值。)

同样这个团队对耗电量执行实时监控后发现,服务器的用电量很少超过250瓦。了解这个情况后,团队将为机架配置的服务器数量增加到16台,计算容量增加了 60%。万一任何某一个机架中的服务器带来的需求让总耗电量超过机架阈值,以免造成破坏,数据中心团队同时为每个机架采取了保护性的电量封顶,这会在下面的第五个经验中作更详细的解释。

第二个经验:消除幽灵服务器。

一旦数据中心团队有能力监控实时耗电情况,评估工作负载在整个数据中心的分配状况就成了一项简单的工作。很容易发现通常未得到充分利用的服务器和机架。经过一段时间后,数据中心管理人员就能确定可以合并或精简哪些服务器。幽灵服务器是上了电但处于闲置状态的系统,可以让它们处于节省电力的睡眠模式。可以采取诸如此类的节能措施,避免能源浪费,因而可以缩短用电预算。实际情况表明,如果处理好幽灵服务器,无论规模大小,普通的数据中心可以将预算缩减15%到20%。

第三个经验:选择软件而不是硬件。

超大规模运营常常横跨分布在不同地区的多个数据中心,这样一来远程管理显得至关重要,以确保服务的日常连续性。当前的全球经济气候让许多企业和机构面临同样的情形,IT部门在设法高效地管理多个站点,又不必将人手增加一倍,或将时间浪费在奔波于多个地方。

远程键盘、视频和鼠标(KVM)技术在过去几十年有了长足发展,可帮助IT部门与时俱进,但硬件KVM解决方案因而变得日益复杂起来。为了避免管理管理覆盖系统(management overlay)本身,许多世界上最庞大、最复杂的基础设施的操作人员在采用软件KVM解决方案,最近还在采用虚拟化的KVM解决方案。

即便对普通的数据中心而言,节省的成本也会迅速积少成多。IT团队应该把任何现有的KVM切换器和适配器的成本以及相关的许可费(切换器软件、带内许可证和带外许可证等)加起来。一套典型的硬件KVM切换解决方案其成本通常如下:切换器超过50万美元,切换器软件要12.5万美元,带内和带外节点许可证另外要50万美元。连适配器也有可能超过25万美元。另外,软件KVM解决方案可以避免100多万美元的硬件KVM成本。

第四个经验:适当调高温度。

世界上一些规模最大的数据中心在监控和管理能源及热量模式方面有着多年的丰富经验,它们率先采用了提高环境温度的运营模式。发布的数字表明,将数据中心的环境温度调高1°C,就可以让数据中心电费减少2%。

适当调高数据中心的环境温度后,经常检查局部热点,并实时监控数据中心设备,这一步很重要。一旦有效的监控实时到位,就可以逐步调整工作温度,并且对照预算和容量规划来评估节省了多少成本。

第五个经验:别让你的机架温度过高。

由于企业期望以及要求IT部门识别和避免原本会干扰关键业务运营的故障,已在超大规模数据中心证实切实可行的任何主动管理方法都应该予以评估,看看有没有可能适用于规模较小的数据中心。过高的工作温度会给硬件带来毁灭性后果,所以要密切关注这会给设备正常运行时间和生命周期带来怎样的影响,这点很要紧。

Hadoop 等许多HPC集群添置了冗余和动态负载均衡机制,以便遇到故障后可以顺畅恢复。有助于尽量降低超大规模能源需求的同一套基本的监控、警报和自动化控制机制也能帮助规模较小的数据中心识别和消除局部热点;而从长远来看,局部热点会给设备的健康状况带来不利影响。电源和温度方面采取统一的做法还有助于在数据中心保持更一致的环境,这最终可以避免损坏设备的温度突增和电力尖峰。

除了环境控制外,IT团队还可以充分利用最前沿的能源管理解决方案,它们提供了电力封顶功能。如果设置电力阈值,就能随心所欲地配置机架,又不用担心电力尖峰这个风险。在一些地区,电力封顶对保护数据中心避免有干扰、不可靠的电源起到了重要的作用。

向前看齐

幸好,大多数数据中心在相比超大数据中心和超大规模计算环境风险低得多的规模下运行。不过,任何规模的数据中心都应该将减少能源成本、避免服务中断视作一个优先事项。如果采用成熟可靠的方法,并充分利用整个数据中心中的所有实时数据,IT和设施部门就可以效仿超大规模数据中心,只需要投入比较少的前期成本和精力,就能获得重大回报。


作者:何妍 

来源:51CTO

相关文章
|
存储 人工智能 运维
超大规模云数据中心对存储的诉求有哪些?
要实现超大规模部署的特性,就对存储有别于普通数据中心或者消费市场的诉求。具体有哪些呢?主要有以下几点,我们针对部分信息展开讨论
|
机器学习/深度学习 数据挖掘 物联网
【专栏】机器学习如何通过预测性维护、负载预测、动态冷却管理和能源效率优化提升数据中心能效
【4月更文挑战第27天】随着信息技术发展,数据中心能耗问题日益突出,占全球电力消耗一定比例。为提高能效,业界探索利用机器学习进行优化。本文讨论了机器学习如何通过预测性维护、负载预测、动态冷却管理和能源效率优化提升数据中心能效。然而,数据质量、模型解释性和规模化扩展是当前挑战。未来,随着技术进步和物联网发展,数据中心能效管理将更智能自动化,机器学习将在实现绿色高效发展中发挥关键作用。
410 5
|
存储 资源调度 Kubernetes
新书自荐《深入集群:大型数据中心资源调度与管理》
深入集群 大型数据中心资源调度与管理,已经第2版了(2021-10月)。之前在ata和百晓生发布了新书自荐,这次同步到社区。
1070 1
新书自荐《深入集群:大型数据中心资源调度与管理》
|
机器学习/深度学习 运维 算法
利用机器学习优化数据中心的能效管理
【4月更文挑战第30天】在数据中心的运营成本中,能源消耗占据了一个显著的比例。随着能源价格的上升和环境保护意识的增强,如何降低能源消耗成为数据中心管理者们面临的一个重要挑战。本文探讨了一种基于机器学习的方法来优化数据中心的能效管理,通过分析历史数据和实时监测数据,动态调整资源分配和冷却策略,以实现能源消耗的最小化。
|
机器学习/深度学习 数据采集 算法
利用机器学习优化数据中心的能耗管理
在数据中心管理和运营领域,能耗优化是提高经济效益和环境可持续性的关键。本文提出了一种基于机器学习的方法来优化数据中心的能源消耗,通过实时监控与智能调节系统参数以降低总体能耗。研究采用多种算法对比分析,包括监督式学习、非监督式学习以及强化学习,并在此基础上设计出一套综合策略。该策略不仅提升了能效比(PUE),还保证了系统的高可靠性和性能稳定性。文章的结构首先介绍数据中心能耗管理的重要性,然后详细阐述所提出的机器学习模型及其实现过程,最后通过实验结果验证了方法的有效性。
|
机器学习/深度学习 存储 大数据
利用机器学习优化数据中心的能效管理
【2月更文挑战第17天】 在数据中心的运营过程中,能效管理是维持可持续性和成本效益的关键。本文探讨了一种基于机器学习的方法来优化数据中心的能源使用效率。通过分析历史能耗数据和实时工作负载信息,构建了一个预测模型来指导冷却系统的动态调整,以减少不必要的能源消耗。实验结果表明,该方法能够有效降低能耗,同时保证数据中心的性能和可靠性。
213 2
|
机器学习/深度学习 资源调度 算法
利用机器学习优化数据中心的能效管理
【5月更文挑战第31天】 在数据中心管理和运营中,能效优化是降低运营成本和减少环境影响的关键。本文提出了一种基于机器学习的方法来动态调整数据中心的资源分配,旨在提高整体能源效率。该方法通过分析历史数据和实时负载信息,预测未来工作负载并相应地调整硬件配置。实验结果表明,与传统的静态管理策略相比,所提出的动态管理策略可以显著降低能耗,同时保持服务质量。
|
机器学习/深度学习 缓存 算法
深入理解操作系统的虚拟内存管理利用机器学习技术优化数据中心能效
【5月更文挑战第25天】 在现代计算机系统中,虚拟内存是允许用户程序逻辑地址空间与物理内存解耦的关键概念。它为每个进程提供了一个独立的、连续的地址空间,通过内存管理单元(MMU)硬件的支持,将程序使用的虚拟地址映射到实际的物理内存地址。这种机制不仅简化了程序的编写和内存的管理,还提供了保护机制,防止不同进程之间的相互干扰。本文将探讨虚拟内存的工作原理、分页系统的实现以及虚拟内存带来的性能影响,并讨论操作系统如何优化内存使用和管理。
|
机器学习/深度学习 存储 算法
利用机器学习优化数据中心的能效管理
【5月更文挑战第23天】在本文中,我们探讨了一种基于机器学习的方法来优化数据中心的能效管理。通过分析历史数据,我们的模型能够预测数据中心的能源需求,并据此调整能源分配,以达到节能和提高能效的目标。这种方法不仅能够降低运营成本,还能减少对环境的影响。
|
运维 调度 数据中心
如何推进IT运维数据中心问题管理
在数据中心的管理中,问题管理通常因为没有事件管理、变更管理那么直接影响服务的可用性而被忽视,使得遗留下来的问题没有被及时解决,也会导致事件的重复发生,从而降低系统和服务的整体可用性
337 0
如何推进IT运维数据中心问题管理

热门文章

最新文章