深度学习推动数据中心功率密度

简介:

上图:2017年2月,在伦敦科学博物馆举办的科学博物馆机器人展览会的预览上展示的世界首款安卓机器人新闻播报员Komoroid.

GPU(或称图形处理单元)的应用程序已然远远超过了其本身。超级计算机设计人员们发现它们非常适合于从他们所建立的系统中的CPU卸载大量的工作负载;其也被证明是一种被称为深度学习(Deep Learning)的机器学习方法的超高效处理器。这正是Google公司用来提供有针对性的广告的AI类型,而亚马逊的Alexa则可以用于即时回答语音查询。

创建相应的算法,使得计算机能够通过观察和迭代来进行学习无疑是相当复杂的;同样令人难以置信的是:设计计算机系统来执行这些指令,并借助数据中心的基础设施来为这些系统供电和冷却。 Ober在Nvidia公司的超大规模客户数据中心系统中深入了解了这一深度学习。

他在接受Data Center Knowledge网站的记者采访时表示说:“我们一直在大型数据中心处理大量超大规模(真正的超大规模)。 而建立一款用于深入学习培训的GPU系统是一个非常浩大困难的工程问题。这真的非常非常难。即使像Facebook和微软这样的互联网巨头企业们也在努力。”

上图:Facebook最新的AI服务器Big Basin.八个散热器中的每一个都隐藏着GPU. (照片来源:Facebook)

训练一款AI需要花费大量功率能耗

培训是深度学习中所涉及到的一种计算工作负载(或者说是一类工作负载,因为该领域正在发展,并且有几种不同的培训方法)。其目的是教授一款深层神经网络——一个计算节点网络,旨在模拟人脑中的神经元相互作用的方式——从现有数据中提取新功能。例如,一款神经网络可以通过重复地“查看”多张其中含有狗的各种图像来学习识别照片中的狗,图像中的狗将被标记为狗。

其他类型的工作负载是推理,这是一款神经网络将其知识应用于新数据的领域(例如,识别之前未见过的图像中的狗)。

Nvidia公司为上述两个类别的工作负载制作GPU.但是,在数据中心实施培训可以说是特别困难的部分,因为用于培训的硬件需要非常密集的GPU群集,或者每台服务器具备多达可支持8个GPU的互连服务器。而这样的一款机柜可以很容易地消耗掉30kW以上的功率密度,超级计算机领域之外的大多数数据中心都不是为这一大功率密度提供支持而设计的。即使这样,在这个范围的低端,大约20款这样的机柜需要消耗与AT&T体育球场达拉斯牛仔队的超大屏幕一样多的功率,后者是世界上最大的1080p视频显示器,其中包含3000万个灯泡。

“我们的确是给很多数据中心的基础设施带来了真正的压力,”Ober在谈到Nvidia公司的GPU时表示说。 “通过深度学习培训,企业通常希望尽可能的能够使得计算池尽可能密集,这样就会消耗掉相当惊人的功率密度,这无疑是一大真正的挑战。”另一个问题是如何控制这些集群中的电压。 GPU计算本质上是在瞬变中产生大量的电力(电压突然上升),而且这些都是难以应付处理的。“

互连节点是另一大挑战难题。 Ober说:“根据您的培训数据来源的不同,数据中心网络的负担可能是令人难以置信的。” “你企业可以创造一个真正火的热点。”在他看来,电力密度和网络可能是数据中心系统深度学习的两大设计挑战。

上图: Tesla P100 是Nvidia公司功能最为强大的GPU(照片来源:Nvidia公司)

人工智能的冷却

Ober说,像Facebook和微软这样的超大规模的数据中心运营商们主要是通过将他们的深度学习集群传播到许多机架上来解决功率密度的挑战,尽管会在液体冷却或液体辅助冷却方面面临一定的“困惑”。液体冷却是将冷冻水直接输送到主板上的芯片(冷却超级计算机的通用方法),而液体辅助冷却则是将冷冻水带到连接到IT机柜的热交换器上,通过冷却空气来为服务器提供冷却。

并不是每家需要支持高密度深度学习硬件的企业都拥有令人羡慕的数十万平方英尺的数据中心空间,对于那些没有如此规模的数据中心供应商,例如选择专注于高密度的数据中心来说,已经选择了采用液体辅助冷却的路线。最近,市场对于这些供应商的服务需求已经出现了飙升,而这在很大程度上是受益于市场对于机器学习日益增长的兴趣。

包括初创公司和大型公司正在积极的寻求各种方式来利用广泛预测的技术来推动下一轮的技术创新浪潮,但其中的大多数公司并没有必要的基础设施支持这项开发工作。高密度数据中心供应商ScaleMatrix公司的联合创始人克里斯。奥兰多(Chris Orlando)在接受采访时表示说:“现在, GPU支持的工作负载是我们所看到增长最大的工作负载,而这些工作负载绝对是来自企业部门。企业级别的数据中心并没有这样的装备。”

曲棍球棒状的增长

这方面需求增长的飙升是最近才刚刚开始的。奥兰多说,他的公司在去年年中的某个时候发现了一个曲棍球棒状的增长轨迹。而推动这一需求增长的其他应用程序则一直是生命科学和基因组学的计算(ScaleMatrix在圣地亚哥以外的旗舰数据中心的最大客户之一,这种类型的研究的枢纽是基因组学研究的J.克雷格文特研究所),地理研究和大数据分析。在其位于休斯顿的第二处数据中心,大部分需求则来自石油和天然气行业,其勘探工作需要一些高辛烷值的计算能力。

ScaleMatrix公司在圣地亚哥的另一家主要的客户是Cirrascale公司,这是一家专门从事深度学习基础设施的硬件制造商和云服务提供商。

上图:ScaleMatrix圣地亚哥数据中心内部一览(照片来源:ScaleMatrix公司)

ScaleMatrix圣地亚哥数据中心的每台机柜均可以通过利用中央设备的冷却水来冷却完全封闭的机柜周围的空气,以支持高达52kW的机柜的冷却需求。定制化设计的系统的冷却水循环位于机柜的顶部,其中来自服务器的热排出的空气升高并被冷却,进而推回到主板上。而伴随着企业对高密度计算的需求的不断增长,该公司最近已经开始在向那些有兴趣在内部部署这项技术的企业销售该技术了。

一家位于硅谷的数据中心供应商Colovore公司也在专注于高密度的托管服务。该公司正在使用更典型的后门热交换器,在当前第一阶段为每台机架提供高达20kW的功率密度,在即将到来的第二阶段将提供35kW的功率密度。至少已经有一家客户对其超过35kW功率密度的机架表示了兴趣,因此该公司正在探索将冷冻水直接送入类似超级计算机系统的主板的可能性。

今天,Colovore的数据中心容量处理能力的“很大一部分比例”是用于支持GPU集群进行的机器学习,该公司的联合创始人兼总裁肖恩。霍茨克内西(Sean Holzknecht)在接受采访时表示。与ScaleMatrix公司一样,Colovore目前正处在其发展道路的一个很好的位置。硅谷是在机器学习、自动无人驾驶汽车、生物信息学等领域推动信息化的公司发展的最佳平台,而且精品供应商的高密度数据中心空间也不乏需求。

上图:Colovore公司数据中心地板下方一览,该图显示了支持水冷却门的基础设施。 (照片来源:Colovore公司)

对AI硬件的需求激增

而市场对于由Colovore公司和ScaleMatrix公司所提供的基础设施的需求可能会持续性的增长。机器学习目前还仅仅处在早期阶段,而大型云平台企业(包括诸如Google,Facebook,微软和阿里巴巴等等几家公司)正在使用该技术进行生产。当前,该领域的许多活动包括开发,但这项工作仍然需要消耗大量的GPU功率。

Nvidia公司表示,目前市场对于AI硬件的需求正在激增,其中绝大部分都是由像亚马逊网络服务(Amazon Web Services),谷歌云平台(Google Cloud Platform)和微软Azure这样的企业级云巨头所推动的,这些企业同时也提供机器学习,从而增强了云服务和原始的GPU功耗。市场对于最强大的云GPU实例的可用性极为渴求。Nvidia公司的Ober表示说:“目前,拥有GPU实例的云服务供应商们正在获得令人难以置信的消费和关注度。” “这真的表明了当前的企业客户正在转移到采用他们所能够获得的最大的实例。”


本文作者:佚名

来源:51CTO

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
7月前
|
存储 传感器 监控
探索现代数据中心的冷却技术革新
【4月更文挑战第23天】 在信息技术迅猛发展的今天,数据中心作为计算和存储的核心枢纽,其稳定性和效率至关重要。然而,随着处理能力的增强,设备发热量急剧上升,有效的冷却方案成为确保数据中心持续运行的关键因素。本文将深入分析当前数据中心面临的热管理挑战,并探讨几种前沿的冷却技术,包括液冷系统、热管技术和环境自适应控制策略。通过比较不同技术的优缺点,我们旨在为数据中心管理者提供实用的冷却解决方案参考。
|
4月前
|
机器学习/深度学习 存储 监控
利用机器学习技术优化数据中心能效
【7月更文挑战第36天】在数据中心管理和运营中,能源效率已成为关键性能指标之一。随着能源成本的不断上升以及环境保护意识的增强,开发智能化、自动化的解决方案以降低能耗和提高能源利用率变得尤为重要。本文探讨了如何应用机器学习技术对数据中心的能源消耗进行建模、预测和优化,提出了一个基于机器学习的框架来动态调整资源分配和工作负载管理,以达到节能的目的。通过实验验证,该框架能够有效减少数据中心的能耗,同时保持服务质量。
|
7月前
|
存储 大数据 数据处理
探索现代数据中心的冷却技术
【5月更文挑战第25天】 在信息技术迅猛发展的今天,数据中心作为其核心基础设施之一,承载了巨大的数据处理需求。随着服务器密度的增加和计算能力的提升,数据中心的能耗问题尤其是冷却系统的能效问题日益凸显。本文将深入探讨现代数据中心所采用的高效冷却技术,包括液冷解决方案、热管技术和环境自适应控制等,旨在为数据中心的绿色节能提供参考和启示。
|
7月前
|
人工智能 监控 物联网
探索现代数据中心的冷却技术
【5月更文挑战第27天】 在信息技术迅猛发展的今天,数据中心作为信息处理的核心设施,其稳定性和效率至关重要。而随着计算能力的提升,数据中心面临的一个重大挑战便是散热问题。本文将深入探讨现代数据中心冷却技术的进展,包括传统的空气冷却系统、水冷系统,以及新兴的相变材料和热管技术。通过对不同冷却方式的效率、成本及实施难度的分析,旨在为读者提供一份关于数据中心散热优化的参考指南。
|
7月前
|
机器学习/深度学习 资源调度 监控
利用机器学习技术优化数据中心能效
【5月更文挑战第30天】在数据中心管理和运营中,能源效率的优化是降低运营成本和减少环境影响的关键。本文旨在探讨如何应用机器学习技术来提升数据中心的能源效率。通过对现有数据中心运行数据的深入分析,开发预测性维护模型,以及实施智能资源调度策略,我们可以显著提高数据中心的能效。本研究提出了一种集成机器学习算法的框架,该框架能够实时监控并调整数据中心的能源消耗,确保以最佳性能运行。
|
7月前
|
存储 大数据 数据中心
提升数据中心能效的先进冷却技术
【5月更文挑战第27天】 在信息技术不断进步的今天,数据中心作为计算和存储的核心枢纽,其能源效率已成为评价其可持续性的关键指标。本文将探讨当前数据中心面临的热管理挑战,并展示一系列创新的冷却技术解决方案,旨在提高数据中心的能效,同时确保系统的稳定性和可靠性。通过对比传统冷却方法和新兴技术,我们将分析各种方案的优势、局限性以及实施难度,为数据中心运营者提供科学的决策参考。
|
7月前
|
存储 传感器 人工智能
探索现代数据中心的冷却技术革新
【5月更文挑战第18天】 在数字化时代,数据中心作为信息处理与存储的核心设施,其稳定性和效能至关重要。随着计算需求的激增,数据中心的冷却系统面临着前所未有的挑战。传统的空调冷却方法不仅耗能巨大,而且效率低下。本文将深入探讨现代数据中心冷却技术的最新进展,包括液冷技术、热管应用、环境辅助设计以及智能化管理等方面,旨在提供一种高效、可持续且经济的解决方案,以应对日益增长的冷却需求。
|
6月前
|
移动开发 监控 前端开发
基于 HTML5 WebGL 和 VR 技术的 3D 机房数据中心可视化
基于 HTML5 WebGL 和 VR 技术的 3D 机房数据中心可视化
|
7月前
|
机器学习/深度学习 存储 监控
利用机器学习技术优化数据中心能效
【5月更文挑战第11天】 在云计算和大数据的背景下,数据中心作为信息处理的核心设施,其能效问题一直是研究的热点。传统的能效管理方法难以应对日益增长的能源消耗和复杂多变的工作负载。本文提出一种基于机器学习技术的数据中心能效优化方案,通过实时监控和智能调度策略,有效降低能耗并提升资源利用率。实验结果表明,该方案能够减少约15%的能源消耗,同时保持服务质量。