AI如何改变数据中心设计

简介: AI如何改变数据中心设计

本文来源:企业网D1net


为了满足成为先行者的需求,同时抵消风险,运营商需要将他们的数据中心设计为在AI计算时代具有最大的效率和弹性,这需要一种全新的整体设计方法。



2023年至2026年,全球在AI系统上的支出将翻一番,显然,数据中心的容量将迅速增加,以满足需求。


然而,令人惊讶的是,在过去的一年里,许多数据中心运营商对新项目踩下了刹车,放缓了投资,伦敦的空置容量在2022-2023年间下降了6.3%。


这种违反直觉的趋势背后是什么原因?要解释这一点,我们需要了解围绕AI计算和支持它的基础设施的一些问题。



AI如何改变数据中心基础设施


数据中心历来是围绕使用CPU的机架构建的,以应对传统的计算工作负载,然而,AI计算转而需要使用GPU驱动机架,与同等的CPU容量相比,它消耗更多的电力,释放更多的热量,占用更多的空间。


在实践中,这意味着AI计算能力通常需要更多的电源连接或替代冷却系统。


由于这是嵌入式基础设施,它被内置到数据中心综合体的结构中——这使得更换它往往代价高昂,如果不是在经济上完全不可能的话。


在实践中,运营商必须承诺在他们的新数据中心中有多少空间专门用于AI和传统计算之间的“分割”。


如果弄错了这一点,并过度承诺AI,可能会让数据中心运营商背负着永久未充分利用和无利可图的负担。


AI市场还处于初级阶段,这加剧了这个问题,Gartner声称,它目前正处于炒作周期中夸大预期的顶峰。因此,许多运营商选择在设计阶段按兵不动,而不是过早承诺在新数据中心项目中承担AI计算的比例。



在设计阶段采取全面的方法


然而,运营商敏锐地意识到,在失去市场份额和竞争优势之前,他们只能冒着推迟投资的风险,但考虑到数据中心基础设施的许多基本要素正在被实时重写,这是一项艰巨的任务。


为了满足成为先行者的需求,同时抵消风险,运营商需要将他们的数据中心设计为在AI计算时代具有最大的效率和弹性,这需要一种全新的整体设计方法。



01让更多利益相关者参与进来


无论操作员决定AI和传统计算之间的确切分离,具有AI计算能力的数据中心站点有望比传统设施复杂得多。更复杂的往往意味着更多的故障点,特别是在AI计算比传统计算有更多需求的情况下。


因此,为了保证正常运行时间并降低站点生命周期内出现代价高昂的问题的风险,团队需要在数据中心的规划阶段更加彻底。


特别是,设计阶段应在项目开始时寻求更广泛的团队和专业知识的投入。除了寻求电力和冷却方面的专业知识外,设计人员还应该及早接触运营、布线和安全团队,以了解潜在的瓶颈或故障来源。



02将AI融入数据中心运营


由于运营商现在在现场进行AI计算,他们应该利用自己的能力来利用AI来提高运营的新效率。AI在数据中心的采用已经有很长时间了,这项技术能够以极高的精度和质量承担工作流。例如,AI可以在以下方面提供帮助:


  • 温度和湿度监测。


  • 安全系统运营。


  • 用电监控和分配。


  • 硬件故障检测和预测性维护。


通过在数据中心生命周期的每个阶段主动使用该技术,运营商可以显著提高其运营的效率和稳健性。AI非常适合于帮助应对采用这些新一代数据中心新颖而复杂的布局时遇到的新挑战,例如通过故障检测和预测性维护。



03避免虚假的节约


在高峰期,例如在培训运行期间或在生产中运行企业级模型时,AI会给数据中心带来更大的负载。在这些期间,AI计算在功耗、冷却需求和数据吞吐量方面往往会大大超出传统的预期。


在最基本的层面上,这意味着数据中心的底层材料面临更大的压力。如果这些底层材料或部件质量不高,这意味着它们更容易失败。由于AI计算意味着一个站点的组件和连接数量急剧增加,这意味着在传统站点中运行良好的更便宜、更低质量的材料可能会使运行AI计算的数据中心陷入停顿。


为此,运营商应该避免通过购买质量较低的材料来节省资金,比如不合格的电缆。这样做可能会带来虚假的经济风险,因为这些材料更容易失效,需要更频繁地更换。但是,最有问题的是,不合格的材料和部件的故障往往会导致网站停机或停机,从而影响其盈利能力。



解决基础设施难题


尽管AI计算的基础设施要求可能是运营商拖延投资的主要原因,但从长远来看,情况并非如此。


随着市场不确定性的消除,公司将在数据中心的传统计算和AI计算之间的分裂问题上汇聚到他们的“适中区域”。


随着这种情况的发生,公司将需要确保随着他们的学习和成熟,他们在网站的运营中拥有一切可能的优势。


这意味着从一开始就进行整体设计,利用AI本身来发现他们网站的新效率,并投资于能够满足更大的AI计算需求的高质量组件。


版权声明:本文为企业网D1Net编译,转载需在文章开头注明出处为:企业网D1Net,如果不注明出处,企业网D1Net将保留追究其法律责任的权利。




相关文章
|
1月前
|
人工智能 分布式计算 大数据
AI Native平台,跨越AI应用从创新到生产的鸿沟
2024年是AI应用的元年,以大模型为中心的 AI Native 应用大爆发正在从理想变成现实。云计算带来的应用创新潮,经历了虚拟机时代和云原生时代,正在全面拥抱以大模型为核心的 AI Native 阶段,推动大数据与AI的工作流前所未有地紧密结合。领先大模型、高效的AI计算平台和统一的大数据平台是 AI Native 应用广泛落地背后不可获缺的要素。 9月20日,2024云栖大会上,阿里云副总裁、阿里云计算平台事业部负责人汪军华宣布大数据AI平台全面升级,为 AI Native 应用大爆发提供坚实的平台支撑。
|
17天前
|
机器学习/深度学习 人工智能 安全
【AI系统】AI系统的设计目标与挑战
本文探讨了AI系统设计的核心目标及其面临的挑战。AI系统作为硬件与应用间的桥梁,需提升开发效率、优化用户体验,并支持数据处理、模型训练等全生命周期环节。此外,还需在系统级上灵活支持多样化AI任务,应对新技术带来的挑战,如动态图支持、大规模部署及安全需求。未来,AI系统设计将更注重高效、灵活与安全。
49 0
|
1月前
|
人工智能 自动驾驶 搜索推荐
AI技术在现代生活中的应用与影响
本文将探讨AI技术在现代生活中的广泛应用,以及它对人们生活方式的影响。我们将从智能家居、自动驾驶汽车、医疗健康、教育等领域出发,分析AI技术如何改变人们的生活。同时,我们也将讨论AI技术可能带来的问题和挑战,以及如何应对这些问题。
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
AI战略丨物流 AI 新变化,用大模型定义
物流企业在大模型上纷纷主动探索,也在推动物流行业实现智能化加速。
|
2月前
|
机器学习/深度学习 人工智能 Cloud Native
AI工业变革问题之企业IT系统的进化改变如何解决
AI工业变革问题之企业IT系统的进化改变如何解决
30 0
|
4月前
|
存储 人工智能 安全
充分利用AI的潜力:企业成功采用的五个要点
充分利用AI的潜力:企业成功采用的五个要点
|
4月前
|
人工智能 运维 监控
AI如何改变数据中心设计
AI如何改变数据中心设计
|
5月前
|
搜索推荐 数据可视化 虚拟化
五大领域将首先受到Sora带来的颠覆级改变
【2月更文挑战第9天】五大领域将首先受到Sora带来的颠覆级改变
218 4
五大领域将首先受到Sora带来的颠覆级改变
|
机器学习/深度学习 存储 人工智能
AI在数学界的作用和影响
众所周知,数学在科学中占据至关重要的地位。爱因斯坦曾说,“纯数学能使我们发现概念和联系这些概念的规律,给了我们理解自然现象的钥匙。数学之所以比一切其它科学受到尊重,一个理由是因为它的命题是绝对可靠的,无可争辩的,而其它的科学经常处于被新发现的事实推翻的危险。”那么,AI在数学界有哪些作用?AI未来对数学界会有哪些颠覆性影响?现在我们来进行论述和探讨。
218 0
|
数据采集 存储 人工智能
边缘计算,会成为拓展AI应用边界的新顶流吗?
很多人都听说过边缘计算,但不一定知道边缘计算是用来干嘛的?其实“边”是配合“端”一起来使用的。什么是“端”?举个例子,传感器、无人机都是典型的“端”。 如今,无人机已经远远不止用于拍大片了,因为无论是农业喷洒还是防汛抗旱,无论是电力巡检还是国土巡防,无人机经常出现在新闻报道中。只不过,无人机在很多行业应用中扮演了一个上帝视角的视频采集员的角色,而真正的实时视频分析离不开“幕后英雄”——边缘计算。
169 0