人类已达硅计算架构上限!预计2030年,AI会消耗全球电力供应的50%

简介: 人类已达硅计算架构上限!预计2030年,AI会消耗全球电力供应的50%



 新智元报道  

编辑:Aeneas

【新智元导读】我们已经开始体验到,硅计算体验到达上限的感觉。未来10年,将出现严重的算力差距,而无论是现有的技术公司还是政府,都没能解决这一问题。


现在,我们已经习惯了计算会变得越来越便宜,以至于我们从来不曾怀疑过,也许有一天我们会用不起它。

现在,Rodolfo Rosini,一家初创公司的CEO提出了一个令我们震惊的问题:如果我们正在达到经典计算模型的基本物理极限,就像我们的经济依赖廉价的计算一样,那该怎么办?

大型计算的停滞

现在,由于缺乏技术创新,美国已经到达了一个平稳期。

赖特定律(Wright’s Law)在很多行业中都成立——制造工艺每改进20%左右,生产率就会翻一番。

在技术领域,它表现为摩尔定律。

在1960年代,英特尔联合创始人Gordon Moore注意到集成电路中的晶体管数量似乎同比翻了一番,提出了摩尔定律。

从此,这个定律就成为市场和工程之间契约的基础,利用过剩的计算能力和尺寸的缩小,推动计算堆栈中产品的构建。

那时的预期是,有了更快和更便宜的处理器,计算能力会随着时间呈指数级提高。

然而,构成摩尔定律的不同力量已经发生了变化。

几十年来,摩尔定律背后的推动力是Dennard缩放定律。晶体管尺寸和功耗同步减半,使每单位能量的计算量增加一倍(后者也称为Koomey’s LawKoomey定律)。

50年的微处理器趋势数据

2005 年,由于电流泄漏导致芯片升温,这种缩放比例开始失效,随之而来的是具有单个处理核心的芯片的性能停滞不前。

为了保持计算增长轨迹,芯片行业转向了多核架构:多个微处理器“粘合”在一起。虽然这可能在晶体管密度方面延长了摩尔定律,但它增加了整个计算堆栈的复杂性。

对于某些类型的计算任务,如机器学习或计算机图形,这带来了性能提升。但是对于很多并行化不好的通用计算任务,多核架构无能为力。

总之,很多任务的计算能力不再呈指数级增长。

即使在多核超级计算机的性能上,从TOP500 (全球最快超级计算机排名)来看,2010年左右也出现了明显的拐点。

这种放缓的影响是什么?计算在不同行业中发挥的越来越重要的作用表明,影响是立竿见影的,而且只有在摩尔定律进一步动摇的情况下才会变得更加重要。

举两个极端的例子:计算能力的提高和成本的降低使得能源行业石油勘探的生产率增长了49%,生物技术行业的蛋白质折叠预测增长了94%。

这意味着计算速度的影响不仅限于科技行业,过去50年的大部分经济增长都是摩尔定律驱动的二阶效应,没有它,世界经济可能会停止增长。

还有一个需要更多算力的突出原因,就是人工智能的兴起。在今天,训练大语言模型 (LLM) 可能花费数百万美元,并需要数周时间。

如果不继续增加数字运算和数据扩展,机器学习所承诺的未来就无法实现。

随着机器学习模型在消费技术中的日益普及,预示着其他行业对计算的巨大需求,而且可能是双曲线的需求,廉价的处理正成为生产力的基石。

摩尔定律的死亡可能会带来计算的大停滞。与达到AGI可能需要的多模态神经网络相比,今天的LLM仍然相对较小,且容易训练。未来的GPT和它们的竞争对手将需要特别强大的高性能计算机来改进,甚至进行优化。

或许很多人会感到怀疑。毕竟,摩尔定律的终结已经被预言过很多次了。为什么应该是现在?

从历史上看,这些预测中有许多都源于工程上的挑战。此前,人类的聪明才智曾一次又一次地克服了这些障碍。

现在的不同之处在于,我们面临的不再是工程和智能方面的挑战,而是物理学施加的限制。

MIT Technology Review2月24日发文称,我们没有为摩尔定律的终结做好准备

过热导致无法处理

计算机是通过处理信息来工作的。

当他们处理信息时,其中一些信息会随着微处理器合并计算分支或覆盖注册表而被丢弃。这并不是免费的。

热力学定律对某些过程的效率有严格的限制,而它也适用于计算,就像它适用于蒸汽机一样。这个成本称为Landauer’s limit兰道尔极限Landauer’s limit)。

它是每次计算操作过程中散发的微量热量:大约每比特10^-21焦耳。

鉴于这种热量这么小,兰道尔极限长期以来一直被认为可以忽略。

然而,现在的工程能力已经发展到了可以达到这种能量规模的程度,因为由于电流泄漏等其他开销,现实世界的极限估计比Landauer的边界大了10-100倍。芯片有数以千亿计的晶体管,以每秒数十亿次的速度运行。

把这些数字加起来,或许在到达热障碍之前,摩尔定律或许还剩下一个数量级的增长。

到那时,现有的晶体管架构将无法进一步提高能效,而且产生的热量会阻止将晶体管封装得更紧密。

如果我们不弄清楚这一点,就无法看清行业价值观将会发生什么变化。

微处理器将受到限制,行业将争夺边际能源效率的较低奖励。

芯片尺寸会膨胀。看看英伟达4000系列的GPU 卡:尽管使用了更高密度的工艺,但它只有一只小狗那么大,功率高达650W。

这促使NVIDIA首席执行官黄仁勋在2022年底宣布“摩尔定律已死”——尽管这一声明大部分正确,但其他半导体公司否认了这一声明。

IEEE每年都会发布半导体路线图,最新的评估是2D的微缩将在2028年完成,3D微缩应该在2031年全面启动。

3D 微缩(芯片在其中相互堆叠)已经很普遍,但它是在计算机内存中,而不是在微处理器中。

这是因为内存的散热要低得多;然而,散热在3D架构中很复杂,因此主动内存冷却变得很重要。

具有256层的内存即将出现,预计到2030年将达到1,000层大关。

回到微处理器,正在成为商业标准的多门器件架构(如Fin场效应晶体管和Gates-all-round)将在未来几年继续遵循摩尔定律。

然而,由于固有的热问题,在20世纪30年代以后都不可能有真正的垂直扩展(vertical scaling)。

事实上,目前的芯片组会仔细监督处理器的哪些部分随时处于活跃状态,即使在单个平面上也能避免过热。

2030危机?

一个世纪前, 美国诗人Robert Frost曾经这样问道:世界会在霜还是火中终结?

如果答案是火,那就几乎预示着计算的终结。

或者,就接受这个事实:电力使用会增加,然后扩大微处理器的制造规模。

为了这个目的,人类已经消耗了很大一部分地球能源。

也许另一种选择是简单地接受增加的电力使用并扩大微处理器的制造规模。我们已经为此目的使用了地球能源供应的很大一部分。

在爱尔兰,仅70个数据中心就消耗了全国14%的能源。到2030年代,预计全球生产电力的30-50%将用于计算和冷却——这还没算加密货币的那些能耗。

(有趣的是,在3月19日博文发表后,作者又将这个预测删除了。他的解释是,这是基于Nature论文中最坏情况的推断,为了论证的清晰和精确,现在已将其删除)

而现在的能源生产的规模化速度,在这之后会导致摩尔定律规模化的成本略微增加。

而在设计(能源效率)和实施层面(将仍在使用的旧设计替换为最新技术)的一系列一次性优化措施,将允许印度等发展中经济体赶上全球的整体生产力。

而摩尔定律终结后,人类在微处理器芯片的制造还没有达到极限之前,就会耗尽能源,计算成本下降的步伐将停滞不前。

虽然量子计算被吹捧为超越摩尔定律的有效途径,但它存在太多未知数了,离商用还有数十年的发展,至少在未来 20到30年内,都派不上用场。

显然,未来10年将出现严重的算力差距,现有的技术公司、投资者或政府机构都没办法解决。

摩尔定律和兰道尔极限的碰撞已经有数十年了,可以说是2030年代最重大、最关键的事件之一。

但现在,知道这件事的人,似乎并不多。



参考资料:https://www.exponentialview.co/p/the-great-computing-stagnation

相关文章
|
9天前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能与情感计算:AI如何理解人类情感
人工智能与情感计算:AI如何理解人类情感
54 20
|
8天前
|
机器学习/深度学习 弹性计算 人工智能
阿里云服务器ECS架构区别及选择参考:X86计算、ARM计算等架构介绍
在我们选购阿里云服务器的时候,云服务器架构有X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器、高性能计算可选,有的用户并不清楚他们之间有何区别,本文主要简单介绍下这些架构各自的主要性能及适用场景,以便大家了解不同类型的架构有何不同,主要特点及适用场景有哪些。
|
1天前
|
人工智能 运维 Serverless
云端问道8期方案教学-基于Serverless计算快速构建AI应用开发
本文介绍了基于Serverless计算快速构建AI应用开发的技术和实践。内容涵盖四个方面:1) Serverless技术价值,包括其发展趋势和优势;2) Serverless函数计算与AI的结合,探讨AIGC应用场景及企业面临的挑战;3) Serverless函数计算AIGC应用方案,提供一键部署、模型托管等功能;4) 业务初期如何低门槛使用,介绍新用户免费额度和优惠活动。通过这些内容,帮助企业和开发者更高效地利用Serverless架构进行AI应用开发。
|
1月前
|
人工智能 缓存 并行计算
转载:【AI系统】CPU 计算本质
本文深入探讨了CPU计算性能,分析了算力敏感度及技术趋势对CPU性能的影响。文章通过具体数据和实例,讲解了CPU算力的计算方法、算力与数据加载之间的平衡,以及如何通过算力敏感度分析优化计算系统性能。同时,文章还考察了服务器、GPU和超级计算机等平台的性能发展,揭示了这些变化如何塑造我们对CPU性能的理解和期待。
转载:【AI系统】CPU 计算本质
|
12天前
|
人工智能 运维 监控
云卓越架构:企业稳定性架构体系和AI业务场景探秘
本次分享由阿里云智能集团公共云技术服务部上海零售技术服务高级经理路志华主讲,主题为“云卓越架构:企业稳定性架构体系和AI业务场景探秘”。内容涵盖四个部分:1) 稳定性架构设计,强调高可用、可扩展性、安全性和可维护性;2) 稳定性保障体系和应急体系的建立,确保快速响应和恢复;3) 重大活动时的稳定重宝策略,如大促或新业务上线;4) AI在企业中的应用场景,包括智能编码、知识库问答、创意广告生成等。通过这些内容,帮助企业在云计算环境中构建更加稳定和高效的架构,并探索AI技术带来的创新机会。
|
1月前
|
机器学习/深度学习 存储 人工智能
转载:【AI系统】计算之比特位宽
本文详细介绍了深度学习中模型量化操作及其重要性,重点探讨了比特位宽的概念,包括整数和浮点数的表示方法。文章还分析了不同数据类型(如FP32、FP16、BF16、FP8等)在AI模型中的应用,特别是FP8数据类型在提升计算性能和降低内存占用方面的优势。最后,文章讨论了降低比特位宽对AI芯片性能的影响,强调了在不同应用场景中选择合适数据类型的重要性。
转载:【AI系统】计算之比特位宽
|
13天前
|
存储 人工智能 运维
面向AI的服务器计算软硬件架构实践和创新
阿里云在新一代通用计算服务器设计中,针对处理器核心数迅速增长(2024年超100核)、超多核心带来的业务和硬件挑战、网络IO与CPU性能增速不匹配、服务器物理机型复杂等问题,推出了磐久F系列通用计算服务器。该系列服务器采用单路设计减少爆炸半径,优化散热支持600瓦TDP,并实现CIPU节点比例灵活配比及部件模块化可插拔设计,提升运维效率和客户响应速度。此外,还介绍了面向AI的服务器架构挑战与软硬件结合创新,包括内存墙问题、板级工程能力挑战以及AI Infra 2.0服务器的开放架构特点。最后,探讨了大模型高效推理中的显存优化和量化压缩技术,旨在降低部署成本并提高系统效率。
|
13天前
|
存储 人工智能 芯片
面向AI的服务器计算互连的创新探索
面向AI的服务器计算互连创新探索主要涵盖三个方向:Scale UP互连、AI高性能网卡及CIPU技术。Scale UP互连通过ALink系统实现极致性能,支持大规模模型训练,满足智算集群需求。AI高性能网卡针对大规模GPU通信和存储挑战,自研EIC网卡提供400G带宽和RDMA卸载加速,优化网络传输。CIPU作为云基础设施核心,支持虚拟化、存储与网络资源池化,提升资源利用率和稳定性,未来将扩展至2*800G带宽,全面覆盖阿里云业务需求。这些技术共同推动了AI计算的高效互联与性能突破。
|
1月前
|
机器学习/深度学习 人工智能
一个模型走天下!智源提出全新扩散架构OmniGen,AI生图进入一键生成时代
智源研究院推出OmniGen,一种全新的扩散模型,旨在克服现有图像生成模型的局限性。OmniGen能处理文本到图像、图像编辑等多任务,具备高效、简洁的架构,仅含VAE和预训练Transformer。通过大规模统一数据集X2I训练,OmniGen展现了强大的多任务处理能力和知识转移能力,适用于虚拟试穿、图像修复等多个领域。尽管如此,OmniGen在特定任务上的性能、训练资源需求及可解释性等方面仍面临挑战。
41519 20
|
23天前
|
机器学习/深度学习 存储 人工智能
基于AI的实时监控系统:技术架构与挑战分析
AI视频监控系统利用计算机视觉和深度学习技术,实现实时分析与智能识别,显著提升高风险场所如监狱的安全性。系统架构包括数据采集、预处理、行为分析、实时决策及数据存储层,涵盖高分辨率视频传输、图像增强、目标检测、异常行为识别等关键技术。面对算法优化、实时性和系统集成等挑战,通过数据增强、边缘计算和模块化设计等方法解决。未来,AI技术的进步将进一步提高监控系统的智能化水平和应对复杂安全挑战的能力。