基于 SRAM 的存内计算助力实现节能 AI

简介: 基于 SRAM 的存内计算助力实现节能 AI

  本期内容介绍有关功耗的相关问题。随着AI模型的复杂性和规模的不断增长,相应的功耗问题也逐渐凸显。在这个背景下,存内计算技术成为降低AI系统功耗的重要解决方案之一。本文将深入探讨基于SRAM(静态随机存取存储器)的存内计算,旨在详细解释存内计算如何助力降低AI功耗,并深入探讨SRAM是如何在这一技术中发挥关键作用的。

一.降低 AI 功耗的必要性

中国科协在第二十五届中国科协年会主论坛上,发布了2023重大科学问题、工程技术难题和产业技术问题。人工智能、新能源、高性能材料、生命科学等领域的重大问题受到关注。其中第一个问题就是如何实现低能耗人工智能。

人工智能(AI)加速器在神经网络等AI类型的任务中扮演着至关重要的角色。这些高效的并行计算设备能够提供处理大量数据所需的出色性能。随着AI在我们生活中的不断渗透,从智能扬声器等消费电子产品到自动化工厂等工业应用,我们迫切需要关注这些应用的能源效率。

实际上,鉴于其对环境的潜在影响,人工智能硬件功耗已成为一个需要特别关注的领域。OpenAI的数据显示,要训练出一流的AI模型,平均每3。4个月的时间就会使计算资源需求翻倍。马萨诸塞大学阿默斯特分校的研究人员估计,训练一个单一深度学习模型可能导致高达626,155磅的碳排放,相当于五辆汽车在其整个生命周期中的总排放量。而一旦将人工智能模型应用于实际场景,其能耗将进一步增加。AI硬件通常由上千片晶片(处理元件)组成,这一设计需要十亿多个逻辑门,因此极其能耗庞大。通过降低功耗,我们可以获得多方面的好处,包括成本降低、电池续航时间延长,同时将对环境的不良影响降至最低。[1]

近日,根据德国施耐德电气最新发布报告显示——2023年AI负载功耗需求为4。3G瓦——大约相当于2021年丹麦的全年平均功耗。据施耐德电气称,到 2023 年,所有数据中心的总功耗预计将达到 54 GW。在这些人工智能工作负载中,训练和推理之间的分配特点是 20% 的功耗用于训练目的,80% 分配给推理任务。这意味着人工智能工作负载将占今年数据中心总功耗的约8%。

 综上所述,降低AI功耗不仅能够尽量减少对环境的影响,还能降低运营成本,并在有限的功耗预算内尽可能地提高性能,缓解热挑战。

 

二.降低ai功耗的思路与国内外研究与成果

     在这一背景下,低功耗人工智能成为追求可持续发展和环保的重要方向。低功耗人工智能不仅有助于解决节能环保的问题,更能在移动设备、物联网和边缘计算等领域发挥关键作用。其意义不仅在于降低能源开支和维护成本,同时也能推动更广泛的人工智能应用,使得这一技术更贴近实际需求。

因此,探索并强调低功耗人工智能的重要性,成为当前科技领域中的一项迫切任务。未来低功耗人工智能的一些主要趋势包括——

2.1算法优化

     如采用二值神经网络 (BNN) 使用位运算代替标准算术运算,大大降低了存储器大小和访问要求。通过显著提高运行时效率和降低能耗。BNN可以显著减少存储量和访问量,并通过逐位计算取代大多数算术运算,从而大大提高能效;二值处理单元用于CNN时,可节省60%的硬件复杂性。有人将二值网络在ImageNet数据集上进行了测试,与全精度AlexNet相比,分类精度仅降低了2。9%,而且由于其功耗小,计算时间短,使得通过专门硬件加速DNN的训练过程成为可能。 [2]

  2.2硬件优化

     开发专为低功耗人工智能设计的新硬件架构。这些架构通常可以非常有效地执行人工智能计算。在传统冯·诺伊曼体系结构中,数据需要从处理单元外的存储器提取,处理完之后再写回存储器,速度慢、耗能高,这是低功耗和高性能之间的矛盾关键点。针对这种问题,目前在硬件优化上有多种方式,如设计专用于AI工作负载的硬件加速器,如图形处理单元(GPU)、张量处理单元(TPU)、神经处理单元(NPU)等。其中如存算一体芯片(Compute-In-Memory,CIM)是一种非常有前景新型的计算架构,可以使存储器同时拥有计算和存储功能。举例来说,以前需要3~4个模块搭载在一起进行存储和计算,数据需要从处理单元外的存储器提取,而有了存算一体技术,一个芯片足以打通存算环节。由此,可以避免数据反复搬运,能大幅提升能效,降低设计难度。

三.基于 SRAM 的存内计算

     2016年,Jeloka等人提出了基于SRAM(Static Random Access Memory,静态随机访问存储器)的存内逻辑计算。随后,大量研究基于此原理进行了更深入的研究。同时,根据SRAM的存内逻辑运算原理,SRAM又被用于神经网络的硬件加速。基于SRAM的存算一体技术起步相对较晚,密歇根大学(University of Michigan)和北海道大学(Hokkaido University)于2017年分别在VLSI会议上,发表了基于SRAM的存算一体芯片,这也是最早一批在集成电路方向发表的基于SRAM的存算一体芯片论文。此后,基于SRAM的存算一体芯片发展迅猛,从2018年开始,ISSCC会议开始设立存算一体相关的会议议题,投稿与发表数逐年增长,计算方式从模拟计算转向数字与模拟计算并存,所支持的计算精度也从一开始只能支持二值化精度到现在能支持浮点精度。

SRAM最经典的单元为6T结构。存储器构造的核心是存储阵列,它是影响整个SRAM的面积开销和读写性能的主要方面。在存储阵列中,基本的存储单元在水平方向上采取共享字线(WL)的方式;在垂直方向采取共享位线(BL)的方式。晶体管M1和M4组成左侧反相器,M2和M3组成右侧反相器,两个反相器通过反馈作用形成背靠背反相器,从而保持数据。晶体管M5和M6是存取晶体管,存取晶体管的栅端共用一条WL信号,存储节点分别通过这两个晶体管与BL和BLB进行连接。只有当这两个晶体管被开启时,相应的读写操作才能被执行。这种设置是典型的CMOS技术,相当于一个“触发器”电路,只要系统正常供电,就能在稳定状态下存储信息“0”或“1”。

四.优势与挑战并存

基于SRAM技术的存内计算展现了一系列独特的优势和挑战。其优势体现在其快速的访问速度、低功耗的特点上,SRAM作为一种静态存储器无需定期刷新,且由于存储是基于存储单元中的电荷而非电容,具备较高的存储稳定性。这使得基于SRAM的存内计算在访问效率和数据稳定性方面具备显著优势,特别适用于高性能计算和高速缓存应用场景。然而,SRAM也面临着成本较高、面积相对大的挑战,这在一些对存储容量要求较大、成本敏感的情况下可能限制其应用。

因此,在选择存内计算技术时,需要全面考虑任务的性质、系统需求以及成本和性能之间的平衡。尽管基于SRAM的存内计算在提高计算效率和降低功耗方面取得了积极进展,但在实际应用中仍需根据具体场景综合考虑其优势与挑战。

快速访问速度: SRAM 存储器的访问速度相对较快,比许多其他存储技术(如DRAM)更快。这使得在 SRAM 中执行的计算能够更迅速地获得存储器中的数据,提高计算效率。

稳定性: SRAM 是静态存储器,可以在没有刷新的情况下保持存储的数据。这使得基于 SRAM 的存内计算更容易管理状态,而无需频繁地进行额外的维护操作。

低功耗: 通常,SRAM 模块比 DRAM 模块消耗更少的功率。这是因为 SRAM 仅需要较小的稳定电流,而 DRAM 则需要每隔几毫秒爆发一次功率来刷新。该刷新电流比低 SRAM 待机电流大几个数量级。因此,SRAM 用于大多数便携式和电池供电的设备。然而,SRAM 的功耗确实取决于其访问频率。当 SRAM 以较慢的速度使用时,它在空闲时消耗的功率几乎可以忽略不计。另一方面,在更高的频率下,SRAM 的功耗与 DRAM 一样多。

成本和面积: 相对于一些其他存储技术,如DRAM,SRAM 的制造成本和占用面积较大。这使得SRAM在某些存储容量较大、成本敏感的场景中并不适用。一些复杂的计算可能需要更大的存储容量或其他类型的存储器技术来满足要求。

五.当下基于SRAM的存内计算芯片的产业化

     相较于其他新型非易失性存储器,基于SRAM的存算一体技术路线尽管起步较晚,但凭借其工艺兼容性、设计灵活性、电路可靠性等优势,近5年发展十分迅猛,在学术界不断尝试和探索的过程中逐渐引起工业界的重点关注,在AI算法愈发向更大模型演进使得硬件算力和功耗愈发受到重视的今天,基于SRAM的存算一体技术展现出了强劲的性能优势和应用潜力,使得多个国际芯片巨头开始在该领域进行研发和产业布局。比如英特尔、IBM、特斯拉、三星、阿里等,巨头对存算技术布局较早,如三星基于MBCFET技术的 SRAM芯片与现有芯片相比写入电压降低了230mV,可见MBCFET确实能够实现降低功耗。

与此同时,国内初创企业的创新势头也在不断加速,其中知存科技、后摩智能、千芯科技、亿铸科技等企业正积极投入研发领域,推动着智能存储和计算技术的发展。这些初创企业的活跃在推动着中国科技创新的发展,不仅为本国市场提供了先进的技术解决方案,同时也在全球范围内树立起中国企业不断在存储和计算领域革新的形象。随着这些企业的不断努力和突破,可以期待看到更多智能、高效、创新的存储计算技术在未来的应用场景中得以广泛应用。

六.总结

     基于SRAM的存内计算在降低AI功耗方面发挥着重要作用。SRAM的静态特性和较快的访问速度有助于降低内存访问功耗,提高整体计算效率。其低功耗状态切换的灵活性也使得系统在空闲或轻负载时能够更有效地管理功耗,为构建高效能且能源节约的AI应用提供了基础。

参考文献

·王梓霖。 面向低功耗嵌入式系统的存内计算电路设计[D]。电子科技大学,2023。

·李燕飞。 二值神经网络设计中若干关键技术的研究[D]。浙江大学,2023。

·郭昕婕,王光燿,王绍迪。存内计算芯片研究进展及应用[J]。电子与信息学报,2023。

·Bhaskar, Akshay。 “Design and analysis of low power SRAM cells。” 2017 Innovations in Power and Advanced Computing Technologies (i-PACT) (2017): 1-5。

·张章,施刚,王启帆等。基于SRAM和NVM的存内计算技术综述[J/OL]。计算机研究与发展:1-18[2024-02-04]。http://kns。cnki。net/kcms/detail/11。1777。TP。20231010。1139。004。html。

·冯平,尹家宇,宋长坤等。非易失性静态随机存储器研究进展[J]。半导体技术,2022,47(01):1-8+18。

说明:本文来自CSDN存内社区,原文作者:叫我兔兔酱

基于 SRAM 的存内计算助力实现节能 AI -CSDN社区

相关文章
|
2月前
|
人工智能 自然语言处理 机器人
AI Compass前沿速览:Jetson Thor英伟达AI计算、Gemini 2.5 Flash Image、Youtu腾讯智能体框架、Wan2.2-S2V多模态视频生成、SpatialGen 3D场景生成模型
AI Compass前沿速览:Jetson Thor英伟达AI计算、Gemini 2.5 Flash Image、Youtu腾讯智能体框架、Wan2.2-S2V多模态视频生成、SpatialGen 3D场景生成模型
AI Compass前沿速览:Jetson Thor英伟达AI计算、Gemini 2.5 Flash Image、Youtu腾讯智能体框架、Wan2.2-S2V多模态视频生成、SpatialGen 3D场景生成模型
|
25天前
|
人工智能 异构计算
敬请锁定《C位面对面》,洞察通用计算如何在AI时代持续赋能企业创新,助力业务发展!
敬请锁定《C位面对面》,洞察通用计算如何在AI时代持续赋能企业创新,助力业务发展!
|
1月前
|
机器学习/深度学习 人工智能 容灾
硅谷GPU云托管:驱动AI革命的下一代计算基石
在人工智能与高性能计算席卷全球的今天,硅谷作为科技创新的心脏,正通过GPU云托管服务重新定义计算能力的边界。无论您是初创公司的机器学习工程师,还是跨国企业的研究团队,硅谷GPU云托管已成为实现突破性创新的关键基础设施。
|
8月前
|
机器学习/深度学习 人工智能 搜索推荐
BioEmu:微软黑科技炸场!生成式AI重构蛋白质模拟:千倍效率碾压传统计算,新药研发周期砍半
BioEmu 是微软推出的生成式深度学习系统,可在单个 GPU 上每小时生成数千种蛋白质结构样本,支持模拟动态变化、预测热力学性质,并显著降低计算成本。
384 2
BioEmu:微软黑科技炸场!生成式AI重构蛋白质模拟:千倍效率碾压传统计算,新药研发周期砍半
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能与情感计算:AI如何理解人类情感
人工智能与情感计算:AI如何理解人类情感
1474 20
|
10月前
|
人工智能 缓存 并行计算
转载:【AI系统】CPU 计算本质
本文深入探讨了CPU计算性能,分析了算力敏感度及技术趋势对CPU性能的影响。文章通过具体数据和实例,讲解了CPU算力的计算方法、算力与数据加载之间的平衡,以及如何通过算力敏感度分析优化计算系统性能。同时,文章还考察了服务器、GPU和超级计算机等平台的性能发展,揭示了这些变化如何塑造我们对CPU性能的理解和期待。
转载:【AI系统】CPU 计算本质
|
10月前
|
机器学习/深度学习 存储 人工智能
转载:【AI系统】计算之比特位宽
本文详细介绍了深度学习中模型量化操作及其重要性,重点探讨了比特位宽的概念,包括整数和浮点数的表示方法。文章还分析了不同数据类型(如FP32、FP16、BF16、FP8等)在AI模型中的应用,特别是FP8数据类型在提升计算性能和降低内存占用方面的优势。最后,文章讨论了降低比特位宽对AI芯片性能的影响,强调了在不同应用场景中选择合适数据类型的重要性。
转载:【AI系统】计算之比特位宽
|
9月前
|
人工智能 运维 Serverless
云端问道8期方案教学-基于Serverless计算快速构建AI应用开发
本文介绍了基于Serverless计算快速构建AI应用开发的技术和实践。内容涵盖四个方面:1) Serverless技术价值,包括其发展趋势和优势;2) Serverless函数计算与AI的结合,探讨AIGC应用场景及企业面临的挑战;3) Serverless函数计算AIGC应用方案,提供一键部署、模型托管等功能;4) 业务初期如何低门槛使用,介绍新用户免费额度和优惠活动。通过这些内容,帮助企业和开发者更高效地利用Serverless架构进行AI应用开发。
174 1
|
9月前
|
存储 人工智能 运维
面向AI的服务器计算软硬件架构实践和创新
阿里云在新一代通用计算服务器设计中,针对处理器核心数迅速增长(2024年超100核)、超多核心带来的业务和硬件挑战、网络IO与CPU性能增速不匹配、服务器物理机型复杂等问题,推出了磐久F系列通用计算服务器。该系列服务器采用单路设计减少爆炸半径,优化散热支持600瓦TDP,并实现CIPU节点比例灵活配比及部件模块化可插拔设计,提升运维效率和客户响应速度。此外,还介绍了面向AI的服务器架构挑战与软硬件结合创新,包括内存墙问题、板级工程能力挑战以及AI Infra 2.0服务器的开放架构特点。最后,探讨了大模型高效推理中的显存优化和量化压缩技术,旨在降低部署成本并提高系统效率。
|
9月前
|
存储 人工智能 芯片
面向AI的服务器计算互连的创新探索
面向AI的服务器计算互连创新探索主要涵盖三个方向:Scale UP互连、AI高性能网卡及CIPU技术。Scale UP互连通过ALink系统实现极致性能,支持大规模模型训练,满足智算集群需求。AI高性能网卡针对大规模GPU通信和存储挑战,自研EIC网卡提供400G带宽和RDMA卸载加速,优化网络传输。CIPU作为云基础设施核心,支持虚拟化、存储与网络资源池化,提升资源利用率和稳定性,未来将扩展至2*800G带宽,全面覆盖阿里云业务需求。这些技术共同推动了AI计算的高效互联与性能突破。

热门文章

最新文章