冲破冯诺伊曼瓶颈:探索存内计算与静态随机存储器(SRAM)性能因素

简介: 冲破冯诺伊曼瓶颈:探索存内计算与静态随机存储器(SRAM)性能因素

      引言——随着计算任务的日益复杂和庞大,现有的计算架构和存储技术也面临着诸多挑战。为了应对这一挑战,存内计算技术逐渐引起研究者们的关注。而静态随机存储器作为其重要组成部分,正成为突破传统计算瓶颈(冯·诺依曼架构)的关键技术之一。

一.冯诺伊曼瓶颈与存内技术

     近年来,随着人工智能(ArtificialIntelligent,AI)和5G通信技术等领域的迅猛发展,对数据量和计算量的需求呈现出膨胀式增长。在这种背景下,对低功耗的要求变得越来越严峻。然而目前,几乎所有世界领先的计算机系统仍然基于冯诺依曼架构开发。冯诺依曼架构的典型特征是存储单元和中央处理器之间的高度物理分离,导致了冯诺依曼瓶颈的存在——例如,深度神经网络模型ResNet50具有2.55*107个权重,每识别一张图像需要执行3.8*1010次乘加运算。

冯诺伊曼架构及冯诺伊曼瓶颈

ResNet50 残差网络

     内存墙的存在使得处理器无法充分发挥其计算能力,因为它经常处于等待数据的状态。为了解决这一问题,所以为了克服冯诺依曼瓶颈并满足对更优计算性能日益增长的需求,存内计算(Computing-In-Memory,CIM)技术成为了一种可能的解决方案。存内计算技术不仅无需频繁在存储单元和计算单元之间进行数据传输,还能够实现多横向或多纵向数据的计算。因此,存内计算技术有望缓解内存墙瓶颈问题,提高计算速度,并降低能耗成本。

存内技术整体架构

存内计算将计算操作移到内存数组中执行而不是将数据传输到独立的处理单元

二.存内计算的核心——静态随机存储器(Static Random Access Memory,SRAM)

     存内计算的核心思想是将计算操作移到内存数组中执行,以减少处理器和内存之间的数据传输。当前存内计算领域的研究主要包括基于易失性存储器,例如基于动态随机存储器(DRAM)和 SRAM 的存内计算芯片,还有基于非易失性的存储器(NVM),例如忆阻器(ReRAM),以及磁存储器(MRAM)等基于新型存储器的存内计算芯片。[1]

储存器分类

     因为与 CPU 工作速度最接近, SRAM 结构也备受学术界与工业界的青睐。SRAM通常被用作高速缓存存储器,用于临时存储处理器需要快速访问的数据。与存内计算相关的话题中,SRAM可以被看作是一种用于实现在内存中执行计算的存储器技术[2]。基于 SRAM 的 CIM 提供更快的写入速度和更低的写入功耗,具有更高(基本上无限)的耐久性,这使得基于 SRAM 的 CIM 结构更适用于中小型容量的系统,并可配置为更广泛的神经网络。而且,由于 SRAM 的技术成熟先进,因此基于 SRAM 的 CIM 允许使用最先进的工艺技术来减少延迟并提高能效。[3]

     当前存内计算技术普遍是基于电压域实现的,SRAM 常用作微处理器中的片上缓存。首先获取数字数据,使用 DAC 将其转换为模拟量,接着使用这些模拟信号驱动具有模拟内容的存储器进行计算,以获取的位线电压作为计算结果输出,最后使用 ADC 将结果转换回数字信号。SRAM的基本架构主要包括存储阵列(Array)、灵敏放大器(Sense Amplifier,SA)、输入输出电路、行列译码器以及时序控制电路。整个SRAM的核心是由M行N列个基本存储单元组成的存储阵列,其他外围电路围绕着存储阵列进行基本操作。

SRAM 基本结构

三. 决定SRAM的性能的因素

     前面介绍了SRAM作为一种存储单元,与其他计算单元集成在同一芯片上,有助于减少存储器与计算单元之间的数据传输,提高整体性能。因此,SRAM可以被视为存内技术中的核心要素之一,尤其是在设计注重速度和功耗效率的集成电路时。在一些存内计算的研究和应用中,SRAM的性能和设计特性对整体系统的性能和功耗都有着重要的影响。

3.1 材料

     随着技术和电源电压的缩小,由于噪声容限较小且稳定性较差,设计 SRAM 变得极具挑战性。因此,通过规模化技术,很难满足SRAM的三个约束:面积、功耗和稳定性。CNTFET的结构中,碳纳米管充当了半导体通道,通过调节栅电压来控制电荷载流子的通道。在SRAM中采用CNTFET作为存储单元的传输门或开关,可以带来一系列优势,包括更高的性能、更低的功耗和更小的器件尺寸。

CNTFET与传统的MOSFET对比

     CNTFET有独特的结构、电学和机械性能。与传统的MOSFET相比,它们利用碳纳米管的半导体特性,具有高载流子迁移率、大平均自由程(MFP)、适当的接触电阻、快速开关速度和较少的热耗散(less heat dissipation)等显著特性。基于碳纳米管的晶体管可以在太赫兹区域作为分子电子器件工作。尽管CNTFET的成本较高,但由于其优异的电导率和高介电性能,它在纳米电子器件中可以发挥重要作用。[4]

不同栅电压下的CNTFET和MOSFE的特性曲线(漏极电流 vs. 漏极电压)

斯坦福大学研究团队提出的CNTFET紧凑模型[5]

3.2存储单元的传输门数量

     在 SRAM的研究中,单元的设计结构决定了其中包含的传输门数量。常见的分类包括 6T、8T、10T 和 12T SRAM 单元,分别表示不同数量的传输门(Transistor)。即6T 表示一个包含 6 个传输门(晶体管)的 SRAM 单元,8T 表示一个包含 8 个传输门的单元,以此类推。这些传输门用于构建 SRAM 单元的存储部分和访问部分,其中的传输门的数量会影响到 SRAM 单元的性能、功耗和稳定性。各种设计都在权衡这些因素,以满足特定应用场景的要求。

     尽管可以设计具有单个纳米管的晶体管,但从性能的角度来看并不具备竞争力。因此,在基于碳纳米管的电路设计中,使用多个管子变得必要。

CNT数量对功耗的影响

CNT 数量对延迟的影响

不同传输门数量下的SRAM结构

     通过相关技术实验可得到结论:与6T SRAM结构相比,8T、9T和10T SRAM结构的读取静态噪声裕度(RSNM)更高50%以上,而7T SRAM结构在RSNM上没有显著改善。在写入静态噪声裕度(WSNM)方面,9T结构的值在所有结构中最小。相对于6T SRAM结构,7T和8T SRAM结构的WSNM分别提高了约10%,而10T结构相对于6T结构的提高超过了30%。7T SRAM结构的动态功耗最小,为4.87 nW,比6T结构减少了36%。对于8T、9T和10T结构,相对于6T结构,动态功耗分别增加了约36%、67%和75%。同样,相对于7T结构,7T结构的读取延迟最小,为3.54 psec,而6T、8T、9T和10T结构的读取延迟分别增加了约68%、73%、74%和76%。[6]

基于 CNTFET 的 不同传输门数量的SRAM 的特性

3.3功耗

     SRAM功耗取决于它的访问频率。如果用高频率访问SRAM,其功耗比得上DRAM。有的SRAM在全带宽时功耗达到几个瓦特量级。另一方面,SRAM如果用于温和的时钟频率的微处理器,其功耗将非常小,在空闲状态时功耗可以忽略不计—几个微瓦特级别。

     为了降低功耗,多种方法被提出来,比如门控时钟,多阈值设计、降低供电电压、多电压供电等。在诸多方法中,降低供电电压无疑是最有效的办法。为了降低功耗近阈值和亚阈值电路设计得到了广泛的应用。但是电压的降低也会使SRAM的稳定性急剧下降、软错误率增加等问题将是高性能SRAM设计的重难点。[6]

     2019年Shilpi B 提出利用 FinFET 技术设计的一款新型 11T SRAM 单元。在电源电压为 0.9 V 条件下,该单元的写静态噪声裕度(WSNM)和保持裕度(HSNM)分别为 306 mV 和 384 mV,亚阈值漏电功率降低了 12.5 %。

FinFET SRAM

四. 总结与展望

     SRAM技术的发展涉及多个层级的研究,包括电路、架构、系统、软硬件协同,以及整个生态系统的综合考虑。对这些层级进行跨领域的深入研究和全面布局,对于推动SRAM存算一体技术的发展具有至关重要的意义。[7]

     在如今的发展中,提高SRAM的性能,通过存储单元布局、访问方式、并行性等方面的优化来实现更高的速度、更低的功耗以及更好的可靠性。新型的电路结构和材料的引入,以及对电源电压和操作频率的优化,都是在这一领域上不断进行的探索。

     与此同时SRAM技术的发展可以促使存内计算技术在社会、经济、环境等方面的可持续性和友好性的关注,以及对AI大模型等领域的综合应用。这将不仅推动人工智能和科学计算等领域的发展,还有助于解决硬件算力和能效等方面的挑战,为科技创新开辟更广阔的前景。

本文参考资料:

[1]周立昕. 基于SRAM结构的高效能存算一体技术研究[D].桂林电子科技大学,2023.

[2]占红兰. SRAM存内计算可靠性研究[D].安徽大学,2022.

[3]JHANG C-J, XUE C-X, HUNG J-M, et al. Challenges and Trends of SRAM-Based ComputingIn-Memory for AI Edge Devices[J]. IEEE Transactions on Circuits and Systems I: Regular Papers, 2021, 68(5): 1773-1786.

[5]Kabir, Md. Alamgir et al. “PERFORMANCE ANALYSIS OF CNTFET AND MOSFET FOCUSING CHANNEL LENGTH, CARRIER MOBILITY AND BALLISTIC CONDUCTION IN HIGH SPEED SWITCHING.” (2014).

[4]杨可,左石凯,王尘等.碳纳米管场效应晶体管紧凑模型研究进展[J].微电子学,2023.

[5]Shital Joshi, Umar Alabawi, "Comparative Analysis of 6T, 7T, 8T, 9T, and 10T Realistic CNTFET Based SRAM", Journal of Nanotechnology, vol. 2017, Article ID 4575013, 9 pages, 2017.

[6]王思涵. 高性能集成电路模块与算法设计[D].哈尔滨理工大学,2021.

[7]叶乐,贾天宇,陈沛毓等.SRAM存算一体芯片研究:发展与挑战[J].中国科学:信息科学,2024.

相关文章
|
12月前
|
缓存 测试技术 数据中心
【计算机架构】计算 CPU 动态功耗 | 集成电路成本 | SPEC 基准测试 | Amdahl 定律 | MIPS 性能指标
【计算机架构】计算 CPU 动态功耗 | 集成电路成本 | SPEC 基准测试 | Amdahl 定律 | MIPS 性能指标
434 0
|
SQL 算法 Java
【其他】快出数量级的性能是怎样炼成的
【其他】快出数量级的性能是怎样炼成的
40 0
|
12月前
|
存储 并行计算 编译器
【计算机架构】程序指令计数 | 功耗计算 | 电力功耗 | 安德尔定律(Amdahl‘s Law)
【计算机架构】程序指令计数 | 功耗计算 | 电力功耗 | 安德尔定律(Amdahl‘s Law)
117 1
|
15天前
|
机器学习/深度学习 人工智能
昂贵LLM的救星?Nature新研究提出新型忆阻器,比Haswell CPU高效460倍
【10月更文挑战第11天】《自然》杂志最新研究介绍了一种新型忆阻器——线性对称自选14位动能分子忆阻器。该技术在神经网络训练和推理中表现出线性对称的权重更新、460倍于现有CPU的高能效及多级编程能力,有望大幅提升AI硬件的能源效率。尽管前景广阔,但仍需解决制造工艺复杂和环境影响等问题。
25 1
|
SQL 存储 分布式计算
快出数量级的性能是怎样炼成的
快出数量级的性能是怎样炼成的
|
数据中心
能源利用率逼近理论极限 阿里巴巴展示液冷黑科技
热得快可以快速烧水是利用了浸没的优势,那么如果要降温呢?阿里云科学家在4月26日的云栖大会·南京峰会上展示了全浸没的“凉得快”服务器——麒麟,把整台服务器浸在液体里循环冷却,这一方案可以无需使用空调,能源使用率(PUE)逼近了理论极限值1.0。
8551 0
|
存储 机器学习/深度学习 人工智能
CPU将进入新时代:押注计算芯片的极限协同设计
我们现在进入了一个时代,那就是IT行业的计算引擎将需要比以往任何时候都更需要更低的价格,更好的性能以及更好的散热特性。这将需要一种在更大范围的工作负载和设备上进行协同设计系统(co-designing systems )的进化方法。
|
API 图形学 异构计算
非专业游戏CPU多核性能研究
![image.png](http://ata2-img.cn-hangzhou.img-pub.aliyun-inc.com/5ca9074dbfb795155c56ab12dbeeb252.png) 作为一个专业web后端开发,非常业余游戏爱好者,普通硬件退烧者,虽然对游戏研发一窍不通,想对游戏性能的问题探讨下。 ## 游戏性能与多核CPU的疑问 第一个问题,近几年为什么
2224 0