存内计算的应用:存算一体芯片的发展与挑战

简介: 存内计算的应用:存算一体芯片的发展与挑战

芯片作为人工智能的基石,正遭遇着严重的“冯·诺依曼(von Neumann)架构瓶颈”。在冯·诺依曼架构中,数据存储和计算分离,存储器和处理器之间通过总线进行数据传输,频繁的数据传输导致大量的时间与功耗开销,称为“存储墙”和“功耗墙”。同时,由于器件尺寸微缩逐渐逼近物理极限,单纯通过工艺来进一步提升芯片性能的技术路径逐渐受阻,芯片发展面临着“工艺墙”问题。为了解决上述问题,国内外学术界和产业界从架构、工艺、集成等多个维度展开了诸多研究,探索后摩尔时代新一代芯片技术。

一.存算一体技术的必要性

人工智能近几年在很大程度上改变了我们的工作与生活,开始出现在我们生活的方方面面。除了GPT和问心一言这类语言模型(问答式)之外,还包括基于ai进行视觉识别,如自动驾驶以及自动收银系统等。

在过去二十年里,处理器性能每年以约55%的速度增长,而内存性能仅以每年大约10%的速度提升。由于这种不均衡的发展速度,导致当前存储速度严重滞后于处理器的计算速度。在传统计算机配置中,存储模块是为了服务计算而设计的,因此在设计上会考虑存储与计算的分离和优先级。然而,如今必须全面考虑存储和计算,以最佳方式支持数据的采集、传输和处理。在这一过程中,存储与计算的重新分配面临着各种问题,主要体现为存储墙、带宽墙和功耗墙等挑战。

算力发展速度远超存储(来源:amirgholami@github)

存内计算和存内逻辑,即存算一体技术,直接利用存储器进行数据处理或计算。通过将数据存储与计算融合在同一个芯片的同一片区域,这种技术能够彻底消除冯诺依曼计算架构的瓶颈,尤其适用于大数据量和大规模并行的应用场景,如深度学习神经网络。

内存计算体系

二.当下多种存算一体技术路线

基于当前不同的存储器件类型,存在多种存算一体技术路线,包括易失性存储器SRAM,DRAM(dynamic random access memory),以及非易失性存储器MRAM (magnetoresistive random access memory),PCM (phase-change memory),RRAM,Flash等。SRAM与CMOS (complementary metal oxide semiconductor)逻辑工艺兼容,操作电压低,读写速度快,没有耐久性限制,DRAM利用电容存储电荷的方式如1T1C结构来保存数据,能够获得较高的存储密度。非易失性存储器技术方案由于具有存储密度较高且掉电数据不丢失的特点,在对待机功耗或成本更为敏感的应用场景中具备较大的发展潜力,其中MRAM和PCM的耐久性较好,可擦写次数分别超过了百万亿次和十亿次,MRAM与RRAM的制备能够兼容CMOS后道工艺,工艺可演进性较好,目前在台积电等工艺厂商的40 nm,22 nm等先进节点已经逐步开始研发和量产,NAND Flash则可以通过三维堆叠的方式不断增加堆叠层数来提高存储密度。由于SRAM,DRAM和Flash可以实现较高的开关比,因此计算方式的选择较为灵活。

基于不同存储介质的存内计算芯片

三.存算一体芯片技术产业发展态势

近年来,以AMD、Intel、三星、海力士等企业为代表的半导体龙头企业均已发布基于高带宽内存技术(high bandwidth memory,HBM)和2。5D/3D封装技术的近存计算芯片。例如,三星最新发布的HBM3Icebolt技术采用近存计算架构,通过12层10 nm级动态随机存储器(dynamic random access memory,DRAM)堆叠,实现了高达6。4 Gbps处理速度和高达819 GB/s的带宽。

·三星

三星集团重点布局DRAM和MRAM。2017年,三星电子存储部门联合加州大学圣巴巴拉分校推出DRISA架构,实现了卷积神经网络的计算功能,在提供大规模片上存储的同时也具备较高的计算性能。2022年初,三星电子在《Nature》上发表了首个基于MRAM的存算一体芯片,三星电子采用28 nm CMOS工艺重新构建MRAM阵列结构,以“电阻总和”(Resistance Sum)的存内计算结构代替了传统的“电流总和”(Current Sum),或电荷共享式的存内计算架构,通过测试分类识别等算法,得到98%的准确率。

三星MRAM存内计算登上Nature

三星存内计算芯片的架构

·英特尔

英特尔公司重点布局SRAM。英特尔公司联合美国密歇根州立大学从2016年开始展开基于SRAM的计算型存储/存算一体技术研究。2016年,基于SRAM实现了支持逻辑操作的存储器,并在此基础上实现了支持无进位乘法运算的计算型缓存。2018年英特尔公司发布了面向深度学习算法的神经缓存,可以实现加法、乘法和减法操作。

Intel® TCC 软件 SRAM 可能处理器

·知存科技

2021年成为我国存算一体产业化元年。2022年3月,知存科技正式量产了国际首颗存内计算SoC芯片WTM2101并推向市场,相较于第一代产品WTM1001性能上有10倍以上的提升,但量产时间减半。WTM2101进入市场未满1年,已经落地可穿戴设备、TWS、智能家居、助听辅听等市场,帮助客户实现性能提升、功能升级;同时具备足够丰富的软件开发工具,持续提升芯片稳定性、易用性和通用性。

知存科技存内计算SoC芯片WTM2101

四.存算一体芯片未来:仍存挑战

存算一体技术近年来受到资本市场高度关注,在中美两国涌现的初创企业均获得投融资机会。从2021年开始,在我国半导体产业政策和基金双重助力下,存算一体领域投融资尤为活跃,多家初创企业获得上亿元融资。

发展存算一体芯片对于我国突破国外先进工艺封锁,实现我国芯片产业“弯道超车”有着重要意义;最后,目前全球范围内存算一体芯片并未形成统一、完善的产业体系和技术路径。因此,把握存算一体芯片先机,积极推动存算一体及新型存储器相关技术研发,在理论、材料、工艺、架构、电路等领域取得关键性突破和革命性进展,有助于我国突破当前的算力困境与国外的商业限制,抢占人工智能算力高地,为新一轮人工智能技术革命奠定算力基础。

参考资料

·inter:软件 SRAM:适用于整合式实时系统的高效能、低延迟内存

·吕启闻,陈泽乾,张曦月等.冯·诺依曼瓶颈下计算机体系结构的创新[J].电子技术应用,2023,49(11):28-34.

·ADI MIAX78000超低功耗人工智能(AI)MCU解决方案[J].世界电子元器件,2023(07):53.

·陈巍:存算一体技术是什么?发展史、优势、应用方向、主要介质

相关文章
|
2天前
|
机器学习/深度学习 数据处理 数据安全/隐私保护
|
SQL 存储 分布式计算
大数据计算系统 Blink 在端侧的应用实践
本文主要介绍了端侧通过Blink任务对埋点数据进行实时聚合和清洗,解决端侧日志时效性问题,并基于实时日志搭建线上监控运维体系,从而提升端侧整体的稳定性。
296 0
大数据计算系统 Blink 在端侧的应用实践
|
2天前
|
机器学习/深度学习 存储 人工智能
基于 SRAM 的存内计算助力实现节能 AI
基于 SRAM 的存内计算助力实现节能 AI
|
2天前
|
机器学习/深度学习 人工智能 自动驾驶
内存计算为边缘人工智能提供动力,并加速制造业效率
内存计算为边缘人工智能提供动力,并加速制造业效率
|
2天前
|
存储 固态存储 Java
用软硬协同设计下的飞天盘古降低存储系统开销
历经 15 载,如今的飞天盘古系统已迭代至第三代,数千万行代码和 1,000 余项专利,从大规模、到高性能、到高效能的分布式存储系统的演进,更高效地让数据中心成为一台计算机。
137797 135
用软硬协同设计下的飞天盘古降低存储系统开销
|
2天前
|
存储 人工智能 数据管理
|
11月前
|
人工智能 Serverless 程序员
自研CPU实现大规模应用!张建锋:新型计算体系正在到来
自研CPU实现大规模应用!张建锋:新型计算体系正在到来
129 0
|
存储 机器学习/深度学习 人工智能
ISSCC 2022 | 兼顾能效、精度和灵活性,可重构数字存算一体架构打开高算力AI芯片新范式
ISSCC 2022 | 兼顾能效、精度和灵活性,可重构数字存算一体架构打开高算力AI芯片新范式
452 0
|
人工智能 Serverless 程序员
自研CPU实现大规模应用,新型计算体系正在到来
阿里巴巴宣布自研CPU倚天710已大规模应用,阿里云未来两年20%的新增算力将使用自研CPU。目前,倚天710已在阿里云数据中心大规模部署,并以云的形式服务阿里巴巴和多家互联网科技公司,算力性价比提升超30%,单位算力功耗降低60%,这是中国首个云上大规模应用的自研CPU。
518 0
自研CPU实现大规模应用,新型计算体系正在到来
为什么 Intel、超聚变…都在谈共建多样性计算?
从消费互联网爆发,到产业互联网崛起,全球数据量呈现暴增态势。《多样性算力技术愿景白皮书》指出,行业应用的多样性带来数据和算力的多样性,没有一种计算架构可以高效满足所有业务诉求。计算密集型应用需要计算平台执行逻辑复杂的调度任务,而数据密集型应用则需要高效率地完成海量数据并发处理,这使得单一计算平台难以适应业务要求,计算多样性成为必然。
232 0