存内计算的应用:存算一体芯片的发展与挑战

简介: 存内计算的应用:存算一体芯片的发展与挑战

芯片作为人工智能的基石,正遭遇着严重的“冯·诺依曼(von Neumann)架构瓶颈”。在冯·诺依曼架构中,数据存储和计算分离,存储器和处理器之间通过总线进行数据传输,频繁的数据传输导致大量的时间与功耗开销,称为“存储墙”和“功耗墙”。同时,由于器件尺寸微缩逐渐逼近物理极限,单纯通过工艺来进一步提升芯片性能的技术路径逐渐受阻,芯片发展面临着“工艺墙”问题。为了解决上述问题,国内外学术界和产业界从架构、工艺、集成等多个维度展开了诸多研究,探索后摩尔时代新一代芯片技术。

一.存算一体技术的必要性

人工智能近几年在很大程度上改变了我们的工作与生活,开始出现在我们生活的方方面面。除了GPT和问心一言这类语言模型(问答式)之外,还包括基于ai进行视觉识别,如自动驾驶以及自动收银系统等。

在过去二十年里,处理器性能每年以约55%的速度增长,而内存性能仅以每年大约10%的速度提升。由于这种不均衡的发展速度,导致当前存储速度严重滞后于处理器的计算速度。在传统计算机配置中,存储模块是为了服务计算而设计的,因此在设计上会考虑存储与计算的分离和优先级。然而,如今必须全面考虑存储和计算,以最佳方式支持数据的采集、传输和处理。在这一过程中,存储与计算的重新分配面临着各种问题,主要体现为存储墙、带宽墙和功耗墙等挑战。

算力发展速度远超存储(来源:amirgholami@github)

存内计算和存内逻辑,即存算一体技术,直接利用存储器进行数据处理或计算。通过将数据存储与计算融合在同一个芯片的同一片区域,这种技术能够彻底消除冯诺依曼计算架构的瓶颈,尤其适用于大数据量和大规模并行的应用场景,如深度学习神经网络。

内存计算体系

二.当下多种存算一体技术路线

基于当前不同的存储器件类型,存在多种存算一体技术路线,包括易失性存储器SRAM,DRAM(dynamic random access memory),以及非易失性存储器MRAM (magnetoresistive random access memory),PCM (phase-change memory),RRAM,Flash等。SRAM与CMOS (complementary metal oxide semiconductor)逻辑工艺兼容,操作电压低,读写速度快,没有耐久性限制,DRAM利用电容存储电荷的方式如1T1C结构来保存数据,能够获得较高的存储密度。非易失性存储器技术方案由于具有存储密度较高且掉电数据不丢失的特点,在对待机功耗或成本更为敏感的应用场景中具备较大的发展潜力,其中MRAM和PCM的耐久性较好,可擦写次数分别超过了百万亿次和十亿次,MRAM与RRAM的制备能够兼容CMOS后道工艺,工艺可演进性较好,目前在台积电等工艺厂商的40 nm,22 nm等先进节点已经逐步开始研发和量产,NAND Flash则可以通过三维堆叠的方式不断增加堆叠层数来提高存储密度。由于SRAM,DRAM和Flash可以实现较高的开关比,因此计算方式的选择较为灵活。

基于不同存储介质的存内计算芯片

三.存算一体芯片技术产业发展态势

近年来,以AMD、Intel、三星、海力士等企业为代表的半导体龙头企业均已发布基于高带宽内存技术(high bandwidth memory,HBM)和2。5D/3D封装技术的近存计算芯片。例如,三星最新发布的HBM3Icebolt技术采用近存计算架构,通过12层10 nm级动态随机存储器(dynamic random access memory,DRAM)堆叠,实现了高达6。4 Gbps处理速度和高达819 GB/s的带宽。

·三星

三星集团重点布局DRAM和MRAM。2017年,三星电子存储部门联合加州大学圣巴巴拉分校推出DRISA架构,实现了卷积神经网络的计算功能,在提供大规模片上存储的同时也具备较高的计算性能。2022年初,三星电子在《Nature》上发表了首个基于MRAM的存算一体芯片,三星电子采用28 nm CMOS工艺重新构建MRAM阵列结构,以“电阻总和”(Resistance Sum)的存内计算结构代替了传统的“电流总和”(Current Sum),或电荷共享式的存内计算架构,通过测试分类识别等算法,得到98%的准确率。

三星MRAM存内计算登上Nature

三星存内计算芯片的架构

·英特尔

英特尔公司重点布局SRAM。英特尔公司联合美国密歇根州立大学从2016年开始展开基于SRAM的计算型存储/存算一体技术研究。2016年,基于SRAM实现了支持逻辑操作的存储器,并在此基础上实现了支持无进位乘法运算的计算型缓存。2018年英特尔公司发布了面向深度学习算法的神经缓存,可以实现加法、乘法和减法操作。

Intel® TCC 软件 SRAM 可能处理器

·知存科技

2021年成为我国存算一体产业化元年。2022年3月,知存科技正式量产了国际首颗存内计算SoC芯片WTM2101并推向市场,相较于第一代产品WTM1001性能上有10倍以上的提升,但量产时间减半。WTM2101进入市场未满1年,已经落地可穿戴设备、TWS、智能家居、助听辅听等市场,帮助客户实现性能提升、功能升级;同时具备足够丰富的软件开发工具,持续提升芯片稳定性、易用性和通用性。

知存科技存内计算SoC芯片WTM2101

四.存算一体芯片未来:仍存挑战

存算一体技术近年来受到资本市场高度关注,在中美两国涌现的初创企业均获得投融资机会。从2021年开始,在我国半导体产业政策和基金双重助力下,存算一体领域投融资尤为活跃,多家初创企业获得上亿元融资。

发展存算一体芯片对于我国突破国外先进工艺封锁,实现我国芯片产业“弯道超车”有着重要意义;最后,目前全球范围内存算一体芯片并未形成统一、完善的产业体系和技术路径。因此,把握存算一体芯片先机,积极推动存算一体及新型存储器相关技术研发,在理论、材料、工艺、架构、电路等领域取得关键性突破和革命性进展,有助于我国突破当前的算力困境与国外的商业限制,抢占人工智能算力高地,为新一轮人工智能技术革命奠定算力基础。

参考资料

·inter:软件 SRAM:适用于整合式实时系统的高效能、低延迟内存

·吕启闻,陈泽乾,张曦月等.冯·诺依曼瓶颈下计算机体系结构的创新[J].电子技术应用,2023,49(11):28-34.

·ADI MIAX78000超低功耗人工智能(AI)MCU解决方案[J].世界电子元器件,2023(07):53.

·陈巍:存算一体技术是什么?发展史、优势、应用方向、主要介质

相关文章
|
并行计算 安全 开发者
RISC-V生态全景解析(五):Vector向量计算技术与SIMD技术的对比
芯片开放社区(OCC)面向开发者推出RISC-V系列内容,通过多角度、全方位解读RISC-V,系统性梳理总结相关理论知识,构建RISC-V知识图谱,促进开发者对RISC-V生态全貌的了解。
3665 0
RISC-V生态全景解析(五):Vector向量计算技术与SIMD技术的对比
|
人工智能 固态存储 安全
一文告诉你CXL是什么,有什么新的机会 (上)
> 1. 大数据AI/ML应用爆发驱动大内存需求,但内存增长受限,CXL互联方案应运而生 > 2. CXL分为1.0/2.0/3.0版本,分别提供直连、池化、Fabric能力,预计在2022年/203年/2025年之后市场可用,目前看来池化对于软件的影响最大 > 3. CXL更多是对于已有架构的性能优化,全新的机会不多,较大的机会在于系统软件、内存即服务,以及内存数据库和内存云结构 > 4. CXL大概率将成为跨计算引擎的内存结构标准,短期利好云厂商,长期会数据中心架构产生结构性的变革
3402 0
CCF推荐A类会议和期刊总结:计算机体系结构/并行与分布计算/存储系统领域
中国计算机学会(CCF)2022年版推荐目录涵盖了计算机体系结构、并行与分布计算、存储系统领域的多个A类会议和期刊。本文汇总了这些顶级资源的全称、出版社、dblp网址及领域。包括《ACM计算机系统汇刊》、《ACM存储汇刊》等期刊,以及ACM PPoPP、USENIX FAST等会议,为研究人员提供了重要学术参考。
13126 64
CCF推荐A类会议和期刊总结:计算机体系结构/并行与分布计算/存储系统领域
|
存储 机器学习/深度学习 人工智能
冲破冯诺伊曼瓶颈:探索存内计算与静态随机存储器(SRAM)性能因素
冲破冯诺伊曼瓶颈:探索存内计算与静态随机存储器(SRAM)性能因素
1758 6
|
11月前
|
机器学习/深度学习 人工智能 前端开发
【AI系统】计算图的控制流实现
计算图作为有向无环图(DAG),能够抽象神经网络模型,但在编程中遇到控制流语句(如if、else、while、for)时,如何表示成为难题。引入控制流后,开发者可构建更复杂的模型结构,但部署含控制流的模型至不支持Python的设备上较为困难。目前,PyTorch仅支持Python控制流,而TensorFlow通过引入控制流原语来解决此问题。计算图的动态与静态实现各有优劣,动态图易于调试,静态图利于优化。
237 5
【AI系统】计算图的控制流实现
|
数据采集 传感器 机器学习/深度学习
人工智能在农业中的应用:从数据采集到智能决策
本篇文章将详细探讨人工智能(AI)技术在现代农业中的应用,包括从数据采集、分析到智能决策的全过程。通过具体案例,展示AI如何帮助提高农业生产效率、降低成本并增强环境可持续性。
1851 0
|
12月前
|
人工智能 并行计算 云计算
从UALink近期发展再看GPU Scale Up的互连方向
ALink System的目标是聚焦GPU算力需求、驱动云计算定义的开放生态,形成智算超节点的竞争力。
|
人工智能 自动驾驶 算法
本地生活技术雷达——生成式AI(Generative AI)在阿里本地生活的应用与思考
本地生活技术雷达是由本地生活技术中心战略管理&PMO团队开展的,定期扫描和评估新兴技术的战略研究工作。目的是对技术趋势进行前瞻性预判,提出新技术布局建议,在技术驱动业务创新和业务增长、践行社会责任等方面有一些实质性探索。 本篇尝试探讨 1)理解AI范式——从分析型(Analytical AI)到生成式(Generative AI)的拐点在2022年,其对人类社会以及商业模式的长期影响; 2)生成式AI(文生文、文生图、图生图等)在本地业务目前场景的应用和未来的方向。 欢迎技术、产品、运营、战略、管理层、国内国际等各种视角的指点和碰撞!
39991 8
|
机器学习/深度学习 人工智能 分布式计算
阿里云人工智能平台PAI论文入选OSDI '24
阿里云人工智能平台PAI的论文《Llumnix: Dynamic Scheduling for Large Language Model Serving》被OSDI '24录用。论文通过对大语言模型(LLM)推理请求的动态调度,大幅提升了推理服务质量和性价比。
|
机器学习/深度学习 存储 人工智能
基于 SRAM 的存内计算助力实现节能 AI
基于 SRAM 的存内计算助力实现节能 AI
266 5
下一篇
开通oss服务