新突破!存算一体芯片,来了

简介: 分享一个好消息——达摩院成功研发存算一体芯片!

分享一个好消息——达摩院成功研发存算一体芯片!

这是全球首款基于DRAM的3D键合堆叠存算一体芯片。它可突破冯·诺依曼架构的性能瓶颈,满足人工智能等场景对高带宽、高容量内存和极致算力的需求。在特定AI场景中,该芯片性能提升10倍以上,效能比提升高达300倍。

image.png

01为什么要研发存算一体芯片?

随着人工智能应用场景的爆发,现有的计算机系统架构的短板逐渐显露,例如功耗墙、性能墙、内存墙等问题。

其主要症结在于:

  • 一是数据搬运带来了巨大的能量消耗。在传统架构下,数据从内存单元传输到计算单元需要的功耗是计算本身的约200倍,因此真正用于计算的能耗和时间占比很低。
  • 二是内存的发展远远滞后于处理器的发展。目前,处理器的算力以每两年3.1倍的速度增长,而内存的性能每两年只有1.4倍的提升。后者的性能极大地影响了数据传输的速度,这也被认为是传统计算机的阿克琉斯之踵。

image.png

存算一体芯片是目前解决以上问题的最佳途径——它类似于人脑,将数据存储单元和计算单元融合为一体,大幅减少数据搬运,从而极大提高计算并行度和能效。

这一技术早在90年代就被提出,但受限于技术的复杂度、高昂的设计成本以及应用场景的匮乏,过去几十年业界对存算一体芯片的研究进展缓慢。如今,达摩院希望通过自研创新技术解决算力瓶颈这一业界难题。

此外,存算一体芯片在终端、边缘端以及云端都有广阔的应用前景。例如VR/AR、无人驾驶、天文数据计算、遥感影像数据分析等场景中,存算一体芯片都可以发挥高带宽、低功耗的优势。

从长远来看,存算一体技术还将成为类脑计算的关键技术。

02 实现存算一体的三种路线

实现存算一体有三种技术路线:

  • 近存储计算(Processing Near Memory):计算操作由位于存储芯片外部的独立计算芯片完成。
  • 内存储计算(Processing In Memory):计算操作由位于存储芯片内部的独立计算单元完成,存储单元和计算单元相互独立存在。
  • 内存执行计算(Processing With Memory):存储芯片内部的存储单元完成计算操作,存储单元和计算单元完全融合,没有一个独立的计算单元。

其中,近存计算通过将计算资源和存储资源距离拉近,实现对能效和性能的大幅度提升,被认为是现阶段解决内存墙问题的最佳途径。达摩院本次也是沿着这一方向进行突破。

03 近存计算架构&3D混合键合

为了拉近计算资源和存储资源的距离,达摩院计算技术实验室创新性采用混合键合(Hybrid Bonding)的3D堆叠技术进行芯片封装——将计算芯片和存储芯片face-to-face地用特定金属材质和工艺进行互联。

比起业内常见的封装方案HBM,混合键合3D堆叠技术拥有高带宽、低成本等特点,被认为是低功耗近存计算的完美载体之一。

image.png

此外,内存单元采用异质集成嵌入式DRAM (SeDRAM),拥有超大内存容量和超大带宽优势。

同时在计算芯片方面,达摩院研发设计了流式的定制化加速器架构,对推荐系统进行“端到端”加速,包括匹配、粗排序、神经网络计算、细排序等任务。

这种近存架构有效解决了带宽受限的问题,最终内存、算法以及计算模块的完美融合,大幅提升带宽的同时还实现了超低功耗,展示了近存计算在数据中心场景的潜力。

最终的测试芯片显示,这种存算技术和架构的优势明显:

能通过拉近存储单元与计算单元的距离增加带宽,降低数据搬运的代价,缓解由于数据搬运产生的瓶颈,而且与数据中心的推荐系统对于带宽/内存的需求完美匹配。

得益于技术的创新性,该芯片的研究成果已被芯片领域顶级会议ISSCC 2022收录。

未来,达摩院希望能进一步攻克存内计算技术,并逐步优化典型应用、生态系统等方面。

备注:来源| 阿里云公众号

相关文章
|
2月前
|
机器学习/深度学习 数据处理 数据安全/隐私保护
|
2月前
|
存储 固态存储 Java
用软硬协同设计下的飞天盘古降低存储系统开销
历经 15 载,如今的飞天盘古系统已迭代至第三代,数千万行代码和 1,000 余项专利,从大规模、到高性能、到高效能的分布式存储系统的演进,更高效地让数据中心成为一台计算机。
138424 137
用软硬协同设计下的飞天盘古降低存储系统开销
|
2月前
|
存储 机器学习/深度学习 人工智能
存内计算的应用:存算一体芯片的发展与挑战
存内计算的应用:存算一体芯片的发展与挑战
295 4
|
2月前
|
存储 SQL 机器学习/深度学习
通用数据湖仓一体架构正当时
通用数据湖仓一体架构正当时
99 2
|
2月前
|
数据可视化 数据挖掘 数据管理
架构之争:数用一体VS数用分离,谁才是永远滴神
架构之争:数用一体VS数用分离,谁才是永远滴神
|
2月前
|
存储 监控 安全
芯片DFX:Coresight架构
芯片DFX:Coresight架构
117 0
|
9月前
|
存储 边缘计算 安全
云端一体
云端一体
102 0
|
存储 SQL 分布式计算
湖仓一体新能力解读| 学习笔记
快速学习湖仓一体新能力解读
429 0
湖仓一体新能力解读| 学习笔记
|
SQL 机器学习/深度学习 存储
实时化或成必然趋势?新一代 Serverless 实时计算引擎
本文由阿里巴巴高级产品专家高旸(吾与)分享,主要介绍新一代Serverless实时计算引擎的产品特性及核心功能。
实时化或成必然趋势?新一代 Serverless 实时计算引擎
|
存储 机器学习/深度学习 SQL
湖仓一体:大数据平台的下一代架构-贾扬清|学习笔记
快速学习湖仓一体:大数据平台的下一代架构-贾扬清。
376 0