新突破!存算一体芯片,来了

简介: 分享一个好消息——达摩院成功研发存算一体芯片!

分享一个好消息——达摩院成功研发存算一体芯片!

这是全球首款基于DRAM的3D键合堆叠存算一体芯片。它可突破冯·诺依曼架构的性能瓶颈,满足人工智能等场景对高带宽、高容量内存和极致算力的需求。在特定AI场景中,该芯片性能提升10倍以上,效能比提升高达300倍。

image.png

01为什么要研发存算一体芯片?

随着人工智能应用场景的爆发,现有的计算机系统架构的短板逐渐显露,例如功耗墙、性能墙、内存墙等问题。

其主要症结在于:

  • 一是数据搬运带来了巨大的能量消耗。在传统架构下,数据从内存单元传输到计算单元需要的功耗是计算本身的约200倍,因此真正用于计算的能耗和时间占比很低。
  • 二是内存的发展远远滞后于处理器的发展。目前,处理器的算力以每两年3.1倍的速度增长,而内存的性能每两年只有1.4倍的提升。后者的性能极大地影响了数据传输的速度,这也被认为是传统计算机的阿克琉斯之踵。

image.png

存算一体芯片是目前解决以上问题的最佳途径——它类似于人脑,将数据存储单元和计算单元融合为一体,大幅减少数据搬运,从而极大提高计算并行度和能效。

这一技术早在90年代就被提出,但受限于技术的复杂度、高昂的设计成本以及应用场景的匮乏,过去几十年业界对存算一体芯片的研究进展缓慢。如今,达摩院希望通过自研创新技术解决算力瓶颈这一业界难题。

此外,存算一体芯片在终端、边缘端以及云端都有广阔的应用前景。例如VR/AR、无人驾驶、天文数据计算、遥感影像数据分析等场景中,存算一体芯片都可以发挥高带宽、低功耗的优势。

从长远来看,存算一体技术还将成为类脑计算的关键技术。

02 实现存算一体的三种路线

实现存算一体有三种技术路线:

  • 近存储计算(Processing Near Memory):计算操作由位于存储芯片外部的独立计算芯片完成。
  • 内存储计算(Processing In Memory):计算操作由位于存储芯片内部的独立计算单元完成,存储单元和计算单元相互独立存在。
  • 内存执行计算(Processing With Memory):存储芯片内部的存储单元完成计算操作,存储单元和计算单元完全融合,没有一个独立的计算单元。

其中,近存计算通过将计算资源和存储资源距离拉近,实现对能效和性能的大幅度提升,被认为是现阶段解决内存墙问题的最佳途径。达摩院本次也是沿着这一方向进行突破。

03 近存计算架构&3D混合键合

为了拉近计算资源和存储资源的距离,达摩院计算技术实验室创新性采用混合键合(Hybrid Bonding)的3D堆叠技术进行芯片封装——将计算芯片和存储芯片face-to-face地用特定金属材质和工艺进行互联。

比起业内常见的封装方案HBM,混合键合3D堆叠技术拥有高带宽、低成本等特点,被认为是低功耗近存计算的完美载体之一。

image.png

此外,内存单元采用异质集成嵌入式DRAM (SeDRAM),拥有超大内存容量和超大带宽优势。

同时在计算芯片方面,达摩院研发设计了流式的定制化加速器架构,对推荐系统进行“端到端”加速,包括匹配、粗排序、神经网络计算、细排序等任务。

这种近存架构有效解决了带宽受限的问题,最终内存、算法以及计算模块的完美融合,大幅提升带宽的同时还实现了超低功耗,展示了近存计算在数据中心场景的潜力。

最终的测试芯片显示,这种存算技术和架构的优势明显:

能通过拉近存储单元与计算单元的距离增加带宽,降低数据搬运的代价,缓解由于数据搬运产生的瓶颈,而且与数据中心的推荐系统对于带宽/内存的需求完美匹配。

得益于技术的创新性,该芯片的研究成果已被芯片领域顶级会议ISSCC 2022收录。

未来,达摩院希望能进一步攻克存内计算技术,并逐步优化典型应用、生态系统等方面。

备注:来源| 阿里云公众号

相关文章
采用zookeeper的EPHEMERAL节点机制实现服务集群的陷阱
在集群管理中使用Zookeeper的EPHEMERAL节点机制存在很多的陷阱,毛估估,第一次使用zk来实现集群管理的人应该有80%以上会掉坑,有些坑比较隐蔽,在网络问题或者异常的场景时才会出现,可能很长一段时间才会暴露出来。
14867 1
|
10月前
|
XML 人工智能 文字识别
Mobile-Agent:通过视觉感知实现自动化手机操作,支持多应用跨平台
Mobile-Agent 是一款基于多模态大语言模型的智能代理,能够通过视觉感知自主完成复杂的移动设备操作任务,支持跨应用操作和纯视觉解决方案。
3600 10
Mobile-Agent:通过视觉感知实现自动化手机操作,支持多应用跨平台
|
算法 调度 Python
【调度算法】并行机调度问题遗传算法
【调度算法】并行机调度问题遗传算法
217 2
|
10月前
|
人工智能 算法 芯片
天天都在说的“算力”到底是个啥?一文全讲透!
算力是数字经济发展的重要支撑,尤其在AI和大数据应用中起着关键作用。阿里云致力于构建全球领先的算力基础设施,助力各行业数字化转型。吴泳铭和马云均强调了算力在未来科技竞争中的核心地位。2023年底,我国算力总规模达230EFLOPS,位居全球第二。算力分为通用、智能和超算算力,广泛应用于人工智能训练与推理等场景。中国正加速建设智算中心,推动算力产业链发展,并注重绿色低碳和智能运维,以应对日益增长的计算需求。
15627 19
|
11月前
|
机器学习/深度学习 存储 人工智能
【AI系统】感知量化训练 QAT
本文介绍感知量化训练(QAT)流程,旨在减少神经网络从FP32量化至INT8时的精度损失。通过在模型中插入伪量化节点(FakeQuant)模拟量化误差,并在训练中最小化这些误差,使模型适应量化环境。文章还探讨了伪量化节点的作用、正向与反向传播处理、TensorRT中的QAT模型高效推理,以及QAT与PTQ的对比,提供了实践技巧,如从良好校准的PTQ模型开始、采用余弦退火学习率计划等。
722 3
【AI系统】感知量化训练 QAT
|
JavaScript 前端开发 索引
JavaScript ES6及后续版本:新增的常用特性与亮点解析
JavaScript ES6及后续版本:新增的常用特性与亮点解析
458 4
|
传感器 人工智能 监控
|
机器学习/深度学习 人工智能 自然语言处理
【AI大模型】Transformers大模型库(二):AutoModelForCausalLM
【AI大模型】Transformers大模型库(二):AutoModelForCausalLM
575 1
|
存储 机器学习/深度学习 人工智能
存内计算的应用:存算一体芯片的发展与挑战
存内计算的应用:存算一体芯片的发展与挑战
2132 4
|
存储 机器学习/深度学习 人工智能
《达摩院2023十大科技趋势》——范式重置——存算一体
《达摩院2023十大科技趋势》——范式重置——存算一体
626 1
下一篇
oss云网关配置