神经网络推理加速入门——计算和存储的分离-阿里云开发者社区

神经网络推理加速入门——计算和存储的分离

2023-04-16 336

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 硬件优化对于计算的加速效果是显而易见的，理解了底层硬件的原理，可以帮助我们更好的完成计算优化。

大家好啊，我是董董灿。

今天开始，增加第一个专栏，作为神经网络推理加速的专栏，主要写一写在神经网络推理过程中的一些加速方法。

先从计算机底层原理说起。先说几个基础概念。

计算机存储和计算的分离

第一是计算机。这里说的计算机是广义上的计算机，也就是说具有计算能力的硬件设备（计算的机器）都算。小到某个芯片系统，大到智能手环、手机、电脑甚至服务器，都归到计算机的范畴。

第二是计算。这里要说的计算，指所有的计算，包括科学计算——比如用计算器算一些数，包括音频编解码——比如手机麦克风对我们说话音频的调制解调处理，包括视频流——比如看电影时一帧帧图像的解码等等。所有芯片需要处理的计算任务，都包含在计算这一概念中。

第三是存储。这里说的存储，泛指计算机中所有能存储数据硬件。包括我们熟知的硬盘、U盘、手机内存、手机运存、GPU显存（显卡容量），也包括处理器（CPU或其他芯片）内部的片上存储或L1/L2缓存等。

在说清楚这3个概念之后，那么，计算机的计算和存储，就好比——

我们在厨房做饭，厨房里的冰箱就是存储器，冰箱里的菜就是希望处理的数据，而洗菜、切菜、炒菜都属于计算任务，整个厨房就是计算机。

冯诺依曼架构

不论是笔记本，还是手机，还是智能手表智能手环，内部的程序运行机制都是一样的，都绕不开一个著名的计算体系，大家可能听过，叫做冯诺依曼体系。

冯诺依曼是二战时期著名的计算机科学家，他开创性的提出了计算机的冯诺依曼架构，其中最为人津津乐道的，是数据存储和计算的分离。

在任何一台计算机中，存储数据的硬件叫做存储器，负责逻辑计算的叫做运算器。除此之外还有控制器，输入输出（IO）等。

存储和计算分离就是，存储器只负责存储数据，计算单元只负责计算数据，然后将计算出来的结果再存回存储器。

有没有发现，我们在做计算（洗菜）之前，需要将数据（菜）从冰箱里拿出来，放在洗菜池里来洗（计算）。这个将菜从冰箱里拿出来的过程，叫做数据的搬运。

而在芯片的整个运算过程中，数据的搬运的时间开销是避免不了的，甚至有时会占据绝对的大头。

举个例子——

我们知道卷积运算是一种计算密集型的算法。也就是大量的时间开销都消耗在了卷积的乘法和加法上（乘累加，Multiply-accumulator，MAC单元）。但是，如果芯片的片上存储很小，而神经网络中的一张图片又很大，一张图片的数据是无法在一次计算中全部放在片上存储的。

那么这个时候，自然而然会想到将图片拆分成好几份进行计算。

然而，卷积要求的是将所有输入通道进行累加和。如果在通道上进行了数据拆分，那么每次计算的都是不完全的结果（部分和）。这个时候，这些中间结果都要找个地方放。

放哪里？

最常见的就是放在片外存储上（对于GPU来说，可能就把这些临时数据放在DDR上，也就是我们常说的显存上，因为显存一般都比较大，大概16GB，肯定能的下）。

如此一来，存放数据的冰箱可能就不是厨房里的冰箱了，而是客厅里的大冰柜，将数据从厨房搬到客厅的大冰柜临时存起来，这个过程的数据搬运开销是很大的。

也因此，GPU甚至很多ASIC芯片，在进行芯片设计时，都会想办法加大DDR的带宽，通过多路DDR访存甚至使用HBM来提升带宽，以降低数据搬运带来的额外开销。

总结一下

在现有经典的计算机计算架构中，比如冯诺依曼架构中，计算和存储是分离的。这也就导致了计算机在完成运算任务时，需要不断地从存储器中搬运数据到计算单元中，然后完成计算。

这种架构也导致了计算指令和IO指令（数据搬运）的独立，从而衍生出指令流水线。（这个后面会慢慢介绍）。除此之外，既然计算和存储是分离的，为了防止多余的搬运开销，那我们把计算和存储放在一起不就行了么？

我们直接在冰箱里洗菜做饭不就完了？

可以，现在比较前沿的近存芯片、或者存算一体芯片就是基于这个想法来设计实现的，后面也会逐步涉及一些存算一体技术进行AI推理加速的，敬请期待。

欢迎关注@董董灿是个攻城狮和同名微信公众号
本文作者原创，转载请联系作者，请勿随意转载

神经网络推理加速入门——计算和存储的分离

计算机存储和计算的分离

冯诺依曼架构

总结一下

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

神经网络推理加速入门——计算和存储的分离

计算机存储和计算的分离

冯诺依曼架构

总结一下

热门文章

最新文章

相关课程

相关电子书

相关实验场景