从ISSCC 2017看人工智能芯片的四大趋势

简介: 一年一度的ISSCC又在美国旧金山万豪酒店隆重举行。除了传统的电路设计外,人工智能芯片更是今年的关注焦点。作为人工智能芯片的专业先锋,矽说(携手机器之心/半导体行业观察)也亲临现场,发回独家报道。

身处人工智能的风口,ISSCC也不能幸免地将本次大会主题定为「Intelligent chips for a smarter world」。

微信图片_20211128093838.jpg

微信图片_20211128093926.jpg

 

同时,大会还在研究论文报告中设立了专门讨论深度学习处理芯片的论文session,在SPR海报session中,也有两篇来自复旦大学(与华盛顿大学合作)和清华大学的研究,分别针对RNN和CNN的处理器芯片设计。除此之外,大会也安排了探讨神经网络相关课题的tutorialsession(面向初学者)和forum session(面向专业人士)。

 

本次ISSCC中关于深度学习的论文集中出现在session 14。论文的具体内容可以通过坚果云下载(该信息转载自ReConfigure)。

 

作为有深度的专业人工智能公众号,矽说将从各个技术报告中进行深度归纳、刨析在这些论文引导下的AI芯片发展趋势。

 

趋势一:更高效的大卷积解构/复用

 

在《脑芯编(四)》中,我们曾提到,在标准SIMD的基础上,CNN由于其特殊的复用机制,可以进一步减少总线上的数据通信。而复用的这一概念,在超大型神经网络中的显得格外重要。对于AlexNet/VGG这些模型中的中后级卷积核,卷积核的参数量可以达3x3x512之巨大,合理地分解这些超大卷积到有效的硬件上成为了一个值得研究的问题。

微信图片_20211128094009.jpg

在14.2 中,韩国KAIST学院分析了集中不同的分解方法,包括输入图像/卷积核分解,及其混合模式,得到了最终的方案。

 微信图片_20211128094101.jpg

而来自比利时的IMEC在报告14.5中对该问题也有涉及。其方案在Eyeriss的基础上,沿用了其在2016年VLSI提出的2D SIMD方案。轮流复用输入与参数,达到高效的数据分解。

 

趋势二:更低的Inference计算/存储位宽


在过去的一年,对AI芯片最大的演进可能就是位宽的迅速衰减。从32位fixed point,16位fixed point,8位fixedpoint,甚至4位fixed point的位宽。在CS的理论计算领域,2位甚至2进制的参数位宽。在ISSCC上,这些“传说”都已经逐渐进入实践领域。

微信图片_20211128094118.jpg

KAIST采用了类似传说中Nervana的flexpoint方案,在定点系统中采用可浮动的定点进制方案。该方案的前提是在某一固定层的前提下,所有该层的卷积核均服从一个由训练确定的进制方案,但是在层和层之间是可以变化的。

微信图片_20211128094138.jpg


其实,这类方法也不是近年来的创举,在《脑心编(四)》中我们提到的ARM SIMD指令集——NEON就已经采取了这些办法,只是最小位宽没有到达4位罢了。而报告14.5中IMEC的方案在变化进制的基础上,进一步采用的通过改变电压和频率的方法得到更优的能效值。

 

另外,指的一提的是参数的非线性映射以减少参数读取时的位宽也成为了一个新的关注点。其理论基础由Stanford 大学Bill Dally课题组提出,目前已经出现了类似的芯片实现,详见14.2。

微信图片_20211128094157.jpg

趋势三:更多样的存储器定制设计


当乘加计算(MAC,Multiplier and accumulation)不再成为神经网络加速器的设计瓶颈时,一个新的研究方向就冉冉而生——如何减少存储器的访问延时。在《脑心编(六)》里,我们提到过,离计算越近的存储器越值钱。于是新型的存储结构也应运而生。

首先是密歇根大学提出了面向深度学习优化的协处理器多层高速缓存机制,通过数据的重要性对数据位置进行定义。

微信图片_20211128094217.jpg


在KAIST的另外一篇文章14.6里,作者提出了一种可转置(transpose)的SRAM架构,即数据的写入与读出可以是通向的,也可以是垂直的。该方法能省去卷积网络中额外的数据整理,并且就大卷积的解构提供了芯思路。

微信图片_20211128094249.jpg


趋势四:更稀疏的大规模向量乘实现


神经网络虽然大,但是,实际上的有非常多以零为输入的情况(Relu输出或者系数为0)此时稀疏计算可以高校地减少无用能效。来自哈佛大学的团队就该问题优化的五级流水线结构,在最后一级输出了触发信号,见14.3。


在Activation层后对下一次计算的必要性进行预先判断,如果发现这是一个稀疏节点,则触发SKIP信号,避免乘法运算的功耗,以达到减少无用功耗的问题。

微信图片_20211128094324.jpg

这一问题甚至受到了Bill Dally老人家的关注,在其Forum的演讲中提到了它们尚未发表的稀疏加速架构。

微信图片_20211128094346.jpg

只可惜,我们要直到九月份才能读到paper。


最后,我们总结下这四个趋势的关键词——复用、位宽、存储、稀疏。要做 AI 芯片的你,有关注到的么?


特别鸣谢复旦大学脑芯片研究中心提供技术咨询,欢迎有志青年包括。


相关文章
|
7月前
|
传感器 机器学习/深度学习 算法
无人机视角yolo多模态、模型剪枝、国产AI芯片部署
无人机视角yolo多模态、模型剪枝、国产AI芯片部署
无人机视角yolo多模态、模型剪枝、国产AI芯片部署
|
7月前
|
人工智能 芯片 异构计算
英伟达要小心了!爆火的Groq芯片能翻盘吗?AI推理速度「吊打」英伟达?
随着科技的飞速发展,人工智能公司Groq挑战了英伟达的王者地位,其AI芯片不仅展现出卓越的实力,还拥有巨大的潜力。Groq设计了一种独特的推理代币经济学模式,该模式背后牵动着众多因素,却也引发了深度思考:新的技术突破来自何处?中国该如何应对并抓住变革中的机遇?Groq成本如何评估?这些都是值得研究和思考的问题。
|
21天前
|
人工智能 并行计算 程序员
【AI系统】SIMD & SIMT 与芯片架构
本文深入解析了SIMD(单指令多数据)与SIMT(单指令多线程)的计算本质及其在AI芯片中的应用,特别是NVIDIA CUDA如何实现这两种计算模式。SIMD通过单指令对多个数据进行操作,提高数据并行处理能力;而SIMT则在GPU上实现了多线程并行,每个线程独立执行相同指令,增强了灵活性和性能。文章详细探讨了两者的硬件结构、编程模型及硬件执行模型的区别与联系,为理解现代AI计算架构提供了理论基础。
63 12
|
18天前
|
人工智能 数据安全/隐私保护 数据中心
“芯片围城”下国产AI要放缓?答案或截然相反
12月2日,美国对华实施新一轮出口限制,将140余家中国企业列入贸易限制清单。对此,中国多个行业协会呼吁国内企业谨慎选择美国芯片。尽管受限企业表示影响有限,但此事件引发了关于AI领域芯片供应的担忧。华为云推出的昇腾AI云服务,提供全栈自主的算力解决方案,包括大规模算力集群、AI框架等,旨在应对AI算力需求,确保算力供给的稳定性和安全性,助力中国AI产业持续发展。
|
23天前
|
机器学习/深度学习 人工智能 并行计算
【AI系统】芯片的编程体系
本文探讨了SIMD与SIMT的区别及联系,分析了SIMT与CUDA编程的关系,深入讨论了GPU在SIMT编程的本质及其与DSA架构的关系。文章还概述了AI芯片的并行分类与并行处理硬件架构,强调了理解AI芯片编程体系的重要性,旨在帮助开发者更高效地利用AI芯片算力,促进生态繁荣。
46 0
|
23天前
|
机器学习/深度学习 存储 人工智能
【AI系统】谷歌 TPU v2 训练芯片
2017年,谷歌推出TPU v2,专为神经网络训练设计,标志着从推理转向训练的重大转变。TPU v2引入多项创新,包括Vector Memory、Vector Unit、MXU及HBM内存,以应对训练中数据并行、计算复杂度高等挑战。其高效互联技术构建了TPU v2超级计算机,显著提升大规模模型训练的效率和性能。
41 0
|
2月前
|
人工智能 安全 芯片
【通义】AI视界|谷歌 Tensor G5 芯片揭秘:1+5+2 八核 CPU,支持光线追踪
本文由【通义】自动生成,涵盖黄仁勋宣布台积电协助修复Blackwell AI芯片设计缺陷、苹果分阶段推出Apple Intelligence、OpenAI保守派老将辞职、英伟达深化与印度合作推出印地语AI模型,以及谷歌Tensor G5芯片支持光线追踪等最新科技资讯。点击链接或扫描二维码,获取更多精彩内容。
|
2月前
|
人工智能 机器人 云计算
【通义】AI视界|OpenAI据称已计划联手博通和台积电共同打造自研芯片
本文由【通义】自动生成,涵盖苹果iOS 18.2将集成ChatGPT、OpenAI联手博通和台积电自研芯片、微软指责谷歌发起影子运动、英伟达高管预测AI将呈现人类形态、OpenAI董事会主席的初创公司估值达45亿美元等热点资讯。更多精彩内容,请访问通通知道。
|
2月前
|
数据采集 人工智能 搜索推荐
【通义】AI视界|迎接Apple Intelligence,Mac家族进入M4芯片时代
本文概览了近期科技领域的五大热点:苹果宣布Apple Intelligence将于2025年4月支持中文;新款Mac将搭载M4芯片;ChatGPT周活跃用户达2.5亿,主要收入来自订阅;Meta开发AI搜索引擎减少对外部依赖;周鸿祎支持AI发展但反对构建超级智能。更多详情,访问通义平台。
|
3月前
|
机器学习/深度学习 人工智能 自动驾驶
【通义】AI视界|马斯克:特斯拉计划2025年末批量装备AI训练芯片Dojo2
本文精选了24小时内的重要AI新闻,包括特斯拉计划2025年批量装备Dojo 2芯片、英伟达股价大涨、谷歌联合创始人积极参与AI项目、中科院女工程师开源AI模型保护女性,以及快手旗下可灵AI与蓝色光标达成战略合作。更多内容敬请访问通义官网体验。