未来FPGA能击败GPU么?这是英特尔的研究成果

简介:
本文来自AI新媒体量子位(QbitAI)

在最近的FPGA国际研讨会(ISFPGA)上,英特尔加速器架构实验室(AAL)的Eriko Nurvitadhi博士,发表题为《Can FPGAs beat GPUs in Accelerating Next-Generation Deep Neural Networks》的报告,分享了英特尔的最新研究。

这一研究,主要评估在DNN(深度神经网络)算法领域,两代英特尔FPGA(Intel Arria10和Intel Stratix 10),与NVIDIA TITAN X Pascal GPU相比性能如何。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

 深度神经网络概述

英特尔表示在应用领域,FPGA在DNN研究中表现非常出色,可用于需要分析大量数据的AI、大数据或机器学习等领域。使用经修剪或紧凑的数据类型与全32位浮点数据(FP32)时,测试的Intel Stratix 10 FPGA的性能优于GPU。

除了性能外,FPGA还具有强大的功能,因为它们具有适应性,通过重用现有的芯片可以轻松实现更改,从而让团队在六个月内从一个想法进入原型。

而构建一个ASIC需要18个月。

FPGA重要性正在提升

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

 FPGA非常适用于DNN

硬件:与高端GPU相比,FPGA具有卓越的能源效率(性能/瓦特),但还有不被熟知的高峰值浮点性能。FPGA技术正在迅速发展。即将推出的英特尔Stratix 10 FPGA提供超过5,000个硬件浮点单元(DSP),超过28MB的片上RAM(M20K),与高带宽内存等特性。

基于14nm工艺的英特尔Stratix 10在FP32吞吐量方面达到峰值9.2TFLOP/s。相比之下,最新的Titan X Pascal GPU的FP32吞吐量为11TFLOP/s。

新兴的DNN算法:更深的网络提高了精度,但是大大增加了参数和模型大小。这增加了对计算、带宽和存储的需求。因此,新兴趋势是采用紧凑型低精度数据类型,远低于32位。16位和8位数据类型正在成为新常态,也得到DNN软件框架(例如TensorFlow)的支持。

新兴的低精度和稀疏DNN算法比传统的密集FP32 DNN提供了数量级的算法效率改进,但是它们引入了难以处理的不规则并行度和定制数据类型。这时FPGA的优势就体现出来了。这种趋势使未来FPGA成为运行DNN,AI和ML应用的可行平台。

研究所用的硬件和方法

640?wx_fmt=png&wxfrom=5&wx_lazy=1

GPU:使用已知的库(cuBLAS)或框架(Torch with cuDNN)

FPGA:使用Quartus Early Beta版本和PowerPlay

研究一:矩阵乘法(GEMM)测试

640?wx_fmt=png&wxfrom=5&wx_lazy=1

矩阵乘法(GEMM)测试的结果。GEMM是DNN中的关键操作,上述四个不同类型的测试表明,除了在FP32 Dense GEMM测试中,Stratix 10与TITAN X仍有差距。另外三项测试中新一代英特尔FPGA的表现都优于GPU。

研究二:使用三元ResNet DNNs测试

640?wx_fmt=png&wxfrom=5&wx_lazy=1

三进制DNN最近提出约束神经网络权重为+1,0或-1。这允许稀疏的2位权重,并用符号位操作代替乘法。与许多其他低精度和稀疏的DNN不同,三元DNN可以提供与现有技术DNN(即ResNet)相当的精度。

上图右半部分,显示了英特尔Stratix 10 FPGA和TITAN X GPU的ResNet-50的性能和性能/功耗比。即使对于保守的性能估计,英特尔Stratix 10 FPGA已经比实现了TITAN X GPU性能提高了约60%。在性能/功耗比方面,英特尔Stratix 10比TITAN X要好2.3倍到4.3倍。

结论

当下一代DNN到来时,FPGA的表现能否击败GPU?英特尔对比两代FPGA以及最新的TITAN X GPU,结果显示目前DNN算法的趋势可能有利于FPGA。

再说一次,这个研究报告出自英特尔,这个研究团队还指出,除了DNN之外,FPGA在其他不规则应用程序以及延迟敏感程序(如ADAS)等领域也有机会。

点击左下角阅读原文,可以直达这份报告。

欢迎加量子位小助手的微信:qbitbot,如果你研究或者从事AI领域,小助手会把你带入量子位的交流群里。

本文作者:问耕
原文发布时间:2017-03-22
相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
相关文章
|
1月前
|
存储 机器学习/深度学习 并行计算
阿里云服务器X86计算、Arm计算、GPU/FPGA/ASIC、高性能计算架构区别
在我们选购阿里云服务器的时候,云服务器架构有X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器、高性能计算可选,有的用户并不清楚他们之间有何区别,本文主要简单介绍下不同类型的云服务器有何不同,主要特点及适用场景有哪些。
阿里云服务器X86计算、Arm计算、GPU/FPGA/ASIC、高性能计算架构区别
|
8月前
|
机器学习/深度学习 弹性计算 并行计算
阿里云服务器租用收费价格参考,GPU/FPGA/ASIC架构云服务器收费价格表
GPU/FPGA/ASIC架构阿里云服务器有GPU计算型gn7r、GPU计算型gn7i、GPU计算型gn6v、GPU计算型gn6i等实例规格可选,不同实例规格的租用收费价格是不一样的,本文为大家汇总了目前基于GPU/FPGA/ASIC架构下的各个实例规格的阿里云服务器收费标准,以供参考。
阿里云服务器租用收费价格参考,GPU/FPGA/ASIC架构云服务器收费价格表
|
8月前
|
人工智能 弹性计算 算法
阿里云异构计算类云产品相关知识大全(GPU云服务器、FPGA云服务器等)
阿里云异构计算云服务器产品可为用户提供了软件与硬件结合的完整服务体系,助力您在人工智能业务中实现资源的灵活分配、弹性扩展、算力的提升以及成本的控制。异构计算类云产品包括GPU云服务器、神龙AI加速引擎AIACC、AI分布式训练通信优化库AIACC-ACSpeed、AI训练计算优化编译器AIACC-AGSpeed、集群极速部署工具FastGPU、GPU容器共享技术cGPU、弹性加速计算实例EAIS和FPGA云服务器。
阿里云异构计算类云产品相关知识大全(GPU云服务器、FPGA云服务器等)
|
9月前
|
机器学习/深度学习 存储 弹性计算
阿里云服务器X86计算、ARM计算、GPU/FPGA/ASIC等架构区别及选择参考
在我们选购阿里云服务器的时候,云服务器架构有X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器、超级计算集群之分,很多初次接触阿里云服务器的用户并不知道他们之间有何区别,本文来介绍一下阿里云服务器各个架构的特点及适用场景,以供大家了解他们之间的区别,从而对选择哪种架构做一个参考。
1002 1
阿里云服务器X86计算、ARM计算、GPU/FPGA/ASIC等架构区别及选择参考
|
9月前
|
机器学习/深度学习 弹性计算 编解码
阿里云服务器架构X86、ARM、GPU/FPGA、裸金属、超级计算详解
阿里云服务器架构X86计算_ARM_GPU/FPGA/ASIC_裸金属_超级计算集群
242 0
|
9月前
|
机器学习/深度学习 弹性计算 编解码
阿里云服务器ECS架构GPU/FPGA/ASIC详细介绍
阿里云服务器ECS架构GPU/FPGA/ASIC详细介绍,阿里云服务器架构有什么区别?X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器、超级计算集群有什么区别?阿里云服务器网分享云服务器ECS架构详细说明
182 0
|
9月前
|
机器学习/深度学习 弹性计算 编解码
阿里云ECS服务器架构GPU/FPGA/ASIC详细说明
阿里云ECS服务器架构GPU/FPGA/ASIC详细说明,阿里云服务器架构有什么区别?X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器、超级计算集群有什么区别?阿里云服务器网分享云服务器ECS架构详细说明
191 0
|
9月前
|
机器学习/深度学习 弹性计算 编解码
阿里云ECS服务器ARM计算和GPU/FPGA/ASIC有什么区别?
阿里云ECS服务器ARM计算和GPU/FPGA/ASIC有什么区别?阿里云服务器架构有什么区别?X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器、超级计算集群有什么区别?阿里云服务器网分享云服务器ECS架构详细说明
133 1
|
机器学习/深度学习 人工智能 自动驾驶
GPU 「抗压」不行还费电,FPGA将成深度学习「新基建」!
1.GPU 矩阵运算很强,但「抗压」不行还费电 2.FPGA加持的深度学习, 推理速度和吞吐量远超GPU 3.ASIC不够灵活,FPGA 更有可能成为深度学习的「底层建筑」
261 0
GPU 「抗压」不行还费电,FPGA将成深度学习「新基建」!
|
异构计算
英特尔计划明年推高性能GPU,独显能救市吗?
英特尔发布了移动端独立显卡Iris Xe Max,采用Xe-LP图形架构,与此前G7版本搭载Gen12 Xe是一样的架构,在轻薄本市场具有不错的竞争力。
115 0
英特尔计划明年推高性能GPU,独显能救市吗?

热门文章

最新文章