Facebook开源移动端深度学习加速框架，比TensorFlow Lite快一倍-阿里云开发者社区

Facebook开源移动端深度学习加速框架，比TensorFlow Lite快一倍

2018-10-31 6715

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

6f3e6630572df5cc05cec25df3d0cc6daf2d164a

Facebook发布了一个开源框架，叫QNNPACK，是手机端神经网络计算的加速包。

官方表示，它可以成倍提升神经网络的推理效率，几乎比TensorFlow Lite快一倍。

这个框架，能够为很多运算加速，比如DW卷积 (Depthwise Convolution) ，许多先进的架构里面都用得到。

目前，QNNPACK已经是PyTorch 1.0的一部分，在Caffe2里就能直接使用。

其实，Facebook手机应用里面，已经部署了这个QNNPACK。也就是说，数以亿计的手机都在用了。

从哪个角度加速？

QNNPACK，这个名字眼熟么？

两年前，Facebook就推出过一个加速包，叫做NNPACK，Caffe2Go用的就是它。

基于Winograd变换和傅里叶变换，有效减少卷积计算里的乘加运算 (Multiply-Add) 。这样一来，3x3卷积可以只比1x1慢一倍，而不会慢8倍。

不过，世界变化很快。现在的计算机视觉 (CV) 神经网络里，用到的很多卷积类型，已经沾不到NNPACK的光：

比如，1x1卷积，分组卷积 (Grouped Convolution) ，Strided Convolution，扩张卷积 (Dilated Convolution) ，DW卷积 (DepthWise Convolution) ，适用于精度/存储带宽受到限制的 (移动端等) 场景。

而CV神经网络，大部分推理时间，都花在卷积和全连接运算上。

3ac625337e9398d23c5e866cf5b16cf6dbc6588c

这样的运算，和矩阵乘法密切相关：

大内核的卷积，可以分解成im2col和一个矩阵乘法。

所以，有高效的矩阵乘法，才能有高效的卷积网络。

于是，QNNPACK出世了。

怎样加速矩阵乘法？

f78e2d65484631589c9e95af1e7624b4fab76adc

矩阵乘法，A x B = C。C里面的每一个元素，都可以看成A中某行和B中某列的点乘。

但直接在点乘基础上计算的话，一点也不快，会受到存储带宽的限制。

e0da76ddb1383e680bdd880f651fa650ce8b2d7b

如果，能同时计算A中多行和B中多列的点乘，即MRxNR，就能给运算速度带来猛烈的提升。

不需要太多，这样细小的改变就够了。

节省内存和缓存

模型训练，可能更需要高精度。但在训练完成后，推理部分对精度的需求可能就没有那么高了。

低精度的计算，有时对推理的准确性不会产生明显的影响。

而这样的运算，不需要太大存储，并节省能源，有助于把AI部署在移动端。

QNNPACK用的线性量化 (Linear Quantization) 方案，与安卓的神经网络API兼容。

它假设量化值q[i]是用8比特的无符号整数 (Unsigned Integers) 来表示的，以及q[i]与真实值r[i]相关，关系如下：

df5fe848154f8a7ffe638febc874efd11178b49b

与其他库不同，QNNPACK把矩阵A、B都放进一级缓存 (L1 Cache) ，目标是把所有对运算过程并不非常必要的内存转换 (Memory Transformations) 都删掉。

QNNPACK可以在一次微内核调用 (Microkernel Call) 里，处理A和B。

不需要在微内核之外，累积32位的中间结果，QNNPACK把32位的中间值融合进微内核，然后写出8位值，节省了存储带宽和缓存。

赢了TensorFlow Lite

开发团队用谷歌的视觉框架MobileNetV2里面的图像分类模型来测试。

拿TensorFlow Lite做对手，和QNNPACK比了一场。

03f267a9d99ce9bd8d058096dff4b8d2d74ebced

结果是，QNNPACK比TensorFlow Lite几乎快一倍，不论是在高端智能机，还是普通智能机身上。

原文发布时间为：2018-10-30

本文作者：关注前沿科技

本文来自云栖社区合作伙伴“量子位”，了解相关信息可以关注“量子位”。

Facebook开源移动端深度学习加速框架，比TensorFlow Lite快一倍

量子位

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Facebook开源移动端深度学习加速框架，比TensorFlow Lite快一倍

量子位

热门文章

最新文章

相关课程

相关电子书

相关实验场景