本文来自AI新媒体量子位(QbitAI)
在移动设备上部署深度神经网络的需求正在快速增加。
和桌面平台类似,GPU也能在移动平台加速推理速度、降低能耗。但问题是,大多数现有深度学习框架并不能很好的支持移动GPU。
为什么会这样?因为移动GPU和桌面GPU在架构上存在差异。
所以想要利用移动GPU,还得进行专门的优化。这种额外的工作,最终导致的结果就是大多数深度学习框架都对移动GPU的支持不足。
TVM通过引入一个统一的IR堆栈来解决不同硬件平台的部署问题。使用TVM/NNVM可以为ARM Mali GPU生成高效内核,并且进行端到端的编译。
基于Mali-T860 MP4的测试结果表明,与Arm Compute Library相比,上面这个方法在VGG-16上快1.4倍,在MobileNet上快2.2倍。
在郑怜悯发表的这篇文章中,他还从GPU架构、卷积为例的优化等方面进行了更为详细的阐述。我们在这里就不详细复述。
这篇文章的原文地址:http://tvmlang.org/2018/01/16/opt-mali-gpu.html
关于TVM和NNVM,量子位之前也有报道:
关于郑怜悯同学的研究,还有另一个好玩的事情: