端上智能——深度学习模型压缩与加速

简介: 随着深度学习网络规模的增大,计算复杂度随之增高,严重限制了其在手机等智能设备上的应用。如何使用深度学习来对模型进行压缩和加速,并且保持几乎一样的精度?本文将为大家详细介绍两种模型压缩算法,并展示了阿里巴巴模型压缩平台和前向推理工具。
摘要:随着深度学习网络规模的增大,计算复杂度随之增高,严重限制了其在手机等智能设备上的应用。如何使用深度学习来对模型进行压缩和加速,并且保持几乎一样的精度?本文将为大家详细介绍两种模型压缩算法,并展示了阿里巴巴模型压缩平台和前向推理工具。

数十款阿里云产品限时折扣中, 赶紧点击这里 ,领劵开始云上实践吧!

本次直播视频精彩回顾, 戳这里
本次直播PDF下载, 戳这里

演讲嘉宾简介:
李昊(花名:辽玥),阿里巴巴机器智能技术实验室高级算法专家,毕业于中科院,拥有工学博士学位,致力于深度学习基础技术研究以及在各个行业的应用。

以下内容根据演讲嘉宾视频分享以及PPT整理而成。

本文将围绕一下几个方面进行介绍:
1. 深度学习模型压缩与加速
  • Extremely Low Bit Neural Networks
  • Extremely Sparse Network
2. 训练平台
3. 高效前向推理工具

一. 深度学习模型压缩与加速
随着深度学习网络规模的增大,计算复杂度随之增高,严重限制了其在手机等智能设备上的应用。例如下图一展示的VGGNet和图二的残差网络,如此大规模的复杂网络模型在端设备上使用并不现实。
ad316f7f8b81db9b48fbf97736db41ce3f3c441e
因此需要采用深度学习模型来进行压缩和加速,下面介绍两种压缩算法。

1. Extremely Low Bit Neural Networks
Low Bit模型是指将连续的权重压缩成离散的低精度权重。如下图所示,原始深度学习的网络参数为float型,需要32bit存储空间,将其转化成只有三值(0,+1,-1)的状态,存储只需要2bit,极大地压缩存储空间,同时也可以避免乘法运算,只是符号位的变化和加减操作,从而提升计算速度。
4f13e9bbf1c8a4379844add646ab2cb60ab25a7c
这里为大家提供一篇对Low Bit模型详细介绍的参考文章 Extremely Low Bit Neural Networks: Squeeze the Last Bit Out with ADMM
接下来以二值网络为例讲解上述的压缩过程。首先假设原始神经网络的优化目标函数为f(w),限制条件为深度学习网络的参数包含在C内,如果C为{-1,1},则该网络便为二值网络,如下所示:
0eaa2f0573c67bbb2e50f5beda2d4e6dd58c6aeb
这里引入了一种解决分布式优化和约束优化的常用方法ADMM(Alternating Direction Method of Multipliers),来求解以上离散非凸约束优化问题,其形式如下:
a98bacaf1165e7926d07d2a8d98da0bc06cdee4e
ADMM用于解决当目标函数为f(x)+g(z),其中限制条件是Ax+Bz=c的优化。首先写出增广拉格朗日函数,然后将上述问题转化成求解如下所示的xyz:
b65a95ff586aa3322380618e3a315512aa1fefcf
即先求解xz的极小值,然后得到y的更新。上述即为ADMM标准解法,接下来,如何将Low Bit Neural Networks问题转化成ADMM问题呢?
首先需要引入指示函数,形式如下所示:
6ab7705e1901243cff3141fd56bb5e9ff7927931
此时二值神经网络的目标函数等价于优化目标函数和指示函数之和:
146e4486a715f3fc6ac6f0ddcbc0879ec95e097a
这意味着,当指示函数属于C时,优化目标即为初始目标,没有变化;当指示函数不属于C时,指示函数为正无穷,此时会首先优化指示函数。
然后需要引入一致性约束,这里引入辅助变量G,并约束W=G,则目标函数等价于:
4806a0e68e312a7f02cc01732f0ee0012c009b4b
加入辅助变量后,就可以将二值神经网络的优化问题转化为ADMM标准问题。接下来,写出上式增广拉格朗日公式,使用ADMM算法求解完成优化目标,如下所示:
fa7a29d38c50a72a5eb47d3ec642d6189eb273fc
除上述二值网络外,还有以下几种常用的参数空间:
fc44b1ca7eb49a4bc1cab7603c625698e5d2fc9a
参数空间中加入2、4、8等值后,仍然不需要乘法运算,只需进行移位操作。因此,通过这种方法将神经网络中的乘法操作全部替换为移位和加操作。
将上述Low Bit模型应用至ImageNet进行分类,最终的优化结果如下表所示:
a79f2ca1438b2a6baae172429ddd5e4c11c069a8
表一展示了该算法在AlexNet和VGG-16的应用结果,可以发现该算法在二值和三值网络中的效果明显优于原始范围的应用,并且三值网络中的分类结果与全精度的分类结果相比,几乎是无损的。表二是该算法在ResNet-18和ResNet-50中的应用,结果也与表一中类似。
在检测方面,该算法仍具有较高的可用性。如下表所示:
89303da39537684882a3ac6c01067ffdf13cbdb2
本次实验的数据集为Pascal VOC 2007。根据上表中数据可知,三值空间内的检测结果精度与全精度参数空间相比,误差几乎可以忽略不计。

2. Extremely Sparse Networks
稀疏神经网络适用于网络中大部分参数为零的情况,存储参数可以通过简单的压缩算法,例如游程编码,极大的减小参数存储空间,并且由于0可不参与计算,从而节约大量的计算空间,提升计算速度。稀疏网络中,优化目标仍然和上述相同,限制条件改为如下所示:
e036eb932318dd4d33a38c78da4ae2418fe4d2d5
对f(W)求梯度下降值(Gradient Descent),将其进行迭代,每迭代一次,就进行一次连接剪枝(Connection Pruning),裁剪的标准是,W的参数越小,重要性越低,将比较小的参数置零,从而保证稀疏度。
21ac8bc20fe31c9f2c1fcf8ff1c6a74e4abbc274
但上述解法存在一个明显的问题是,如下图所示:
e9bc5f7c8b4483b0d1c158ef1f69ba4c10166c9c
w1与w2相比,w1与0更近,但若将w1置零,对函数的损失更大,因此在决定w的重要性时,必须同时考虑w本身大小和斜率。只有在w值和斜率都比较小时,才可以将其置零。基于上述标准,完成了对Alexnet和GoogleNet的稀少度实验,如下图所示:
ed7a57094621dbe8aa36a77365d508d3e88d1169
由上图结果可知,无论是纯卷积网络,还是包含全连接层网络,都可以达到90%以上的稀疏度。

3. 实验结果对比
上文中介绍了稀疏和量化两种方法,实验一将这两种方法同时作用于Alexnet,结果如下所示:
870fe692b6aaec82e384ccfbbb64464f88877301
由上图可以得知,在3Bits,稀疏度为90%以上时,精度损失几乎可以忽略不计,此时压缩率可以达到82倍以上。
实验二中,将两种方法作用于InageNet和Pascal VOC,其中P是稀疏,Q是量化,由图中结果可知,实验过程精度损失极小,并且InageNet中inference的速度有明显提升,Pascal VOC可以达到稀疏度88.7%,量化为3bits,40倍的压缩率下,相对于全精度网络mAP只有1点的下降幅度。
4945f82fe6e559f8f2623214c4ed8e611533e8b9

二. 训练平台
基于上述两种方法,建立起Gauss训练平台。目前Gauss训练平台支持多种常见训练任务(例如人脸、ocr、分类、监测等)和模型(例如CNN、LSTM等),并且支持多机训练,能够以尽可能少的参数设置,减少用户使用成本。
a590e61526351fbbe4146888e234f1de71b674f0
同时Gauss训练平台支持两种模型训练工具:Data-dependent和Data-independent。Data-dependent模型训练工具需要用户提供训练数据,训练时间较长,适合压缩和加速要求较高的场景。Data-independent模型训练工具无需用户提供任何训练数据,一键式处理,处理时间在秒级。

三. 高效前向推理工具
建立起训练平台之后,模型的真正运用还需要高效的前向推理工具。基于低精度矩阵计算工具AliNN&BNN,快速实现低比特矩阵乘法计算。实现后的推理工具在ARM平台上相比竞品提速2-5倍,Intel平台上提速3倍。
287237cb05ebca16c7747451b5c8f57d4733f182

本文由云栖志愿小组郭雪整理,编辑百见

相关文章
|
4天前
|
机器学习/深度学习 数据采集 传感器
使用Python实现深度学习模型:智能土壤质量监测与管理
使用Python实现深度学习模型:智能土壤质量监测与管理
112 69
|
1天前
|
机器学习/深度学习 数据采集 算法框架/工具
使用Python实现深度学习模型:智能野生动物保护与监测
使用Python实现深度学习模型:智能野生动物保护与监测
11 5
|
3天前
|
机器学习/深度学习 数据采集 算法框架/工具
使用Python实现智能生态系统监测与保护的深度学习模型
使用Python实现智能生态系统监测与保护的深度学习模型
19 4
|
3天前
|
机器学习/深度学习 数据采集 人工智能
从零构建:深度学习模型的新手指南###
【10月更文挑战第21天】 本文将深入浅出地解析深度学习的核心概念,为初学者提供一条清晰的学习路径,涵盖从理论基础到实践应用的全过程。通过比喻和实例,让复杂概念变得易于理解,旨在帮助读者搭建起深度学习的知识框架,为进一步探索人工智能领域奠定坚实基础。 ###
16 3
|
4天前
|
机器学习/深度学习 人工智能 算法
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
车辆车型识别,使用Python作为主要编程语言,通过收集多种车辆车型图像数据集,然后基于TensorFlow搭建卷积网络算法模型,并对数据集进行训练,最后得到一个识别精度较高的模型文件。再基于Django搭建web网页端操作界面,实现用户上传一张车辆图片识别其类型。
12 0
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
|
8天前
|
机器学习/深度学习 算法 计算机视觉
深度学习在图像识别中的应用与挑战
【10月更文挑战第18天】 本文深入探讨了深度学习在图像识别领域的应用,分析了其技术优势和面临的主要挑战。通过具体案例和数据支持,展示了深度学习如何革新图像识别技术,并指出了未来发展的方向。
106 58
|
3天前
|
机器学习/深度学习 算法 计算机视觉
深度学习在图像识别中的应用与挑战
【10月更文挑战第22天】 本文深入探讨了深度学习在图像识别领域的应用,分析了其技术原理、优势以及面临的挑战。通过实例展示了深度学习如何推动图像识别技术的发展,并对未来趋势进行了展望。
14 5
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习在图像识别中的应用与挑战
【10月更文挑战第20天】 随着人工智能技术的不断发展,深度学习已经在许多领域展现出强大的应用潜力。本文将探讨深度学习在图像识别领域的应用,以及面临的挑战和可能的解决方案。通过分析现有的研究成果和技术趋势,我们可以更好地理解深度学习在图像识别中的潜力和局限性,为未来的研究和应用提供参考。
26 7
|
1天前
|
机器学习/深度学习 PyTorch TensorFlow
深度学习在图像识别中的革命性应用
本文探讨了深度学习技术在图像识别领域中的应用,重点分析了卷积神经网络(CNN)的工作原理及其对图像处理的影响。通过对比传统图像识别方法和深度学习方法,展示了深度学习如何显著提高了图像识别的准确率和效率。文章还简要介绍了一些著名的深度学习框架,如TensorFlow和PyTorch,并讨论了它们在实际应用中的优势。
|
5天前
|
机器学习/深度学习 TensorFlow 算法框架/工具
深度学习在图像识别中的应用
【10月更文挑战第21天】本文将探讨深度学习技术在图像识别领域的应用。我们将介绍深度学习的基本原理,并展示如何使用Python和TensorFlow库实现一个简单的图像识别模型。通过这个示例,我们将了解深度学习如何帮助计算机“看”世界,并展望其在未来的应用前景。
17 5

热门文章

最新文章