一、本文介绍
本文记录的是基于MobileNet V1的RT-DETR轻量化改进方法研究。MobileNet V1
基于深度可分离卷积构建,其设计旨在满足移动和嵌入式视觉应用对小型、低延迟模型的需求,具有独特的模型收缩超参数来灵活调整模型大小与性能。本文将MobileNet V1应
用到RT-DETR
中,有望借助其高效的结构和特性,提升RT-DETR
在计算资源有限环境下的性能表现,同时保持一定的精度水平。
模型 | 参数量 | 计算量 |
---|---|---|
rtdetr-l | 32.8M | 108.0GFLOPs |
Improved | 22.0M | 71.1GFLOPs |
专栏目录:RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:RT-DETR改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!
二、MoblieNet V1设计原理
2.1 出发点
在许多实际应用如机器人、自动驾驶和增强现实中,识别任务需要在计算资源有限的平台上及时完成。但以往为提高准确性而构建的更深更复杂的网络,在尺寸和速度方面并不高效。因此,需要构建小型、低延迟的模型来满足移动和嵌入式视觉应用的设计要求。
2.2 结构原理
- 深度可分离卷积(Depthwise Separable Convolution):这是
MobileNet
模型的核心构建模块。它将标准卷积
分解为深度卷积(depthwise convolution)
和1×1卷积(pointwise convolution)
。- 对于
MobileNet
,深度卷积对每个输入通道应用单个滤波器,然后点卷积通过1×1卷积组合深度卷积的输出。标准卷积在一步中同时过滤和组合输入以生成新的输出,而深度可分离卷积将此过程分为两步,从而大幅降低了计算量和模型尺寸。例如,一个标准卷积层输入为$D{F}×D{F}×M$特征图$F$,输出为$D{F}×D{F}×N$特征图$G$,其计算成本为$D{K}·D{K}·M·N·D{F}·D{F}$,而深度可分离卷积的计算成本为$D{K}·D{K}·M·D{F}·D{F}+M·N·D{F}·D{F}$,相比之下计算量大幅减少,如在实际应用中 MobileNet 使用 3×3 深度可分离卷积比标准卷积节省 8 到 9 倍的计算量且精度损失较小。
- 对于
- 网络结构:除了第一层是全卷积外,MobileNet 结构基于
深度可分离卷积
构建。所有层(除最终全连接层)后面都跟着批量归一化(batchnorm)
和ReLU 非线性激活函数
。下采样通过深度卷积中的步长卷积以及第一层来处理,最后在全连接层之前使用平均池化将空间分辨率降为 1。- 将深度卷积和点卷积视为单独的层,MobileNet 共有 28 层。在计算资源分配上,95%的计算时间花费在 1x1 卷积上,且 75%的参数也在 1x1 卷积中,几乎所有额外参数都在全连接层。
- 模型收缩超参数:包括宽度乘数(width multiplier)和分辨率乘数(resolution multiplier)。宽度乘数$\alpha$用于均匀地使网络每层变窄,对于给定层和宽度乘数$\alpha$,输入通道数$M$变为$\alpha M$,输出通道数$N$变为$\alpha N$,其计算成本为$D{K}·D{K}·\alpha M·D{F}·D{F}+\alpha M·\alpha N·D{F}·D{F}$,能以大致$\alpha^{2}$的比例二次减少计算成本和参数数量。分辨率乘数$\rho$应用于输入图像和每一层的内部表示,通过隐式设置输入分辨率来降低计算成本,计算成本为$D{K}\cdot D{K}\cdot \alpha M\cdot \rho D{F}\cdot \rho D{F}+\alpha M\cdot \alpha N\cdot \rho D{F}\cdot \rho D{F}$,能使计算成本降低$\rho^{2}$。
2.3 优势
- 计算效率高:通过深度可分离卷积以及模型收缩超参数的应用,在保证一定精度的前提下,大幅减少了计算量和模型参数。
- 灵活性强:宽度乘数和分辨率乘数可以根据不同的应用需求和资源限制,灵活地调整模型的大小、计算成本和精度,以实现合理的权衡。
论文:https://arxiv.org/pdf/1704.04861
源码:https://github.com/Zehaos/MobileNet
三、实现代码及RT-DETR修改步骤
模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址: