RT-DETR改进策略【模型轻量化】| 替换骨干网络为MoblieNetV1,用于移动视觉应用的高效卷积神经网络

简介: RT-DETR改进策略【模型轻量化】| 替换骨干网络为MoblieNetV1,用于移动视觉应用的高效卷积神经网络

一、本文介绍

本文记录的是基于MobileNet V1的RT-DETR轻量化改进方法研究MobileNet V1基于深度可分离卷积构建,其设计旨在满足移动和嵌入式视觉应用对小型低延迟模型的需求,具有独特的模型收缩超参数来灵活调整模型大小与性能。本文将MobileNet V1应用到RT-DETR中,有望借助其高效的结构和特性,提升RT-DETR在计算资源有限环境下的性能表现,同时保持一定的精度水平。

模型 参数量 计算量
rtdetr-l 32.8M 108.0GFLOPs
Improved 22.0M 71.1GFLOPs

专栏目录:RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:RT-DETR改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!

二、MoblieNet V1设计原理

2.1 出发点

在许多实际应用如机器人、自动驾驶和增强现实中,识别任务需要在计算资源有限的平台上及时完成。但以往为提高准确性而构建的更深更复杂的网络,在尺寸和速度方面并不高效。因此,需要构建小型、低延迟的模型来满足移动和嵌入式视觉应用的设计要求。

2.2 结构原理

  • 深度可分离卷积(Depthwise Separable Convolution):这是MobileNet模型的核心构建模块。它将标准卷积分解为深度卷积(depthwise convolution)1×1卷积(pointwise convolution)
    • 对于MobileNet,深度卷积对每个输入通道应用单个滤波器,然后点卷积通过1×1卷积组合深度卷积的输出。标准卷积在一步中同时过滤和组合输入以生成新的输出,而深度可分离卷积将此过程分为两步,从而大幅降低了计算量和模型尺寸

      例如,一个标准卷积层输入为$D{F}×D{F}×M$特征图$F$,输出为$D{F}×D{F}×N$特征图$G$,其计算成本为$D{K}·D{K}·M·N·D{F}·D{F}$,而深度可分离卷积的计算成本为$D{K}·D{K}·M·D{F}·D{F}+M·N·D{F}·D{F}$,相比之下计算量大幅减少,如在实际应用中 MobileNet 使用 3×3 深度可分离卷积比标准卷积节省 8 到 9 倍的计算量且精度损失较小。

  • 网络结构:除了第一层是全卷积外,MobileNet 结构基于深度可分离卷积构建。所有层(除最终全连接层)后面都跟着批量归一化(batchnorm)ReLU 非线性激活函数。下采样通过深度卷积中的步长卷积以及第一层来处理,最后在全连接层之前使用平均池化将空间分辨率降为 1。
    • 将深度卷积和点卷积视为单独的层,MobileNet 共有 28 层。在计算资源分配上,95%的计算时间花费在 1x1 卷积上,且 75%的参数也在 1x1 卷积中,几乎所有额外参数都在全连接层。

在这里插入图片描述

  • 模型收缩超参数:包括宽度乘数(width multiplier)和分辨率乘数(resolution multiplier)。宽度乘数$\alpha$用于均匀地使网络每层变窄,对于给定层和宽度乘数$\alpha$,输入通道数$M$变为$\alpha M$,输出通道数$N$变为$\alpha N$,其计算成本为$D{K}·D{K}·\alpha M·D{F}·D{F}+\alpha M·\alpha N·D{F}·D{F}$,能以大致$\alpha^{2}$的比例二次减少计算成本和参数数量。分辨率乘数$\rho$应用于输入图像和每一层的内部表示,通过隐式设置输入分辨率来降低计算成本,计算成本为$D{K}\cdot D{K}\cdot \alpha M\cdot \rho D{F}\cdot \rho D{F}+\alpha M\cdot \alpha N\cdot \rho D{F}\cdot \rho D{F}$,能使计算成本降低$\rho^{2}$。

2.3 优势

  • 计算效率高:通过深度可分离卷积以及模型收缩超参数的应用,在保证一定精度的前提下,大幅减少了计算量和模型参数。
    • 灵活性强:宽度乘数和分辨率乘数可以根据不同的应用需求和资源限制,灵活地调整模型的大小、计算成本和精度,以实现合理的权衡。

论文:https://arxiv.org/pdf/1704.04861
源码:https://github.com/Zehaos/MobileNet

三、实现代码及RT-DETR修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址:

https://blog.csdn.net/qq_42591591/article/details/145255024

相关文章
|
5月前
|
网络协议 算法 Java
基于Reactor模型的高性能网络库之Tcpserver组件-上层调度器
TcpServer 是一个用于管理 TCP 连接的类,包含成员变量如事件循环(EventLoop)、连接池(ConnectionMap)和回调函数等。其主要功能包括监听新连接、设置线程池、启动服务器及处理连接事件。通过 Acceptor 接收新连接,并使用轮询算法将连接分配给子事件循环(subloop)进行读写操作。调用链从 start() 开始,经由线程池启动和 Acceptor 监听,最终由 TcpConnection 管理具体连接的事件处理。
198 2
|
5月前
基于Reactor模型的高性能网络库之Tcpconnection组件
TcpConnection 由 subLoop 管理 connfd,负责处理具体连接。它封装了连接套接字,通过 Channel 监听可读、可写、关闭、错误等
164 1
|
5月前
|
JSON 监控 网络协议
干货分享“对接的 API 总是不稳定,网络分层模型” 看电商 API 故障的本质
本文从 OSI 七层网络模型出发,深入剖析电商 API 不稳定的根本原因,涵盖物理层到应用层的典型故障与解决方案,结合阿里、京东等大厂架构,详解如何构建高稳定性的电商 API 通信体系。
|
2月前
|
机器学习/深度学习 数据采集 人工智能
深度学习实战指南:从神经网络基础到模型优化的完整攻略
🌟 蒋星熠Jaxonic,AI探索者。深耕深度学习,从神经网络到Transformer,用代码践行智能革命。分享实战经验,助你构建CV、NLP模型,共赴二进制星辰大海。
|
3月前
|
机器学习/深度学习 传感器 算法
【无人车路径跟踪】基于神经网络的数据驱动迭代学习控制(ILC)算法,用于具有未知模型和重复任务的非线性单输入单输出(SISO)离散时间系统的无人车的路径跟踪(Matlab代码实现)
【无人车路径跟踪】基于神经网络的数据驱动迭代学习控制(ILC)算法,用于具有未知模型和重复任务的非线性单输入单输出(SISO)离散时间系统的无人车的路径跟踪(Matlab代码实现)
219 2
|
3月前
|
机器学习/深度学习 并行计算 算法
【CPOBP-NSWOA】基于豪冠猪优化BP神经网络模型的多目标鲸鱼寻优算法研究(Matlab代码实现)
【CPOBP-NSWOA】基于豪冠猪优化BP神经网络模型的多目标鲸鱼寻优算法研究(Matlab代码实现)
|
4月前
|
算法 安全 网络安全
【多智能体系统】遭受DoS攻击的网络物理多智能体系统的弹性模型预测控制MPC研究(Simulink仿真实现)
【多智能体系统】遭受DoS攻击的网络物理多智能体系统的弹性模型预测控制MPC研究(Simulink仿真实现)
205 0
|
12月前
|
SQL 安全 网络安全
网络安全与信息安全:知识分享####
【10月更文挑战第21天】 随着数字化时代的快速发展,网络安全和信息安全已成为个人和企业不可忽视的关键问题。本文将探讨网络安全漏洞、加密技术以及安全意识的重要性,并提供一些实用的建议,帮助读者提高自身的网络安全防护能力。 ####
267 17
|
SQL 安全 网络安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
随着互联网的普及,网络安全问题日益突出。本文将从网络安全漏洞、加密技术和安全意识三个方面进行探讨,旨在提高读者对网络安全的认识和防范能力。通过分析常见的网络安全漏洞,介绍加密技术的基本原理和应用,以及强调安全意识的重要性,帮助读者更好地保护自己的网络信息安全。
227 10
|
存储 SQL 安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
随着互联网的普及,网络安全问题日益突出。本文将介绍网络安全的重要性,分析常见的网络安全漏洞及其危害,探讨加密技术在保障网络安全中的作用,并强调提高安全意识的必要性。通过本文的学习,读者将了解网络安全的基本概念和应对策略,提升个人和组织的网络安全防护能力。

热门文章

最新文章