YOLOv11改进策略【Backbone/主干网络】| ICLR-2023 替换骨干网络为:RevCol 一种新型神经网络设计范式

简介: YOLOv11改进策略【Backbone/主干网络】| ICLR-2023 替换骨干网络为:RevCol 一种新型神经网络设计范式

一、本文介绍

本文记录的是基于RevCol的YOLOv11目标检测改进方法研究RevCol是一种新型神经网络设计范式,它由多个子网(列)及多级可逆连接构成,正向传播时特征逐渐解缠结且保持信息。可逆变换借鉴可逆神经网络思想,设计多级可逆单元用于解决模型对特征图形状的限制以及与信息瓶颈原则的冲突。本文将其应用到v11中,并配置了原论文中的revcol_tinyrevcol_smallrevcol_baserevcol_largerevcol_xlarge五种不同大小的模型,以适应不同的需求。


专栏目录:YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:YOLOv11改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!

二、RevCol模型设计

2.1 出发点

  • 信息瓶颈原则的局限:传统监督学习网络遵循信息瓶颈原则(IB),如图所示,靠近输入的层包含更多低级信息靠近输出的层富含语义信息,即与目标无关的信息在逐层传播中逐渐被压缩。但这种方式可能导致下游任务性能不佳,尤其当学习到的特征过度压缩或语义信息与目标任务无关,且源任务和目标任务存在领域差距时。

在这里插入图片描述

  • 解缠结特征学习的需求:提出构建网络学习解缠结表示,不同于IB学习,解缠结特征学习旨在将任务相关概念或语义分别嵌入到几个解耦维度,同时保持整个特征向量大致与输入有相同信息量,类似于生物细胞机制。

在计算机视觉任务中,学习解缠结特征是合理的,例如在ImageNet预训练时,高级语义表示被调整,同时低级信息(如边缘位置)也应在其他特征维度中保留,以满足下游任务(如对象检测)的需求。

2.2 原理

2.2.1 可逆变换的核心作用

  • 基于可逆神经网络:可逆变换在特征解缠结中起关键作用,灵感源于可逆神经网络。以RevNet为例,如图(a)所示,它将输入分区,通过可逆映射进行计算,但存在对特征维度约束过强及网络不完全可逆的问题。

在这里插入图片描述

  • 提出广义可逆公式:将RevNet的公式推广为更通用的形式,如图(b)所示,通过增加递归阶数m,放松了对特征图尺寸的约束,使其能更好地与现有网络架构合作,且网络仍保持可逆性
  • 多级可逆单元:将公式重构成多列形式,如图(c)所示,每列由一组m个特征图及其母网络组成,称为多级可逆单元,作为RevCol的基本组件。

    2.2.2 中间监督机制

  • 解决信息丢失问题:尽管多级可逆单元能在列迭代中保持信息,但下采样块仍可能在列内丢弃信息。为缓解此问题,提出中间监督方法
  • 监督方式:在前面列的最后一级特征(Level 4)添加两个辅助头,一个是解码器用于重建输入图像,另一个是线性分类器。通过最小化二进制交叉熵(BCE)重建损失和以交叉熵(CE)损失训练线性分类器,对不同列设置不同权重的复合损失,以最大化特征与预测之间的互信息下限。

2.3 结构

2.3.1 宏观设计

  • 多子网与可逆连接:如图所示,RevCol网络由N个结构相同(权重不一定相同)的子网(列)组成,每个子网接收输入副本并生成预测。列之间采用可逆变换传播多级特征(从低级到高级语义表示),最后一列预测输入的最终解缠结表示。

在这里插入图片描述

  • 特征提取与传播:输入图像先由补丁嵌入模块分割成非重叠补丁,再输入各子网。从每个列提取四级特征图用于列间信息传播。对于分类任务,使用最后一列的Level 4特征图;对于下游任务,使用最后一列的所有四级特征图。列间可逆连接采用简化的多级可逆单元实现,即取当前列一个低级特征和前一列一个高级特征作为输入,保持可逆性同时减少GPU资源消耗。

    2.3.2 微观设计

  • 基于ConvNeXt的修改:默认采用ConvNeXt块实现各列,并进行修改以适配宏观架构。
    • 融合模块:在原始ConvNeXt的各级中,修改补丁合并块,将LayerNorm放在补丁合并卷积之后,通道数在补丁合并卷积中翻倍,并引入上采样块。上采样块由线性通道映射层、LayerNorm和特征图插值层组成,线性通道映射层通道数减半,两个块的输出相加后传入后续的残差块。
    • 卷积核大小:将原始ConvNeXt中的7×7卷积默认修改为3×3,以加快训练速度,虽增大卷积核可提高精度,但RevCol的多列设计已扩大有效感受野,限制了大卷积核带来的精度提升。
    • 可逆操作γ:采用可学习的可逆通道缩放作为可逆操作γ,每次特征求和时,为抑制特征幅度使训练稳定,同时在训练时截断γ的绝对值,避免反向计算时数值误差过大

2.4 优势

  • 特征解缠结优势:在RevCol中,各列最低级保持低级特征,最后一列最高级具有高度语义,信息在列间无损传播时逐渐解缠结,一些特征图语义性增强,一些保持低级。这使模型对依赖高低级特征的下游任务更灵活,可逆连接对解缠结机制起关键作用,对比无可逆连接的HRNet等模型,在实验中有性能优势。
  • 内存节省优势:传统网络训练需大量内存存储前向传播的激活以用于梯度计算,而RevCol由于列间连接可逆,在反向传播时可从最后一列到第一列重建激活,训练时只需在内存中维护一列的激活。实验表明,随着列数增加,RevCol大致保持O(1)的额外内存消耗,而非可逆架构的内存消耗随列数线性增加。
  • 新的缩放因子优势RevCol架构中,列数成为除深度(块数)和宽度(每个块的通道数)之外的新维度。在一定范围内,增加列数与同时增加宽度和深度有相似效果,有利于模型扩展到大模型和大数据集上。

论文:https://arxiv.org/pdf/2212.11696.pdf
源码:https://github.com/megvii-research/RevCol

三、实现代码及YOLOv11修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址:

https://blog.csdn.net/qq_42591591/article/details/143429022

相关文章
|
3月前
|
监控 安全 网络协议
Cisco Identity Services Engine (ISE) 3.5 发布 - 基于身份的网络访问控制和策略实施系统
Cisco Identity Services Engine (ISE) 3.5 发布 - 基于身份的网络访问控制和策略实施系统
464 1
Cisco Identity Services Engine (ISE) 3.5 发布 - 基于身份的网络访问控制和策略实施系统
|
5月前
|
安全 KVM 虚拟化
Cisco Identity Services Engine (ISE) 3.4 - 基于身份的网络访问控制和策略实施系统
Cisco Identity Services Engine (ISE) 3.4 - 基于身份的网络访问控制和策略实施系统
312 2
Cisco Identity Services Engine (ISE) 3.4 - 基于身份的网络访问控制和策略实施系统
|
5月前
|
机器学习/深度学习 数据采集 运维
匹配网络处理不平衡数据集的6种优化策略:有效提升分类准确率
匹配网络是一种基于度量的元学习方法,通过计算查询样本与支持集样本的相似性实现分类。其核心依赖距离度量函数(如余弦相似度),并引入注意力机制对特征维度加权,提升对关键特征的关注能力,尤其在处理复杂或噪声数据时表现出更强的泛化性。
307 6
匹配网络处理不平衡数据集的6种优化策略:有效提升分类准确率
|
4月前
|
监控 安全 Devops
DevOps 流水线的网络安全盲区与防御策略
在软件研发中,DevOps流水线加速了开发与交付,但也带来严重安全风险。自动化节点和第三方集成成为攻击入口,凭证泄露、供应链渗透、配置错误和依赖混乱等问题频发。企业需构建全流程安全体系,嵌入自动化安全策略,强化访问控制与监控,提升全员安全意识,实现效率与安全的协同发展。
483 1
|
11月前
|
人工智能 安全 网络安全
网络安全领导者有效缓解团队倦怠的四步策略
网络安全领导者有效缓解团队倦怠的四步策略
|
6月前
|
存储 监控 算法
基于 Python 跳表算法的局域网网络监控软件动态数据索引优化策略研究
局域网网络监控软件需高效处理终端行为数据,跳表作为一种基于概率平衡的动态数据结构,具备高效的插入、删除与查询性能(平均时间复杂度为O(log n)),适用于高频数据写入和随机查询场景。本文深入解析跳表原理,探讨其在局域网监控中的适配性,并提供基于Python的完整实现方案,优化终端会话管理,提升系统响应性能。
199 4
|
11月前
|
机器学习/深度学习 计算机视觉
RT-DETR改进策略【Neck】| ECCV-2024 RCM 矩形自校准模块 优化颈部网络
RT-DETR改进策略【Neck】| ECCV-2024 RCM 矩形自校准模块 优化颈部网络
542 10
RT-DETR改进策略【Neck】| ECCV-2024 RCM 矩形自校准模块 优化颈部网络
|
4月前
|
机器学习/深度学习 算法 调度
14种智能算法优化BP神经网络(14种方法)实现数据预测分类研究(Matlab代码实现)
14种智能算法优化BP神经网络(14种方法)实现数据预测分类研究(Matlab代码实现)
446 0
|
4月前
|
机器学习/深度学习 传感器 算法
【无人车路径跟踪】基于神经网络的数据驱动迭代学习控制(ILC)算法,用于具有未知模型和重复任务的非线性单输入单输出(SISO)离散时间系统的无人车的路径跟踪(Matlab代码实现)
【无人车路径跟踪】基于神经网络的数据驱动迭代学习控制(ILC)算法,用于具有未知模型和重复任务的非线性单输入单输出(SISO)离散时间系统的无人车的路径跟踪(Matlab代码实现)
329 2
|
3月前
|
机器学习/深度学习 数据采集 存储
概率神经网络的分类预测--基于PNN的变压器故障诊断(Matlab代码实现)
概率神经网络的分类预测--基于PNN的变压器故障诊断(Matlab代码实现)
405 0

热门文章

最新文章