YOLOv11改进策略【Backbone/主干网络】| ICLR-2023 替换骨干网络为：RevCol 一种新型神经网络设计范式

2025-02-04 381

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： YOLOv11改进策略【Backbone/主干网络】| ICLR-2023 替换骨干网络为：RevCol 一种新型神经网络设计范式

一、本文介绍

本文记录的是基于RevCol的YOLOv11目标检测改进方法研究。RevCol是一种新型神经网络设计范式，它由多个子网（列）及多级可逆连接构成，正向传播时特征逐渐解缠结且保持信息。可逆变换借鉴可逆神经网络思想，设计多级可逆单元用于解决模型对特征图形状的限制以及与信息瓶颈原则的冲突。本文将其应用到v11中，并配置了原论文中的revcol_tiny、revcol_small、revcol_base、 revcol_large和revcol_xlarge五种不同大小的模型，以适应不同的需求。

专栏目录：YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址：YOLOv11改进专栏——以发表论文的角度，快速准确的找到有效涨点的创新点！

二、RevCol模型设计

2.1 出发点

信息瓶颈原则的局限：传统监督学习网络遵循信息瓶颈原则（IB），如图所示，靠近输入的层包含更多低级信息，靠近输出的层富含语义信息，即与目标无关的信息在逐层传播中逐渐被压缩。但这种方式可能导致下游任务性能不佳，尤其当学习到的特征过度压缩或语义信息与目标任务无关，且源任务和目标任务存在领域差距时。

在这里插入图片描述

解缠结特征学习的需求：提出构建网络学习解缠结表示，不同于IB学习，解缠结特征学习旨在将任务相关概念或语义分别嵌入到几个解耦维度，同时保持整个特征向量大致与输入有相同信息量，类似于生物细胞机制。

在计算机视觉任务中，学习解缠结特征是合理的，例如在ImageNet预训练时，高级语义表示被调整，同时低级信息（如边缘位置）也应在其他特征维度中保留，以满足下游任务（如对象检测）的需求。

2.2 原理

2.2.1 可逆变换的核心作用

基于可逆神经网络：可逆变换在特征解缠结中起关键作用，灵感源于可逆神经网络。以RevNet为例，如图(a)所示，它将输入分区，通过可逆映射进行计算，但存在对特征维度约束过强及网络不完全可逆的问题。

在这里插入图片描述

提出广义可逆公式：将RevNet的公式推广为更通用的形式，如图(b)所示，通过增加递归阶数m，放松了对特征图尺寸的约束，使其能更好地与现有网络架构合作，且网络仍保持可逆性。
多级可逆单元：将公式重构成多列形式，如图(c)所示，每列由一组m个特征图及其母网络组成，称为多级可逆单元，作为RevCol的基本组件。
2.2.2 中间监督机制
解决信息丢失问题：尽管多级可逆单元能在列迭代中保持信息，但下采样块仍可能在列内丢弃信息。为缓解此问题，提出中间监督方法。
监督方式：在前面列的最后一级特征（Level 4）添加两个辅助头，一个是解码器用于重建输入图像，另一个是线性分类器。通过最小化二进制交叉熵（BCE）重建损失和以交叉熵（CE）损失训练线性分类器，对不同列设置不同权重的复合损失，以最大化特征与预测之间的互信息下限。

2.3 结构

2.3.1 宏观设计

多子网与可逆连接：如图所示，RevCol网络由N个结构相同（权重不一定相同）的子网（列）组成，每个子网接收输入副本并生成预测。列之间采用可逆变换传播多级特征（从低级到高级语义表示），最后一列预测输入的最终解缠结表示。

在这里插入图片描述

特征提取与传播：输入图像先由补丁嵌入模块分割成非重叠补丁，再输入各子网。从每个列提取四级特征图用于列间信息传播。对于分类任务，使用最后一列的Level 4特征图；对于下游任务，使用最后一列的所有四级特征图。列间可逆连接采用简化的多级可逆单元实现，即取当前列一个低级特征和前一列一个高级特征作为输入，保持可逆性同时减少GPU资源消耗。
2.3.2 微观设计
基于ConvNeXt的修改：默认采用ConvNeXt块实现各列，并进行修改以适配宏观架构。
- 融合模块：在原始ConvNeXt的各级中，修改补丁合并块，将LayerNorm放在补丁合并卷积之后，通道数在补丁合并卷积中翻倍，并引入上采样块。上采样块由线性通道映射层、LayerNorm和特征图插值层组成，线性通道映射层通道数减半，两个块的输出相加后传入后续的残差块。
- 卷积核大小：将原始ConvNeXt中的7×7卷积默认修改为3×3，以加快训练速度，虽增大卷积核可提高精度，但RevCol的多列设计已扩大有效感受野，限制了大卷积核带来的精度提升。
- 可逆操作γ：采用可学习的可逆通道缩放作为可逆操作γ，每次特征求和时，为抑制特征幅度使训练稳定，同时在训练时截断γ的绝对值，避免反向计算时数值误差过大。

2.4 优势

特征解缠结优势：在RevCol中，各列最低级保持低级特征，最后一列最高级具有高度语义，信息在列间无损传播时逐渐解缠结，一些特征图语义性增强，一些保持低级。这使模型对依赖高低级特征的下游任务更灵活，可逆连接对解缠结机制起关键作用，对比无可逆连接的HRNet等模型，在实验中有性能优势。
内存节省优势：传统网络训练需大量内存存储前向传播的激活以用于梯度计算，而RevCol由于列间连接可逆，在反向传播时可从最后一列到第一列重建激活，训练时只需在内存中维护一列的激活。实验表明，随着列数增加，RevCol大致保持O(1)的额外内存消耗，而非可逆架构的内存消耗随列数线性增加。
新的缩放因子优势：RevCol架构中，列数成为除深度（块数）和宽度（每个块的通道数）之外的新维度。在一定范围内，增加列数与同时增加宽度和深度有相似效果，有利于模型扩展到大模型和大数据集上。

论文：https://arxiv.org/pdf/2212.11696.pdf
源码：https://github.com/megvii-research/RevCol

三、实现代码及YOLOv11修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址：

https://blog.csdn.net/qq_42591591/article/details/143429022

YOLOv11改进策略【Backbone/主干网络】| ICLR-2023 替换骨干网络为：RevCol 一种新型神经网络设计范式

一、本文介绍

二、RevCol模型设计

2.1 出发点

2.2 原理

2.2.1 可逆变换的核心作用

2.2.2 中间监督机制

2.3 结构

2.3.1 宏观设计

2.3.2 微观设计

2.4 优势

三、实现代码及YOLOv11修改步骤

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

YOLOv11改进策略【Backbone/主干网络】| ICLR-2023 替换骨干网络为：RevCol 一种新型神经网络设计范式

一、本文介绍

二、RevCol模型设计

2.1 出发点

2.2 原理

2.2.1 可逆变换的核心作用

2.2.2 中间监督机制

2.3 结构

2.3.1 宏观设计

2.3.2 微观设计

2.4 优势

三、实现代码及YOLOv11修改步骤

热门文章

最新文章

相关课程

相关电子书