YOLOv5改进 | 主干篇 | 12月份最新成果TransNeXt特征提取网络（全网首发）-阿里云开发者社区

一、本文介绍

本文给大家带来的改进机制是TransNeXt特征提取网络,其发表于2023年的12月份是一个最新最前沿的网络模型，将其应用在我们的特征提取网络来提取特征，同时本文给大家解决其自带的一个报错，通过结合聚合的像素聚焦注意力和卷积GLU，模拟生物视觉系统，特别是对于中心凹的视觉感知。这种方法使得每个像素都能实现全局感知，并强化了模型的信息混合和自然视觉感知能力。TransNeXt在各种视觉任务中，包括图像分类、目标检测和语义分割，都显示出优异的性能(该模型的训练时间很长这是需要大家注意的)。

欢迎大家订阅我的专栏一起学习YOLO！

专栏目录：YOLOv5改进有效涨点目录 | 包含卷积、主干、检测头、注意力机制、Neck上百种创新机制

专栏回顾：YOLOv5改进专栏——持续复现各种顶会内容——内含100+创新

二、TransNeXt的框架原理

TransNeXt: Robust Foveal Visual Perception for Vision Transformers介绍了一种新的视觉模型，旨在改进现有视觉变换器的性能。这个模型，被称为 TransNeXt，通过结合聚合的像素聚焦注意力和卷积GLU，模拟生物视觉系统，特别是对于中心凹的视觉感知。这种方法使得每个像素都能实现全局感知，并强化了模型的信息混合和自然视觉感知能力。TransNeXt在各种视觉任务中，包括图像分类、目标检测和语义分割，都显示出优异的性能。

TransNeXt的主要创新点包括：

1. 聚合注意力机制：模仿生物中心凹视觉和连续眼动，使每个令牌在特征图上都能实现全球感知。

2. 卷积GLU（Gated Linear Unit）：弥补了GLU和SE（Squeeze-and-Excitation）机制之间的差距，增强局部建模能力和模型鲁棒性。

这些创新点共同使TransNeXt在图像分类、目标检测和语义分割等多种视觉任务中表现卓越。

这幅图展示了不同视觉信息聚合机制的比较，包括提出的方法和生物视觉系统。通过平均超过5000张224²分辨率的ImageNet-1K验证集图像，展示了不同方法与流行背景网络之间的有效感受野（ERF）的可视化对比。图中展示了四种不同的注意力机制：局部注意力、滑动窗口注意力与卷积、池化注意力，以及本文提出的像素聚焦注意力，以及它们与生物视觉系统的对比。每种机制下，红星表示当前查询的位置，黑色区域表示当前查询无法感知的区域。右侧的图表比较了TransNeXt（本文提出的方法）和其他几种流行的模型在处理视觉信息时的差异。

2.1 聚合注意力机制

聚合注意力机制（Aggregated Attention, AA）是TransNeXt模型中的一个核心创新，它融合了多种注意力机制并为多尺度输入增强了外推能力，具体包括以下几点：

1. 像素聚焦注意力：

该机制受到生物视觉系统功能的启发，旨在为每个查询（query）提供细粒度的感知，同时保持对全局信息的粗粒度认识。
通过使用双路径设计，结合了以查询为中心的滑动窗口注意力和池化注意力，实现了像素级的平移等变性，模拟眼球运动的特性。
这种设计导致细粒度和粗粒度特征之间的竞争，使得像素聚焦注意力转变为一个多尺度的注意力机制。

2. 集成多样的注意力机制：

研究表明，将可学习的查询前缀整合到注意力机制中，并直接对其进行优化，对于图像分类、目标检测和语义分割等明确定义的任务是有效且高效的。
添加可学习的查询嵌入到所有传统的查询-键值-值（QKV）注意力中的查询令牌可以实现类似的信息聚合效果，且额外开销微不足道。

3. 位置注意力：

使用一组可学习的键与输入中的查询互动，获得注意力权重，即查询-可学习值（QLV）注意力。
与传统的QKV注意力相比，该方法打破了键和值之间一对一的对应关系，可以学习当前查询的更隐式的相对位置信息。

4. 多尺度输入的外推能力：

为了克服多尺度输入的问题，提出了长度缩放的余弦注意力，该方法使用余弦相似性，通过增加一个额外的可学习系数来改善训练大型视觉模型的稳定性。
这种设计有助于处理随着输入序列长度增加而减少的注意力输出的置信度问题，并通过长度缩放来维持熵的不变性，以便更好地推广到未知长度。

5. 聚合注意力（Aggregated Attention）：

通过应用上述多样的注意力聚合方法和技术，提出了增强版的像素聚焦注意力，即聚合像素聚焦注意力。
该机制不仅聚合了多种注意力机制，还在计算过程中引入了长度缩放的余弦注意力和可学习的查询嵌入，以及特定的位置编码方法，进一步提升了对多尺度输入的处理能力。

总结：聚合注意力机制通过模拟生物视觉系统，提供了一种更自然的视觉感知方式，可以有效地处理来自不同层次和尺度的信息，并通过结合不同的注意力路径和可学习组件，增强了模型对于多尺度输入的外推能力。 缺点：但是它总结了这么多注意力机制，它限制了通道数减少了参数量，但是其运算非常复杂导致速度很慢

图3是像素聚焦注意力（左图）与聚合注意力（右图）之间对比的插图。两者都具有10x10的特征尺寸，一个3x3的窗口尺寸和2x2的池化尺寸。

左图（像素聚焦注意力）：

展示了一个包含滑动窗口注意力来收集局部信息的结构。这涉及到对最近令牌的查询和键值对比较以及位置偏差的应用。
使用池化操作来收集更广泛区域的信息，通过AxialPool来实现，这样的设计旨在捕捉到全局信息。
在计算完注意力权重之后，这些信息会被合并并通过AxialPool、LayerNorm等操作处理，最终生成输出特征图。

右图（聚合注意力）：

在像素聚焦注意力的基础上增加了一些关键的组件来形成聚合注意力。引入了位置注意力，它作为动态相对位置偏差使用，和可学习的令牌相结合，来增强模型对位置的感知能力。
加入了查询嵌入（Query Embedding），这是一种改进，它使得每个查询都与一个额外的可学习向量相结合，以进一步优化注意力权重的计算。
同样地，通过各种层操作处理后生成输出特征图。

2.2 卷积GLU

卷积GLU是TransNeXt模型中的一个关键创新点，旨在弥补GLU和SE(大家看的熟悉么我们之前讲过)机制之间的差距。以下是关于卷积GLU的详细介绍：

1. 基于最近邻图像特征的通道注意力：卷积GLU采用了一种基于最近邻图像特征的通道注意力机制。这种设计避免了SE机制中全局平均池化的过于粗粒度的缺点，并满足了一些没有位置编码设计的ViT（视觉变换器）模型的需求，这些模型需要通过深度卷积提供的位置信息。

2.强化局部建模能力和模型鲁棒性：与传统的卷积前馈网络相比，卷积GLU通过较少的浮点运算（FLOPs）实现了通道混合器的注意力化，从而有效地增强了模型的鲁棒性。

3. 创建新的视觉主干网络TransNeXt：将聚合注意力和卷积GLU结合起来，创造了一个新的视觉主干网络，名为TransNeXt。通过广泛的实验，TransNeXt在多个模型尺寸上都实现了最先进的性能。

总结：卷积GLU的引入，使得每个令牌都能够基于其最近的细粒度特征拥有独特的门控信号，这不仅提高了对局部特征的建模能力，还提高了模型在处理不同尺度和复杂性的视觉数据时的稳健性。

图4展示了当前流行的通道混合器设计与卷积GLU（Convolutional Gated Linear Unit）的比较。四个框架分别表示：

1. 原始前馈网络（Original Feed-Forward）：

输入通过一个线性层，接着是激活函数，然后又是一个线性层。
最后，输入和线性层的输出相加，形成最终的输出。

2. 卷积前馈网络（Convolutional Feed-Forward）：

输入通过一个线性层，接着是一个深度卷积层（DW Conv 3x3），然后是一个激活函数，再是一个线性层。
最后，输入和线性层的输出相加，形成最终的输出。

3. 门控线性单元（Gated Linear Unit, GLU）：

输入通过两个平行的线性层，一个直接输出，另一个先经过激活函数，然后输出。
这两个输出进行逐元素乘法操作，然后通过另一个线性层。
最后，输入和这个线性层的输出相加，形成最终的输出。

4. 带有SE模块的前馈网络（FFN with SE module）：

输入通过一个线性层，接着是激活函数，然后是另一个线性层。
同时，输入经过全局平均池化，然后是一个线性层，ReLU激活函数，另一个线性层，以及Sigmoid函数，形成SE模块的输出。
SE模块的输出与前馈网络的中间输出进行逐元素乘法操作。
最后，输入和乘法操作后的输出相加，形成最终的输出。

5. 卷积门控线性单元（Convolutional Gated Linear Unit）：

输入通过一个线性层，接着是一个深度卷积层（DW Conv 3x3），然后是激活函数。
同时，输入也经过另外一个线性层的处理。
这两个部分的输出进行逐元素乘法操作。
最后，输入和乘法操作后的输出相加，形成最终的输出。

2.3 TransNeXt的架构示意图

图5展示了TransNeXt架构的一个示意图，揭示了其内部的组件和数据流。这个架构通过多个阶段的处理来处理输入图像，其中每个阶段都包含卷积GLU和聚合注意力机制的层。以下是每个阶段的详细介绍：

1. 图像输入：

输入图像的维度是

其中H和W是图像的高度和宽度，3代表RGB三个颜色通道。

2. 阶段1：

首先，图像通过一个补丁嵌入层（Patch Embedding），这个层将图像分割成更小的块，并将每块映射成一个向量，向量的大小由

决定，这里的C是嵌入向量的维度。

接着，数据流通过多个卷积GLU和聚合注意力机制的层，每个层后都跟随一个层归一化。
这个阶段重复

次，每次都可能对特征图进行下采样，减少其空间维度并增加通道数例如

3. 阶段2和3：

这些阶段与阶段1类似，但是每个阶段都会进一步减少特征图的空间维度并增加通道数（例如阶段2是

阶段3是

在这些阶段中，模型继续使用卷积GLU和聚合注意力来处理和提炼特征，这些特征对应于更抽象的图像表示。
阶段2和3分别重复

次。

4. 阶段4：

在最后一个阶段，模型增加了多头自注意力（Multi-Head Self-Attention）层，这是标准Transformer架构的关键部分，它可以捕捉不同头部间的不同表示。
同样，这个阶段还使用卷积GLU和层归一化，重复

次。

总结：通过这些阶段的处理，TransNeXt模型能够逐步提取和处理图像特征，从局部像素级特征到更高层次的抽象表示。每个阶段的输出都准备好进入下一个阶段，直到最终生成能够用于图像分类、目标检测或语义分割任务的高级特征。此架构展示了如何通过结合卷积和注意力机制来有效地处理视觉数据，同时逐步增加通道数和降低空间分辨率，以提高计算效率和模型性能。