RT-DETR改进策略【Neck】| 2023 显式视觉中心EVC 优化特征提取金字塔,对密集预测任务非常有效

简介: RT-DETR改进策略【Neck】| 2023 显式视觉中心EVC 优化特征提取金字塔,对密集预测任务非常有效

一、本文介绍

本文记录的是利用显式视觉中心EVC优化RT-DETR的目标检测网络模型。利用EVC改进颈部网络,通过轻量级MLP可学习视觉中心机制LVC能够同时捕获全局长程依赖保留局部角落区域信息,==在结构简单、体积轻便的同时,提高密集预测任务检测性能。==


专栏目录:RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:RT-DETR改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!

二、EVC介绍

Centralized Feature Pyramid for Object Detection

2.1 出发点

  • 现有的方法大多集中在层间特征交互,忽略了层内特征规则,且一些利用注意力机制或视觉变换器学习层内特征表示的方法忽略了对密集预测任务重要的角落区域。为了解决这些问题,设计了ECV模块。

    2.2 原理

  • 一方面通过轻量级MLP架构捕获顶层特征$x_{4}$的全局长程依赖(全局信息),另一方面通过可学习的视觉中心机制聚合输入图像的局部关键区域(局部信息),然后将这两部分结果沿通道维度拼接作为ECV的输出用于下游识别。

在这里插入图片描述

2.3 结构

2.3.1 轻量级MLP部分

  • 主要由两个残差模块组成,一个是基于深度可分离卷积的模块,另一个是基于通道MLP的模块。输入的特征先经过一个$7×7$卷积(输出通道大小为256)、批量归一化层和激活函数层组成的Stem块处理得到$X{in}$。对于基于深度可分离卷积的模块,$X{in}$先进入深度可分离卷积层,经过组归一化处理,然后进行通道缩放和DropPath操作,再加上$X{in}$的残差连接得到$\tilde{X}{in}$。对于基于通道MLP的模块,$\tilde{X}{in}$先进行组归一化,然后实施通道MLP,接着进行通道缩放、DropPath操作以及$\tilde{X}{in}$的残差连接得到$MLP(X_{in})$。

    2.3.2 可学习视觉中心机制部分(LVC)

  • 具有一个固有字典,包括固有码本$B = {b{1},b{2},\cdots,b{K}}$和一组缩放因子$S={s{1},s{2},\cdots,s{K}}$。特征从Stem块$x{in}$先经过一组卷积层($1×1$卷积、$3×3$卷积和$1×1$卷积)编码,然后经过一个由$3×3$卷积、BN层和ReLU激活函数组成的CBR块处理,进入码本。通过缩放因子$s$计算得到关于第$k$个码字的信息$e{k}$,然后用$\phi$融合所有$e{k}$得到关于$K$个码字的全信息(e)。$e$经过一个全连接层和$1×1$卷积层预测突出关键类的特征,再与输入特征$X{in}$进行通道乘法和通道加法操作得到$LVC(X_{in})$。

在这里插入图片描述

2.4 优势

  • 信息全面:能够同时捕获全局长程依赖和保留局部角落区域信息,这对于密集预测任务非常重要。
  • 结构优势:轻量级MLP结构简单、体积更轻且计算效率更高,相比基于多头注意力机制的变换器编码器有优势。

论文:https://arxiv.org/pdf/2210.02093
源码:https://github.com/QY1994-0919/CFPNet

三、实现代码及RT-DETR修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址:

https://blog.csdn.net/qq_42591591/article/details/143812040

目录
相关文章
|
1月前
|
编解码 异构计算
RT-DETR改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
RT-DETR改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
85 9
RT-DETR改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
|
1月前
|
机器学习/深度学习 计算机视觉
RT-DETR改进策略【Neck】| ASF-YOLO 注意力尺度序列融合模块改进颈部网络,提高小目标检测精度
RT-DETR改进策略【Neck】| ASF-YOLO 注意力尺度序列融合模块改进颈部网络,提高小目标检测精度
81 3
RT-DETR改进策略【Neck】| ASF-YOLO 注意力尺度序列融合模块改进颈部网络,提高小目标检测精度
|
1月前
|
机器学习/深度学习 计算机视觉
RT-DETR改进策略【Conv和Transformer】| GRSL-2024最新模块 卷积和自注意力融合模块 CAFM 减少图像中的噪声干扰
RT-DETR改进策略【Conv和Transformer】| GRSL-2024最新模块 卷积和自注意力融合模块 CAFM 减少图像中的噪声干扰
65 19
RT-DETR改进策略【Conv和Transformer】| GRSL-2024最新模块 卷积和自注意力融合模块 CAFM 减少图像中的噪声干扰
|
1月前
|
机器学习/深度学习 C语言 计算机视觉
RT-DETR改进策略【Neck】| HS-FPN:高级筛选特征融合金字塔,加强细微特征的检测
RT-DETR改进策略【Neck】| HS-FPN:高级筛选特征融合金字塔,加强细微特征的检测
49 11
RT-DETR改进策略【Neck】| HS-FPN:高级筛选特征融合金字塔,加强细微特征的检测
|
1月前
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【注意力机制篇】| 2024 蒙特卡罗注意力(MCAttn)模块,提高小目标的关注度
YOLOv11改进策略【注意力机制篇】| 2024 蒙特卡罗注意力(MCAttn)模块,提高小目标的关注度
50 12
YOLOv11改进策略【注意力机制篇】| 2024 蒙特卡罗注意力(MCAttn)模块,提高小目标的关注度
|
1月前
|
计算机视觉 Perl
RT-DETR改进策略【Backbone/主干网络】| 替换骨干网络为CVPR-2024 PKINet 获取多尺度纹理特征,适应尺度变化大的目标
RT-DETR改进策略【Backbone/主干网络】| 替换骨干网络为CVPR-2024 PKINet 获取多尺度纹理特征,适应尺度变化大的目标
53 10
RT-DETR改进策略【Backbone/主干网络】| 替换骨干网络为CVPR-2024 PKINet 获取多尺度纹理特征,适应尺度变化大的目标
|
1月前
|
机器学习/深度学习 计算机视觉
RT-DETR改进策略【卷积层】| 引入注意力卷积模块RFAConv,关注感受野空间特征 助力RT-DETR精度提升
RT-DETR改进策略【卷积层】| 引入注意力卷积模块RFAConv,关注感受野空间特征 助力RT-DETR精度提升
62 10
RT-DETR改进策略【卷积层】| 引入注意力卷积模块RFAConv,关注感受野空间特征 助力RT-DETR精度提升
|
1月前
|
计算机视觉
YOLOv11改进策略【Neck】| 替换RT-DETR中的CCFF跨尺度特征融合颈部结构,优化计算瓶颈与冗余问题
YOLOv11改进策略【Neck】| 替换RT-DETR中的CCFF跨尺度特征融合颈部结构,优化计算瓶颈与冗余问题
115 8
YOLOv11改进策略【Neck】| 替换RT-DETR中的CCFF跨尺度特征融合颈部结构,优化计算瓶颈与冗余问题
|
1月前
|
机器学习/深度学习 编解码 异构计算
YOLOv11改进策略【模型轻量化】| 替换骨干网络为 ICCV 2023的EfficientViT 用于高分辨率密集预测的多尺度线性关注
YOLOv11改进策略【模型轻量化】| 替换骨干网络为 ICCV 2023的EfficientViT 用于高分辨率密集预测的多尺度线性关注
90 11
YOLOv11改进策略【模型轻量化】| 替换骨干网络为 ICCV 2023的EfficientViT 用于高分辨率密集预测的多尺度线性关注
|
1月前
|
机器学习/深度学习 编解码 测试技术
RT-DETR改进策略【注意力机制篇】| WACV-2024 D-LKA 可变形的大核注意 针对大尺度、不规则的目标图像
RT-DETR改进策略【注意力机制篇】| WACV-2024 D-LKA 可变形的大核注意 针对大尺度、不规则的目标图像
33 2
RT-DETR改进策略【注意力机制篇】| WACV-2024 D-LKA 可变形的大核注意 针对大尺度、不规则的目标图像