RT-DETR改进策略【Neck】| 2023 显式视觉中心EVC 优化特征提取金字塔，对密集预测任务非常有效

2025-02-09 343

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： RT-DETR改进策略【Neck】| 2023 显式视觉中心EVC 优化特征提取金字塔，对密集预测任务非常有效

一、本文介绍

本文记录的是利用显式视觉中心EVC优化RT-DETR的目标检测网络模型。利用EVC改进颈部网络，通过轻量级MLP和可学习视觉中心机制LVC能够同时捕获全局长程依赖和保留局部角落区域信息，==在结构简单、体积轻便的同时，提高密集预测任务检测性能。==

专栏目录：RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址：RT-DETR改进专栏——以发表论文的角度，快速准确的找到有效涨点的创新点！

二、EVC介绍

Centralized Feature Pyramid for Object Detection

2.1 出发点

现有的方法大多集中在层间特征交互，忽略了层内特征规则，且一些利用注意力机制或视觉变换器学习层内特征表示的方法忽略了对密集预测任务重要的角落区域。为了解决这些问题，设计了ECV模块。
2.2 原理
一方面通过轻量级MLP架构捕获顶层特征$x_{4}$的全局长程依赖（全局信息），另一方面通过可学习的视觉中心机制聚合输入图像的局部关键区域（局部信息），然后将这两部分结果沿通道维度拼接作为ECV的输出用于下游识别。

在这里插入图片描述

2.3 结构

2.3.1 轻量级MLP部分

主要由两个残差模块组成，一个是基于深度可分离卷积的模块，另一个是基于通道MLP的模块。输入的特征先经过一个$7×7$卷积（输出通道大小为256）、批量归一化层和激活函数层组成的Stem块处理得到$X{in}$。对于基于深度可分离卷积的模块，$X{in}$先进入深度可分离卷积层，经过组归一化处理，然后进行通道缩放和DropPath操作，再加上$X{in}$的残差连接得到$\tilde{X}{in}$。对于基于通道MLP的模块，$\tilde{X}{in}$先进行组归一化，然后实施通道MLP，接着进行通道缩放、DropPath操作以及$\tilde{X}{in}$的残差连接得到$MLP(X_{in})$。
2.3.2 可学习视觉中心机制部分（LVC）
具有一个固有字典，包括固有码本$B = {b{1},b{2},\cdots,b{K}}$和一组缩放因子$S={s{1},s{2},\cdots,s{K}}$。特征从Stem块$x{in}$先经过一组卷积层（$1×1$卷积、$3×3$卷积和$1×1$卷积）编码，然后经过一个由$3×3$卷积、BN层和ReLU激活函数组成的CBR块处理，进入码本。通过缩放因子$s$计算得到关于第$k$个码字的信息$e{k}$，然后用$\phi$融合所有$e{k}$得到关于$K$个码字的全信息(e)。$e$经过一个全连接层和$1×1$卷积层预测突出关键类的特征，再与输入特征$X{in}$进行通道乘法和通道加法操作得到$LVC(X_{in})$。

在这里插入图片描述

2.4 优势

信息全面：能够同时捕获全局长程依赖和保留局部角落区域信息，这对于密集预测任务非常重要。
结构优势：轻量级MLP结构简单、体积更轻且计算效率更高，相比基于多头注意力机制的变换器编码器有优势。

论文：https://arxiv.org/pdf/2210.02093
源码：https://github.com/QY1994-0919/CFPNet

三、实现代码及RT-DETR修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址：

https://blog.csdn.net/qq_42591591/article/details/143812040

RT-DETR改进策略【Neck】| 2023 显式视觉中心EVC 优化特征提取金字塔，对密集预测任务非常有效

一、本文介绍

二、EVC介绍

2.1 出发点

2.2 原理

2.3 结构

2.3.1 轻量级MLP部分

2.3.2 可学习视觉中心机制部分（LVC）

2.4 优势

三、实现代码及RT-DETR修改步骤

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

RT-DETR改进策略【Neck】| 2023 显式视觉中心EVC 优化特征提取金字塔，对密集预测任务非常有效

一、本文介绍

二、EVC介绍

2.1 出发点

2.2 原理

2.3 结构

2.3.1 轻量级MLP部分

2.3.2 可学习视觉中心机制部分（LVC）

2.4 优势

三、实现代码及RT-DETR修改步骤

热门文章

最新文章

相关电子书