RT-DETR改进策略【Neck】| 2023 显式视觉中心EVC 优化特征提取金字塔,对密集预测任务非常有效

简介: RT-DETR改进策略【Neck】| 2023 显式视觉中心EVC 优化特征提取金字塔,对密集预测任务非常有效

一、本文介绍

本文记录的是利用显式视觉中心EVC优化RT-DETR的目标检测网络模型。利用EVC改进颈部网络,通过轻量级MLP可学习视觉中心机制LVC能够同时捕获全局长程依赖保留局部角落区域信息,==在结构简单、体积轻便的同时,提高密集预测任务检测性能。==


专栏目录:RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:RT-DETR改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!

二、EVC介绍

Centralized Feature Pyramid for Object Detection

2.1 出发点

  • 现有的方法大多集中在层间特征交互,忽略了层内特征规则,且一些利用注意力机制或视觉变换器学习层内特征表示的方法忽略了对密集预测任务重要的角落区域。为了解决这些问题,设计了ECV模块。

    2.2 原理

  • 一方面通过轻量级MLP架构捕获顶层特征$x_{4}$的全局长程依赖(全局信息),另一方面通过可学习的视觉中心机制聚合输入图像的局部关键区域(局部信息),然后将这两部分结果沿通道维度拼接作为ECV的输出用于下游识别。

在这里插入图片描述

2.3 结构

2.3.1 轻量级MLP部分

  • 主要由两个残差模块组成,一个是基于深度可分离卷积的模块,另一个是基于通道MLP的模块。输入的特征先经过一个$7×7$卷积(输出通道大小为256)、批量归一化层和激活函数层组成的Stem块处理得到$X{in}$。对于基于深度可分离卷积的模块,$X{in}$先进入深度可分离卷积层,经过组归一化处理,然后进行通道缩放和DropPath操作,再加上$X{in}$的残差连接得到$\tilde{X}{in}$。对于基于通道MLP的模块,$\tilde{X}{in}$先进行组归一化,然后实施通道MLP,接着进行通道缩放、DropPath操作以及$\tilde{X}{in}$的残差连接得到$MLP(X_{in})$。

    2.3.2 可学习视觉中心机制部分(LVC)

  • 具有一个固有字典,包括固有码本$B = {b{1},b{2},\cdots,b{K}}$和一组缩放因子$S={s{1},s{2},\cdots,s{K}}$。特征从Stem块$x{in}$先经过一组卷积层($1×1$卷积、$3×3$卷积和$1×1$卷积)编码,然后经过一个由$3×3$卷积、BN层和ReLU激活函数组成的CBR块处理,进入码本。通过缩放因子$s$计算得到关于第$k$个码字的信息$e{k}$,然后用$\phi$融合所有$e{k}$得到关于$K$个码字的全信息(e)。$e$经过一个全连接层和$1×1$卷积层预测突出关键类的特征,再与输入特征$X{in}$进行通道乘法和通道加法操作得到$LVC(X_{in})$。

在这里插入图片描述

2.4 优势

  • 信息全面:能够同时捕获全局长程依赖和保留局部角落区域信息,这对于密集预测任务非常重要。
  • 结构优势:轻量级MLP结构简单、体积更轻且计算效率更高,相比基于多头注意力机制的变换器编码器有优势。

论文:https://arxiv.org/pdf/2210.02093
源码:https://github.com/QY1994-0919/CFPNet

三、实现代码及RT-DETR修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址:

https://blog.csdn.net/qq_42591591/article/details/143812040

相关文章
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【Neck】| ASF-YOLO 注意力尺度序列融合模块改进颈部网络,提高小目标检测精度
YOLOv11改进策略【Neck】| ASF-YOLO 注意力尺度序列融合模块改进颈部网络,提高小目标检测精度
1379 9
YOLOv11改进策略【Neck】| ASF-YOLO 注意力尺度序列融合模块改进颈部网络,提高小目标检测精度
|
9月前
|
传感器 人工智能 缓存
《WebGL与Three.js打造会"讲故事"的虚拟博物馆》
本文围绕WebGL与Three.js构建虚拟博物馆展开,探讨如何通过数字技术实现文物的生动呈现与文化的深度传播。文中阐述了文物数字分身的构建,包括利用PBR材质还原质感、LOD系统实现模型适配,以及依据文化考据打造展厅空间;讲解了交互设计的巧思,从自然的漫游体验到多感官叙事,再到兼顾自由探索与深度解读的导览系统;还介绍了性能优化策略,以适配不同设备并保障体验流畅。最终展现虚拟博物馆如何打破时空限制,让文物成为能与观众对话的生命体,重构文化传承方式。
206 0
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【损失函数篇】| WIoU v3:针对低质量样本的边界框回归损失函数
YOLOv11改进策略【损失函数篇】| WIoU v3:针对低质量样本的边界框回归损失函数
2859 6
|
机器学习/深度学习 计算机视觉
RT-DETR改进策略【卷积层】| CVPR-2023 SCConv 空间和通道重建卷积:即插即用,减少冗余计算并提升特征学习
RT-DETR改进策略【卷积层】| CVPR-2023 SCConv 空间和通道重建卷积:即插即用,减少冗余计算并提升特征学习
315 11
RT-DETR改进策略【卷积层】| CVPR-2023 SCConv 空间和通道重建卷积:即插即用,减少冗余计算并提升特征学习
|
弹性计算 缓存 测试技术
2核4g服务器能支持多少人访问?阿里云2核4g服务器在线人数
阿里云2核4g服务器能支持多少人访问?2核4G服务器并发数性能测试,阿小云账号下的2核4G服务器支持20人同时在线访问,然而应用不同、类型不同、程序效率不同实际并发数也不同,2核4G服务器的在线访问人数取决于多个变量因素
|
编译器 C# 开发者
C# 9.0 新特性解析
C# 9.0 是微软在2020年11月随.NET 5.0发布的重大更新,带来了一系列新特性和改进,如记录类型、初始化器增强、顶级语句、模式匹配增强、目标类型的新表达式、属性模式和空值处理操作符等,旨在提升开发效率和代码可读性。本文将详细介绍这些新特性,并提供代码示例和常见问题解答。
403 7
C# 9.0 新特性解析
|
消息中间件 Kafka
消费kafka不需要设置 压缩协议吗 假如生产者压缩协议是lz4
消费kafka不需要设置 压缩协议吗 假如生产者压缩协议是lz4
|
算法 数据处理 异构计算
CatBoost高级教程:分布式训练与大规模数据处理
CatBoost高级教程:分布式训练与大规模数据处理【2月更文挑战第15天】
1242 14
|
机器学习/深度学习 数据采集 算法
【Python机器学习专栏】使用机器学习预测股票价格
【4月更文挑战第30天】本文探讨了使用Python和机器学习预测股票价格的方法,包括数据收集(如开盘价、收盘价等)、预处理(缺失值填充、异常值处理、标准化)、特征选择(技术指标、基本面指标、市场情绪)和工程、模型选择(线性回归、SVM、神经网络等)、训练与调优。模型评估涉及准确率、召回率等指标,并强调实际应用中需考虑多种因素,未来研究可探索深度学习的应用及数据质量与安全。
2685 0
|
存储 关系型数据库 Serverless
Ganos三维引擎系列(二):可视域与阴影率分析
本文介绍了基于阿里云多模态时空数据库Ganos三维引擎构建可视域分析与阴影率分析的应用方法。Ganos三维引擎支持三大类存储结构:表面网格模型、体网格模型与3D实景模型,其中表面网格模型用于存储带有语义的类BIM的精细化三维模型,体网格模型用于存储地质体等非匀质“场”类三维模型,3D实景模型用于存储倾斜摄影、精白模等用于渲染的三维模型,三种存储结构都提供了原生数据类型、空间索引、分析算子、导入导出工具、可视化支撑等功能,为数字孪生类应用提供闭环的存算显能力。

热门文章

最新文章

下一篇
开通oss服务