RT-DETR改进策略【卷积层】| ICCV-2023 LSK大核选择模块 包含ResNetLayer二次独家创新

简介: RT-DETR改进策略【卷积层】| ICCV-2023 LSK大核选择模块 包含ResNetLayer二次独家创新

一、本文介绍

本文记录的是利用大核选择模块LSK优化RT-DETR的目标检测网络模型。在大尺寸图像中的小目标检测任务中,一直是个难题,无法仅基于外观实现较好的识别,因此需要广泛的上下文信息进行辅助。但不同物体所需的上下文信息范围不同,为了更好地对这些特性进行建模,本文利用大核选择模块二次创新ResNetLayer,==使模型能够产生具有各种大感受野的多个特征的同时,动态地根据输入调整模型的行为,使网络更好地适应图像中不同物体的检测需求。==


专栏目录:RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:RT-DETR改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!

二、大核选择模块(LSK)介绍

Large Selective Kernel Network for Remote Sensing Object Detection

LSK moduleLarge Selective Kernel Network (LSKNet)中的核心模块,以下是对其设计的出发点、原理、结构和优势的详细解释:

2.1 出发点

  • 利用遥感图像特性:遥感图像具有独特的特征,如从鸟瞰视角以高分辨率拍摄,其中的物体可能较小且难以仅基于外观识别,需要广泛的上下文信息进行准确检测,且不同物体所需的上下文信息范围不同。为了更好地对这些特性进行建模,提出了LSK module
  • 结合大核与选择性机制:大核卷积在一些研究中显示出对扩大感受野的有效性,而选择性机制可以动态地根据输入调整模型的行为。将两者结合可以使网络更好地适应遥感图像中不同物体的检测需求。

2.2 原理

2.2.1 大核卷积分解

  • 根据对遥感图像的分析,为了自适应地选择和建模多个长程上下文,将大核卷积明确分解为一系列具有逐渐增大的核和扩张率的深度卷积。
  • 对于第$i$个深度卷积,核大小$k_i$、扩张率$d_i$和感受野$RF_i$满足特定的定义关系,以确保感受野能够快速扩展,同时设置扩张率的上界以避免特征图之间出现间隙。

    2.2.2 空间核选择

  • 通过将不同感受野范围的内核获得的特征进行拼接,然后应用基于通道的平均和最大池化来提取空间关系,得到平均和最大池化的空间特征描述符。
  • 将这些空间特征描述符进行拼接,并使用卷积层将其转换为$N$个空间注意力图。
  • 对每个空间注意力图应用sigmoid激活函数,得到每个分解后的大内核的空间选择掩码,用于对相应的特征图进行加权,然后融合得到注意力特征。

在这里插入图片描述

2.3 结构

  • 嵌入LK Selection子块LSK module嵌入在LSKNet的Large Kernel Selection (LK Selection)子块中。
  • 包含卷积和选择机制:由一系列大核卷积和一个空间核选择机制组成。

在这里插入图片描述

2.4 优势

  • 提供多感受野特征大核卷积的分解明确地产生了具有各种大感受野的多个特征,这有利于后续的内核选择,能够更好地适应不同物体对不同范围上下文信息的需求。
  • 提高效率:与直接应用单个更大的内核相比,顺序分解的方式更高效。在相同的理论感受野下,分解的设计大大减少了参数数量。
  • 有效聚焦空间上下文:空间选择机制能够增强网络聚焦于检测目标最相关的空间上下文区域的能力,有助于提高检测性能,并且在实验中显示出比通道注意力机制更适合遥感物体检测任务。

论文:https://openaccess.thecvf.com/content/ICCV2023/papers/Li_Large_Selective_Kernel_Network_for_Remote_Sensing_Object_Detection_ICCV_2023_paper.pdf
源码:https://github.com/zcablii/Large-Selective-Kernel-Network

三、实现代码及RT-DETR修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址:

https://blog.csdn.net/qq_42591591/article/details/143873826

相关文章
|
计算机视觉 异构计算
【论文速递】ECCV2022 - ByteTrack:通过关联每个检测盒来进行多对象跟踪
【论文速递】ECCV2022 - ByteTrack:通过关联每个检测盒来进行多对象跟踪
|
机器学习/深度学习 人工智能 数据可视化
ShuffleNet:极致轻量化卷积神经网络(分组卷积+通道重排)
我们引入了一个高效计算的CNN结构名字叫做shuffleNet,这个结构被设计用来解决部署算力非常有限的移动设备问题,这个新的结构使用了两个新的操作,pointwise group convolution 和 channel shuffle能够在极大减少计算量的同时保持一定的精度。我们在ImageNet classification和MS COCO目标检测数据集上做实验论证了ShuffleNet和其他的结构相比有着很好的性能。比如,相比于mobilenet,shufflenet在ImageNet 分类任务上有着更低的top-1错误率(错误率是7.8%)需要的计算量为40MFLOPs。在一个AR
4090 0
ShuffleNet:极致轻量化卷积神经网络(分组卷积+通道重排)
|
4月前
|
弹性计算 网络协议 安全
阿里云 CDN 价格多少钱?2026年阿里云 CDN 收费标准详解
阿里云 CDN(内容分发网络)的收费由基础服务费和增值服务费两部分组成,基础服务费为必缴项,增值服务费则根据实际使用情况收取,不使用不产生费用。下面从计费方式、具体价格、适用场景等方面,详细说明阿里云 CDN 的收费规则。
|
机器学习/深度学习 编解码 测试技术
【YOLOv10改进-注意力机制】LSKNet(Large Selective Kernel Network ):空间选择注意力
YOLOv10专栏聚焦遥感目标检测,提出LSKNet,首个探索大型选择性核的模型。LSKNet利用LSKblock Attention动态调整感受野,处理不同目标的上下文。创新点还包括极化滤波和增强技术,提升信息保留和非线性输出。在HRSC2016等遥感基准上取得SOTA性能。LSKNet代码展示其网络结构,包括多阶段模块和注意力机制。详细配置和任务说明见相关链接。
|
机器学习/深度学习 计算机视觉
RT-DETR改进策略【Backbone/主干网络】| 替换骨干网络为2023-CVPR LSKNet (附网络详解和完整配置步骤)
RT-DETR改进策略【Backbone/主干网络】| 替换骨干网络为2023-CVPR LSKNet (附网络详解和完整配置步骤)
522 13
RT-DETR改进策略【Backbone/主干网络】| 替换骨干网络为2023-CVPR LSKNet (附网络详解和完整配置步骤)
|
9月前
|
SQL 存储 JSON
Apache Doris 2.1.10 版本正式发布
亲爱的社区小伙伴们,Apache Doris 2.1.10 版本已正式发布。2.1.10 版本对湖仓一体、半结构化数据类型、查询优化器、执行引擎、存储管理进行了若干改进优化。欢迎大家下载使用。
441 5
|
机器学习/深度学习 编解码 测试技术
【YOLOv8改进】LSKNet(Large Selective Kernel Network ):空间选择注意力 (论文笔记+引入代码)
YOLO目标检测专栏介绍了YOLO的有效改进和实战应用,包括卷积、主干网络、注意力机制和检测头的创新。提出的新模型LSKNet利用大型选择性核关注遥感场景的先验知识,动态调整感受野,提升目标检测效果。创新点包括LSKblock Attention、大型选择性核网络和适应性感受野调整。LSKNet在多个遥感检测基准上取得最优性能,且结构轻量。此外,文章提供了YOLOv8的LSKNet实现代码。更多详情可查阅相关专栏链接。
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【Neck】| ASF-YOLO 注意力尺度序列融合模块改进颈部网络,提高小目标检测精度
YOLOv11改进策略【Neck】| ASF-YOLO 注意力尺度序列融合模块改进颈部网络,提高小目标检测精度
1477 9
YOLOv11改进策略【Neck】| ASF-YOLO 注意力尺度序列融合模块改进颈部网络,提高小目标检测精度
|
并行计算 PyTorch Shell
YOLOv11改进策略【Neck】| 有效且轻量的动态上采样算子:DySample
YOLOv11改进策略【Neck】| 有效且轻量的动态上采样算子:DySample
1566 11
YOLOv11改进策略【Neck】| 有效且轻量的动态上采样算子:DySample
|
机器学习/深度学习 自然语言处理 PyTorch
深入剖析Transformer架构中的多头注意力机制
多头注意力机制(Multi-Head Attention)是Transformer模型中的核心组件,通过并行运行多个独立的注意力机制,捕捉输入序列中不同子空间的语义关联。每个“头”独立处理Query、Key和Value矩阵,经过缩放点积注意力运算后,所有头的输出被拼接并通过线性层融合,最终生成更全面的表示。多头注意力不仅增强了模型对复杂依赖关系的理解,还在自然语言处理任务如机器翻译和阅读理解中表现出色。通过多头自注意力机制,模型在同一序列内部进行多角度的注意力计算,进一步提升了表达能力和泛化性能。
11000 48