RT-DETR改进策略【卷积层】| ICCV-2023 引入Dynamic Snake Convolution动态蛇形卷积,改进ResNetLayer

简介: RT-DETR改进策略【卷积层】| ICCV-2023 引入Dynamic Snake Convolution动态蛇形卷积,改进ResNetLayer

一、本文介绍

本文记录的是利用DSConv优化RT-DETR的目标检测方法研究。在一些特殊目标任务中,细长的管状结构在图像中所占比例小,且易受复杂背景干扰,模型难以精确区分细微的目标变化。普通的变形卷积虽然能适应目标的几何变形,但在处理细管状结构时,由于模型完全自由地学习几何变化,感知区域容易偏离目标,导致难以高效聚焦于细管状结构。==本文所引进的动态蛇形卷积,通过自适应地聚焦于管状结构的细弯局部特征,增强了对几何结构的感知,使改进后的模型能够更好地感知关键特征。==


专栏目录:RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:RT-DETR改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!

二、DSConv原理介绍

基于拓扑几何约束的动态蛇卷积用于管状结构分割

DSConv(Dynamic Snake Convolution,动态蛇形卷积)模块的设计主要是为了更好地处理管状结构的分割任务,解决传统卷积在处理细管状结构时的不足。

2.1 原理:

  • 给定标准2D卷积坐标$K$,中心坐标为$K_i = (x_i, y_i)$,$3\times3$内核$K$( dilation为1)表示为$K = {(x - 1, y - 1), (x - 1, y), \cdots, (x + 1, y + 1)}$。
  • 为了使卷积核更能聚焦于目标的复杂几何特征,引入变形偏移$\Delta$。但为避免感知场在细管状结构上偏离目标,使用迭代策略,依次选择每个目标待处理时的观察位置,确保注意力的连续性,防止因变形偏移过大而使感知场扩散太远。
  • 在DSConv中,将标准卷积核在x轴和y轴方向上拉直。以大小为9的卷积核为例,在x轴方向,每个网格的具体位置表示为$K{i \pm c} = (x{i \pm c}, y{i \pm c})$,其中$c = {0, 1, 2, 3, 4}$表示到中心网格的水平距离。卷积核$K$中每个网格位置$K{i \pm c}$的选择是一个累积过程,从中心位置$Ki$开始,远离中心网格的位置取决于前一个网格的位置:$K{i + 1}$相比于$Ki$增加一个偏移$\Delta = {\delta | \delta \in [-1, 1]}$,偏移需要进行累加,以确保卷积核符合线性形态结构。在x轴方向上,公式表示为:
    $K
    {i \pm c} =
    \begin{cases}
    (x{i + c}, y{i + c}) = (x{i} + c, y{i} + \sum{i}^{i + c} \Delta y) \
    (x
    {i - c}, y{i - c}) = (x{i} - c, y{i} + \sum{i - c}^{i} \Delta y)
    \end{cases}$
    在y轴方向上的公式类似。
  • 由于偏移$\Delta$通常是分数形式,采用双线性插值:$K = \sum_{K'} B(K', K) \cdot K'$,其中$K$表示分数位置,$K'$枚举所有整数空间位置,$B$是双线性插值核,可分离为两个一维核:$B(K, K') = b(K_x, K_x') \cdot b(K_y, K_y')$。

在这里插入图片描述

2.2 优势:

  • 更好地适应管状结构DSConv基于动态结构,能更好地适应细长的管状结构,从而更好地感知关键特征。
  • 增强对几何结构的感知:通过自适应地聚焦于管状结构的细弯局部特征,增强了对几何结构的感知,有助于模型更准确地捕获管状结构的特征。
  • 避免感知区域偏离:与变形卷积不同,DSConv通过引入约束,避免了感知区域在细管状结构上的偏离,使注意力更集中在目标上。

论文:https://arxiv.org/abs/2307.08388
源码:https://github.com/YaoleiQi/DSCNet

三、实现代码及RT-DETR修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址:

https://blog.csdn.net/qq_42591591/article/details/143912253

相关文章
|
机器学习/深度学习 并行计算 算法
YOLOv8改进 | 卷积篇 |手把手教你添加动态蛇形卷积(Dynamic Snake Convolution)
YOLOv8改进 | 卷积篇 |手把手教你添加动态蛇形卷积(Dynamic Snake Convolution)
1681 0
|
机器学习/深度学习 人工智能 自然语言处理
视觉 注意力机制——通道注意力、空间注意力、自注意力
本文介绍注意力机制的概念和基本原理,并站在计算机视觉CV角度,进一步介绍通道注意力、空间注意力、混合注意力、自注意力等。
14935 58
|
机器学习/深度学习 算法 PyTorch
RPN(Region Proposal Networks)候选区域网络算法解析(附PyTorch代码)
RPN(Region Proposal Networks)候选区域网络算法解析(附PyTorch代码)
3574 1
|
存储 弹性计算 关系型数据库
5 分钟玩转 OceanBase 社区版 Docker 部署
## 简介 本文是个人把 OceanBase 社区版 3.1 做了一个 Docker 镜像,仅用于学习研究。只要你有一个 4C10G的笔记本可以联公网,你就可以在5分钟内将 OceanBase 社区版跑起来。 OceanBase 社区版是今年 6月1日开源的,只兼容 MySQL,可以理解为分布式的MySQL。其核心功能跟内部业务在用的OceanBase 企业版基本一致。核心功能包含:**多副
4192 0
5 分钟玩转 OceanBase 社区版 Docker 部署
|
计算机视觉
YOLOv11改进策略【卷积层】| ICCV-2023 引入Dynamic Snake Convolution动态蛇形卷积,改进C3k2
YOLOv11改进策略【卷积层】| ICCV-2023 引入Dynamic Snake Convolution动态蛇形卷积,改进C3k2
620 0
YOLOv11改进策略【卷积层】| ICCV-2023 引入Dynamic Snake Convolution动态蛇形卷积,改进C3k2
|
机器学习/深度学习 机器人 网络架构
YOLOv11改进策略【模型轻量化】| 替换轻量化骨干网络:ShuffleNet V1
YOLOv11改进策略【模型轻量化】| 替换轻量化骨干网络:ShuffleNet V1
1292 11
YOLOv11改进策略【模型轻量化】| 替换轻量化骨干网络:ShuffleNet V1
|
编解码 异构计算
YOLOv11改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
YOLOv11改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
3662 7
YOLOv11改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
|
机器学习/深度学习 计算机视觉
YOLOv8改进 | 卷积模块 | 在主干网络中添加/替换蛇形卷积Dynamic Snake Convolution
本专栏介绍的DSCNet采用蛇形动态卷积,增强对管状结构特征提取,尤其适合血管等弯曲目标。动态卷积核自适应调整,灵感来自蛇形曲线,能灵活捕捉不同尺度细节。论文及官方代码链接已提供,适用于提升目标检测的准确性和鲁棒性。
|
人工智能 计算机视觉
YOLOv11改进策略【损失函数篇】| NWD损失函数,提高小目标检测精度
YOLOv11改进策略【损失函数篇】| NWD损失函数,提高小目标检测精度
1639 9
|
人工智能
YOLOv11改进策略【损失函数篇】| 2024 引进Focaler-IoU损失函数 加强边界框回归 (Focaler-DIoU、Focaler-GIoU、Focaler-CIoU)
YOLOv11改进策略【损失函数篇】| 2024 引进Focaler-IoU损失函数 加强边界框回归 (Focaler-DIoU、Focaler-GIoU、Focaler-CIoU)
2336 4

热门文章

最新文章