YOLOv8改进 | 2023 | Deformable-LKA可变形大核注意力（涨点幅度超高）-阿里云开发者社区

YOLOv8改进 | 2023 | Deformable-LKA可变形大核注意力（涨点幅度超高）

2024-02-07 458

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： YOLOv8改进 | 2023 | Deformable-LKA可变形大核注意力（涨点幅度超高）

一、本文介绍

本文给大家带来的改进内容是Deformable-LKA（可变形大核注意力）。Deformable-LKA结合了大卷积核的广阔感受野和可变形卷积的灵活性，有效地处理复杂的视觉信息。这一机制通过动态调整卷积核的形状和大小来适应不同的图像特征，提高了模型对目标形状和尺寸的适应性。在YOLOv8中，Deformable-LKA可以被用于提升对小目标和不规则形状目标的检测能力，特别是在复杂背景或不同光照条件下。我进行了简单的实验，这一改进显著提高了模型mAP(提高了大概0.8左右)。Deformable-LKA，引入可以将其用在C2f和检测头中进行改进估计效果会更高，所以非常推荐大家使用。

专栏回顾：YOLOv8改进系列专栏——本专栏持续复习各种顶会内容——科研必备

二、Deformable-LKA机制原理

2.1 Deformable-LKA的基本原理

Deformable Large Kernel Attention (D-LKA) 的基本原理是结合了大卷积核和可变形卷积的注意力机制，通过采用大卷积核来模拟类似自我关注的感受野，同时避免了传统自我关注机制的高计算成本。此外，D-LKA通过可变形卷积来灵活调整采样网格，使得模型能够更好地适应不同的数据模式。可以将其分为以下几点：

1. 大卷积核: D-LKA 使用大卷积核来捕捉图像的广泛上下文信息，模仿自我关注机制的感受野。

2. 可变形卷积: 结合可变形卷积技术，允许模型的采样网格根据图像特征灵活变形，适应不同的数据模式。

3. 2D和3D适应性: D-LKA的2D和3D版本，使其在处理不同深度的数据时表现出色。

下面我来分别讲解这三种主要的改进机制->

2.2 大卷积核

大卷积核（Large Kernel）是一种用于捕捉图像中的广泛上下文信息的机制。它模仿自注意力（self-attention）机制的感受野，但是使用更少的参数和计算量。通过使用深度可分离的卷积（depth-wise convolution）和深度可分离的带扩张的卷积（depth-wise dilated convolution），可以有效地构造大卷积核。这种方法允许网络在较大的感受野内学习特征，同时通过减少参数数量来降低计算复杂度。在Deformable LKA中，大卷积核与可变形卷积结合使用，进一步增加了模型对复杂图像模式的适应性。

上图为变形大核注意力（Deformable Large Kernel Attention, D-LKA）模块的架构。从图中可以看出，该模块由多个卷积层组成，包括：

1. 标准的2D卷积（Conv2D）。

2. 带有偏移量的变形卷积（Deformable Convolution, Deform-DW Conv2D），允许网络根据输入特征自适应地调整其感受野。

3. 偏移场（Offsets Field）的计算，它是由一个标准卷积层生成，用于指导变形卷积层如何调整其采样位置。

4. 激活函数GELU，增加非线性。

2.3 可变形卷积

可变形卷积（Deformable Convolution）被用来增强模型对医学图像中的不规则形状和大小的捕捉能力。可变形卷积通过添加额外的偏移量来调整标准卷积的采样位置，从而允许卷积核动态地适应图像的内容。这样的机制使得卷积层能够更加灵活地捕捉到各种形态的结构，特别是在医学图像中常见的不规则和可变形的器官。通过学习图像特征本身来确定这些偏移量，可变形卷积能够提供一种自适应的内核形状，这有助于提升分割的精确性和边缘定义。

2.4 2D和3D适应性

2D和3D适应性指的是Deformable Large Kernel Attention（D-LKA）技术应用于不同维度数据的能力。2D D-LKA专为处理二维图像数据设计，适用于常见的医学成像方法，如X射线或MRI中的单层切片。而3D D-LKA则扩展了这种技术，使其能够处理三维数据集，充分利用体积图像数据中的空间上下文信息。3D版本特别擅长于交叉深度数据理解，即能够在多个层面上分析和识别图像特征，这对于体积重建和更复杂的医学成像任务非常有用。

上图展示了3D和2D Deformable Large Kernel Attention（D-LKA）模型的网络架构。左侧是3D D-LKA模型，右侧是2D D-LKA模型。

1. 3D D-LKA模型（左侧）：包含多个3D D-LKA块，这些块在下采样和上采样之间交替，用于深度特征学习和分辨率恢复。

2. 2D D-LKA模型（右侧）：利用MaxViT块作为编码器组件，并在不同的分辨率级别上使用2D D-LKA块，通过扩展（Patch Expanding）和D-LKA注意力机制进行特征学习。

YOLOv8改进 | 2023 | Deformable-LKA可变形大核注意力（涨点幅度超高）

一、本文介绍

二、Deformable-LKA机制原理

2.1 Deformable-LKA的基本原理

2.2 大卷积核

2.3 可变形卷积

2.4 2D和3D适应性

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

YOLOv8改进 | 2023 | Deformable-LKA可变形大核注意力（涨点幅度超高）

一、本文介绍

二、Deformable-LKA机制原理

2.1 Deformable-LKA的基本原理

2.2 大卷积核

2.3 可变形卷积

2.4 2D和3D适应性

热门文章

最新文章

相关电子书