【YOLOv8改进】 MSDA：多尺度空洞注意力 (论文笔记+引入代码)

2024-05-31 70

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 该文介绍了DilateFormer，一种新提出的视觉变换器，它在计算效率和关注接受域之间取得平衡。通过分析ViTs，发现浅层的局部性和稀疏性，提出了多尺度扩张注意力（MSDA），用于局部、稀疏的块交互。DilateFormer结合MSDA块和全局多头自注意力块，形成金字塔架构，实现各视觉任务的顶尖性能。与现有最佳模型相比，在ImageNet-1K分类任务上，DilateFormer性能相当但计算成本降低70%，同时在COCO检测/分割和ADE20K语义分割任务上表现优秀。文章还展示了MSDA的创新点，包括多尺度聚合、局部稀疏交互和减少自注意力冗余。此外，

YOLO目标检测创新改进与实战案例专栏

专栏目录： YOLO有效改进系列及项目实战目录包含卷积，主干注意力，检测头等创新机制以及各种目标检测分割项目实战案例

专栏链接: YOLO基础解析+创新改进+实战案例

摘要

作为事实上的解决方案，标准的视觉变换器（ViTs）被鼓励模拟任意图像块之间的长距离依赖性，而全局关注的接受域导致了二次计算成本。视觉变换器的另一个分支受到CNNs启发，利用局部注意力，只模拟小邻域内块之间的交互。尽管这样的解决方案降低了计算成本，但它自然会受到小的关注接受域的限制，这可能会限制性能。在这项工作中，我们探索有效的视觉变换器，以追求计算复杂性和关注接受域大小之间的理想折衷。通过分析ViTs中全局注意力的块交互，我们观察到浅层中的两个关键属性，即局部性和稀疏性，表明在ViTs的浅层中全局依赖性建模的冗余。因此，我们提出多尺度扩张注意力（MSDA），在滑动窗口内模拟局部和稀疏的块交互。通过金字塔架构，我们通过在低级阶段堆叠MSDA块和在高级阶段堆叠全局多头自注意力块，构建了多尺度扩张变换器（DilateFormer）。我们的实验结果表明，我们的DilateFormer在各种视觉任务上实现了最先进的性能。在ImageNet-1K分类任务上，与现有的最先进模型相比，DilateFormer实现了相当的性能，而计算成本减少了70%。我们的DilateFormer-Base在ImageNet-1K分类任务上实现了85.6%的顶级准确率，在COCO对象检测/实例分割任务上实现了53.5%的框mAP/46.1%的掩码mAP，在ADE20K语义分割任务上实现了51.1%的MS mIoU。

MSDA创新点

利用多尺度扩张机制：通过在不同头部设置不同的扩张率，MSDA能够在不同尺度上聚合语义信息，从而更好地捕获多尺度的特征。
捕获局部稀疏的补丁交互：MSDA在滑动窗口内稀疏选择关键点和值，以模拟局部稀疏的补丁交互，从而减少全局依赖建模的冗余。
降低自注意机制的冗余：通过有效地聚合不同尺度的语义信息，MSDA能够减少自注意机制的冗余，提高模型的效率和性能。

yolov8 引入


 class MultiDilatelocalAttention(nn.Module):
    "Implementation of Dilate-attention"

    def __init__(self, dim, num_heads=8, qkv_bias=False, qk_scale=None,
                 attn_drop=0.,proj_drop=0., kernel_size=3, dilation=[1, 2, 3]):
        super().__init__()
        self.dim = dim
        self.num_heads = num_heads
        head_dim = dim // num_heads
        self.dilation = dilation
        self.kernel_size = kernel_size
        self.scale = qk_scale or head_dim ** -0.5
        self.num_dilation = len(dilation)
        assert num_heads % self.num_dilation == 0, f"num_heads{num_heads} must be the times of num_dilation{self.num_dilation}!!"
        self.qkv = nn.Conv2d(dim, dim * 3, 1, bias=qkv_bias)
        self.dilate_attention = nn.ModuleList(
            [DilateAttention(head_dim, qk_scale, attn_drop, kernel_size, dilation[i])
             for i in range(self.num_dilation)])
        self.proj = nn.Linear(dim, dim)
        self.proj_drop = nn.Dropout(proj_drop)

    def forward(self, x):
        B, H, W, C = x.shape
        x = x.permute(0, 3, 1, 2)# B, C, H, W
        qkv = self.qkv(x).reshape(B, 3, self.num_dilation, C//self.num_dilation, H, W).permute(2, 1, 0, 3, 4, 5)
        #num_dilation,3,B,C//num_dilation,H,W
        x = x.reshape(B, self.num_dilation, C//self.num_dilation, H, W).permute(1, 0, 3, 4, 2 )
        # num_dilation, B, H, W, C//num_dilation
        for i in range(self.num_dilation):
            x[i] = self.dilate_attention[i](qkv[i][0], qkv[i][1], qkv[i][2])# B, H, W,C//num_dilation
        x = x.permute(1, 2, 3, 0, 4).reshape(B, H, W, C)
        x = self.proj(x)
        x = self.proj_drop(x)
        return x

task与yaml配置

详见：https://blog.csdn.net/shangyanaf/article/details/136215149

【YOLOv8改进】 MSDA：多尺度空洞注意力 (论文笔记+引入代码)

YOLO目标检测创新改进与实战案例专栏

摘要

MSDA创新点

yolov8 引入

task与yaml配置

热门文章

最新文章

相关课程

相关电子书

相关实验场景