【YOLOv10改进-特征融合篇】EVC(Explicit Visual Center): 中心化特征金字塔模块 | 小目标

简介: YOLO目标检测专栏探讨了对YOLO框架的创新改进,如中心化特征金字塔(CFP)。CFP引入了空间显式视觉中心方案和全局集中特征规范,通过轻量级MLP与并行视觉中心机制强化特征表示,尤其利于小目标检测。在YOLOv5和YOLOX基础上,CFP实现性能提升。相关代码示例展示了EVCBlock的结构,整合了LVCBlock和LightMLPBlock。更多详情和配置参见[YOLO基础解析+创新改进+实战案例](https://blog.csdn.net/shangyanaf/category_12303415.html)。

YOLOv10目标检测创新改进与实战案例专栏

专栏链接: YOLOv10 创新改进有效涨点

摘要

摘要 - 视觉特征金字塔在各种应用中展示了其在效率和有效性上的优势。然而,现有方法过分集中于层间特征交互,却忽略了同层特征调控,这在实践中被证明是有益的。尽管一些方法尝试借助注意力机制或视觉变换器(Vision Transformer)学习一个紧凑的同层特征表示,但它们忽略了对于密集预测任务而言重要的被遗漏的角落区域。为了解决这个问题,在本文中,我们提出了一个用于目标检测的集中化特征金字塔(CFP),它基于全局显式的集中特征调控。具体来说,我们首先提出了一个空间显式的视觉中心方案,其中一个轻量级的多层感知机(MLP)被用来捕捉全局长距离依赖性,而一个并行的可学习视觉中心机制被用来捕捉输入图像的局部角落区域。基于此,我们接着提出了一个自上而下的通用特征金字塔的全局集中调控方式,其中从最深的同层特征获得的显式视觉中心信息被用来调节前端浅层特征。与现有的特征金字塔相比,CFP不仅能够捕捉全局长距离依赖性,而且还能高效地获得一个全面且具有区分度的特征表示。在具有挑战性的MS-COCO数据集上的实验结果验证了我们提出的CFP在最先进的YOLOv5和YOLOX目标检测基线上能够实现一致的性能提升。

创新点

中心化特征金字塔(CFP)的创新点主要包括:

  1. 空间显式视觉中心方案:CFP首次提出了一种全新的空间显式视觉中心(EVC)方案,该方案通过一个轻量级的多层感知机(MLP)捕捉全局长距离依赖关系,以及通过一个并行的可学习视觉中心机制聚集输入图像的局部角落区域。这种结合了全局和局部特征的方法,有效地提升了模型对于不同尺寸和位置的目标的检测能力。

  2. 全局集中特征规范(GCR):在特征金字塔中引入了全局集中特征规范的概念,该策略利用自上而下的方式,使用从最深层的同层特征获得的视觉中心信息来调整前端浅层特征。这种方法强化了浅层特征的表达能力,使其能够受益于深层特征的全局信息,从而提高了特征的表示力和区分度。

  3. 轻量级MLP与并行视觉中心机制:通过采用轻量级MLP来减少计算复杂度,同时确保模型能够捕捉到全局的长程依赖性。并行的视觉中心机制则专注于捕获局部的角落信息,这对于识别小物体或者在复杂场景中的目标尤为重要。

yolov10 引入

class EVCBlock(nn.Module):
    def __init__(self, c1, c2, channel_ratio=4, base_channel=16):
        super().__init__()
        expansion = 2
        ch = c2 * expansion
        # Stem stage: get the feature maps by conv block (copied form resnet.py) 进入conformer框架之前的处理
        self.conv1 = nn.Conv2d(c1, c1, kernel_size=7, stride=1, padding=3, bias=False)  # 1 / 2 [112, 112]
        self.bn1 = nn.BatchNorm2d(c1)
        self.act1 = nn.ReLU(inplace=True)
        self.maxpool = nn.MaxPool2d(kernel_size=3, stride=1, padding=1)  # 1 / 4 [56, 56]

        # LVC
        self.lvc = LVCBlock(c1, c2, num_codes=64)  # c1值暂时未定
        # LightMLPBlock
        self.l_MLP = LightMLPBlock(c1, c2, ksize=1, stride=1, act="silu", act_layer=nn.GELU, mlp_ratio=4., drop=0.,
                                   use_layer_scale=True, layer_scale_init_value=1e-5, drop_path=0.,
                                   norm_layer=GroupNorm)
        self.cnv1 = nn.Conv2d(ch, c2, kernel_size=1, stride=1, padding=0)

    def forward(self, x):
        x1 = self.maxpool(self.act1(self.bn1(self.conv1(x))))
        # LVCBlock
        x_lvc = self.lvc(x1)
        # LightMLPBlock
        x_lmlp = self.l_MLP(x1)
        # concat
        x = torch.cat((x_lvc, x_lmlp), dim=1)
        x = self.cnv1(x)
        return x

task与yaml配置

详见:https://blog.csdn.net/shangyanaf/article/details/140143687

相关文章
|
7月前
|
机器学习/深度学习 编解码 自然语言处理
YOLOv8改进 | 主干篇 | RevColV1可逆列网络(特征解耦助力小目标检测)
YOLOv8改进 | 主干篇 | RevColV1可逆列网络(特征解耦助力小目标检测)
309 0
YOLOv8改进 | 主干篇 | RevColV1可逆列网络(特征解耦助力小目标检测)
|
7月前
|
机器学习/深度学习 数据可视化 计算机视觉
YOLOv5改进 | 2023Neck篇 | 轻量级跨尺度特征融合模块CCFM(附yaml文件+添加教程)
YOLOv5改进 | 2023Neck篇 | 轻量级跨尺度特征融合模块CCFM(附yaml文件+添加教程)
731 1
|
5月前
|
机器学习/深度学习 编解码 算法
【YOLOv8改进 - 特征融合NECK】SDI:多层次特征融合模块,替换contact操作
YOLOv8专栏探讨了该目标检测算法的创新改进,包括新机制和实战案例。文章介绍了U-Net v2,一种用于医学图像分割的高效U-Net变体,它通过SDI模块融合语义和细节信息,提升分割准确性。SDI模块结合空间和通道注意力,经通道减缩、尺寸调整和平滑后,用哈达玛积融合特征。提供的核心代码展示了SDI模块的实现。更多详情和论文、代码链接见原文。
|
5月前
|
机器学习/深度学习 移动开发 自然语言处理
【YOLOv8改进- 多模块融合改进】GhostConv + ContextAggregation 幽灵卷积与上下文聚合模块融合改进,助力小目标高效涨点
【YOLOv8改进- 多模块融合改进】GhostConv + ContextAggregation 幽灵卷积与上下文聚合模块融合改进,助力小目标高效涨点
|
5月前
|
机器学习/深度学习 安全 固态存储
【YOLOv8改进 - 注意力机制】LS-YOLO MSFE:新颖的多尺度特征提取模块 | 小目标/遥感
YOLO系列目标检测模型的新发展,LS-YOLO专为滑坡检测设计。它使用多尺度滑坡数据集(MSLD)和多尺度特征提取(MSFE)模块,结合ECA注意力,提升定位精度。通过改进的解耦头,利用膨胀卷积增强上下文信息。在滑坡检测任务中,LS-YOLO相对于YOLOv5s的AP提高了2.18%,达到97.06%。论文和代码已开源。
|
6月前
|
机器学习/深度学习 前端开发 计算机视觉
【YOLOv8改进】Explicit Visual Center: 中心化特征金字塔模块(论文笔记+引入代码)
YOLO目标检测专栏介绍了YOLO的有效改进和实战案例,包括卷积、主干网络、注意力机制和检测头的创新。提出中心化特征金字塔(CFP)解决特征交互和局部区域忽视问题。CFP通过空间显式视觉中心方案和全局集中特征规范增强模型表现,尤其在YOLOv5和YOLOX上表现提升。创新点包括轻量级MLP和并行视觉中心机制,以捕获全局和局部信息。YOLOv8引入EVCBlock整合这些改进。详细代码和配置见链接。
|
6月前
|
机器学习/深度学习 算法 计算机视觉
【YOLOv8改进】CPCA(Channel prior convolutional attention)中的通道注意力,增强特征表征能力 (论文笔记+引入代码)
该专栏聚焦YOLO目标检测的创新改进与实战,介绍了一种针对医学图像分割的通道优先卷积注意力(CPCA)方法。CPCA结合通道和空间注意力,通过多尺度深度卷积提升性能。提出的CPCANet网络在有限计算资源下,于多个数据集上展现优越分割效果。代码已开源。了解更多详情,请访问提供的专栏链接。
|
7月前
|
编解码 计算机视觉 网络架构
【YOLOv8改进】BiFPN:加权双向特征金字塔网络 (论文笔记+引入代码)
该专栏深入研究了YOLO目标检测的神经网络架构优化,提出了加权双向特征金字塔网络(BiFPN)和复合缩放方法,以提升模型效率。BiFPN通过双向跨尺度连接和加权融合增强信息传递,同时具有自适应的网络拓扑结构。结合EfficientNet,构建了EfficientDet系列检测器,在效率和准确性上超越先前技术。此外,介绍了YOLOv8如何引入MPDIoU并应用BiFPN进行可学习权重的特征融合。更多详情可参考提供的专栏链接。
|
7月前
|
机器学习/深度学习 传感器 编解码
Hy-Tracker来啦 | 带有YOLO的跟踪算法家族再添新成员,尺度变化和遮挡都不是问题!
Hy-Tracker来啦 | 带有YOLO的跟踪算法家族再添新成员,尺度变化和遮挡都不是问题!
230 1
|
7月前
|
机器学习/深度学习 编解码 自然语言处理
YOLOv5改进 | 主干篇 | RevColV1可逆列网络(特征解耦助力小目标检测)
YOLOv5改进 | 主干篇 | RevColV1可逆列网络(特征解耦助力小目标检测)
128 2
下一篇
DataWorks