【YOLOv8改进 - 特征融合】CARAFE:轻量级新型上采样算子,助力细节提升

简介: 【YOLOv8改进 - 特征融合】CARAFE:轻量级新型上采样算子,助力细节提升

YOLOv8目标检测创新改进与实战案例专栏

专栏目录: YOLOv8有效改进系列及项目实战目录 包含卷积,主干 注意力,检测头等创新机制 以及 各种目标检测分割项目实战案例

专栏链接: YOLOv8基础解析+创新改进+实战案例

介绍

image-20240622111125905

摘要

特征上采样是许多现代卷积网络架构中的关键操作,例如特征金字塔。其设计对于密集预测任务(如目标检测和语义/实例分割)至关重要。在这项工作中,我们提出了内容感知特征重组(CARAFE),这是一种通用、轻量且高效的操作符,以实现这一目标。CARAFE 具有以下几个吸引人的特性:(1)大视野。与之前的工作(例如双线性插值)仅利用子像素邻域不同,CARAFE 可以在大的感受野内聚合上下文信息。(2)内容感知处理。与使用固定卷积核处理所有样本(例如反卷积)不同,CARAFE 允许特定实例的内容感知处理,能够即时生成自适应卷积核。(3)轻量且计算快速。CARAFE 引入的计算开销很小,可以轻松集成到现代网络架构中。我们在标准基准测试中进行了全面评估,涵盖了目标检测、实例/语义分割和图像修复等任务。CARAFE 在所有任务中都显示出一致且显著的提升(分别为 1.2% AP、1.3% AP、1.8% mIoU、1.1dB),且计算开销可以忽略不计。它有望成为未来研究的强大构建模块。代码和模型可在 https://github.com/open-mmlab/mmdetection 获取。

文章链接

论文地址:论文地址

代码地址:代码地址

复现代码参考代码地址1

复现代码参考代码地址2

基本原理

CARAFE(Content-Aware ReAssembly of FEatures) 是具备下面这些特性的上采样算子。

  1. Large receptive field(大感受野):可以更好地利用周围的信息。
  2. Content-aware(内容感知):上采样核应与特征图的语义信息相关,基于输入内容进行上采样。
  3. Lightweight(轻量化):不能引入过多的参数和计算量。

CARAFE 分为两个主要模块:上采样核预测模块和特征重组模块。假设上采样倍率为 $r$,给定一个形状为 $C \times H \times W$ 的输入特征图,我们首先通过上采样核预测模块预测上采样核,然后通过特征重组模块完成上采样,得到形状为 $C \times rH \times rW$ 的输出特征图。

上采样核预测模块

  1. 特征图通道压缩
    对于形状为 $C \times H \times W$ 的输入特征图,首先用一个 $1 \times 1$ 卷积将其通道数压缩到 $C // 4$,以减少后续步骤的计算量。

  2. 内容编码及上采样核预测
    假设上采样核尺寸为 $k \times k$(上采样核越大,感受野和计算量越大)。如果希望对输出特征图的每个位置使用不同的上采样核,需要预测的上采样核形状为 $k^2 \times H \times W$。对于压缩后的输入特征图,通过一个 $3 \times 3$ 卷积层来预测上采样核,输入通道数为 $C // 4$,输出通道数为 $k^2$,然后将通道维在空间维展开,得到形状为 $k^2 \times H \times W$ 的上采样核。

  3. 上采样核归一化
    对第二步中得到的上采样核进行 softmax 归一化,使得卷积核权重和为 1。

特征重组模块

对于输出特征图中的每个位置,将其映射回输入特征图,取出以之为中心的 $k \times k$ 区域,与预测出的该点的上采样核作点积,得到输出值。同一位置的不同通道共享同一个上采样核。

image-20240622182712957

task与yaml配置

详见:https://blog.csdn.net/shangyanaf/article/details/139886624

相关文章
|
7月前
|
机器学习/深度学习 编解码 文件存储
YOLOv8改进 | 融合改进篇 | BiFPN+ RepViT(教你如何融合改进机制)
YOLOv8改进 | 融合改进篇 | BiFPN+ RepViT(教你如何融合改进机制)
860 1
|
2月前
|
机器学习/深度学习 自然语言处理 算法
RAPTOR:多模型融合+层次结构 = 检索性能提升20%,结果还更稳健
本文探讨了通过多模型集成技术提升信息检索系统性能的方法,重点介绍了RAPTOR框架。RAPTOR通过构建层次化的信息组织结构和递归摘要技术,显著提高了检索系统的性能和适应性。研究建立在RAG Fusion技术基础上,旨在提供更全面的信息检索解决方案。
116 2
RAPTOR:多模型融合+层次结构 = 检索性能提升20%,结果还更稳健
|
20天前
|
监控
SMoA: 基于稀疏混合架构的大语言模型协同优化框架
通过引入稀疏化和角色多样性,SMoA为大语言模型多代理系统的发展开辟了新的方向。
31 6
SMoA: 基于稀疏混合架构的大语言模型协同优化框架
|
28天前
|
机器学习/深度学习 计算机视觉 网络架构
【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目DWRSeg是一种高效的实时语义分割网络,通过将多尺度特征提取分为区域残差化和语义残差化两步,提高了特征提取效率。它引入了Dilation-wise Residual (DWR) 和 Simple Inverted Residual (SIR) 模块,优化了不同网络阶段的感受野。在Cityscapes和CamVid数据集上的实验表明,DWRSeg在准确性和推理速度之间取得了最佳平衡,达到了72.7%的mIoU,每秒319.5帧。代码和模型已公开。
【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
|
2月前
|
机器学习/深度学习 计算机视觉 网络架构
【YOLO11改进 - C3k2融合】C3k2融合YOLO-MS的MSBlock : 分层特征融合策略,轻量化网络结构
【YOLO11改进 - C3k2融合】C3k2融合YOLO-MS的MSBlock : 分层特征融合策略,轻量化网络结构
|
5月前
|
计算机视觉 网络架构
【YOLOv10改进-特征融合】YOLO-MS MSBlock : 分层特征融合策略
YOLOv10专栏介绍了YOLO-MS,一个优化多尺度目标检测的高效框架。YOLO-MS通过MS-Block和异构Kernel选择提升性能,平衡了计算复杂度与准确性。它在不依赖预训练的情况下,在COCO上超越同类模型,如YOLO-v7和RTMDet。MS-Block包含不同大小卷积的分支,用于增强特征表示。代码示例展示了MSBlock类的定义,用于处理不同尺度特征。该模块可应用于其他YOLO模型以提升性能。更多详情和配置参见相关链接。
|
2月前
|
机器学习/深度学习 编解码 负载均衡
MoH:融合混合专家机制的高效多头注意力模型及其在视觉语言任务中的应用
本文提出了一种名为混合头注意力(MoH)的新架构,旨在提高Transformer模型中注意力机制的效率。MoH通过动态注意力头路由机制,使每个token能够自适应选择合适的注意力头,从而在减少激活头数量的同时保持或提升模型性能。实验结果显示,MoH在图像分类、类条件图像生成和大语言模型等多个任务中均表现出色,尤其在减少计算资源消耗方面有显著优势。
57 1
|
28天前
|
机器学习/深度学习 计算机视觉 网络架构
【YOLO11改进 - C3k2融合】C3k2融合DWRSeg二次创新C3k2_DWRSeg:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
【YOLO11改进 - C3k2融合】C3k2融合DWRSDWRSeg是一种高效的实时语义分割网络,通过将多尺度特征提取方法分解为区域残差化和语义残差化两步,提高了多尺度信息获取的效率。网络设计了Dilation-wise Residual (DWR) 和 Simple Inverted Residual (SIR) 模块,分别用于高阶段和低阶段,以充分利用不同感受野的特征图。实验结果表明,DWRSeg在Cityscapes和CamVid数据集上表现出色,以每秒319.5帧的速度在NVIDIA GeForce GTX 1080 Ti上达到72.7%的mIoU,超越了现有方法。代码和模型已公开。
|
5月前
|
机器学习/深度学习 移动开发 自然语言处理
【YOLOv8改进- 多模块融合改进】GhostConv + ContextAggregation 幽灵卷积与上下文聚合模块融合改进,助力小目标高效涨点
【YOLOv8改进- 多模块融合改进】GhostConv + ContextAggregation 幽灵卷积与上下文聚合模块融合改进,助力小目标高效涨点
|
5月前
|
机器学习/深度学习 大数据 计算机视觉
【YOLOv8改进 - 特征融合】 GELAN:YOLOV9 通用高效层聚合网络,高效且涨点
YOLOv8专栏探讨了深度学习中信息瓶颈问题,提出可编程梯度信息(PGI)和广义高效层聚合网络(GELAN),改善轻量级模型的信息利用率。GELAN在MS COCO数据集上表现优越,且PGI适用于不同规模的模型,甚至能超越预训练SOTA。[论文](https://arxiv.org/pdf/2402.13616)和[代码](https://github.com/WongKinYiu/yolov9)已开源。核心组件RepNCSPELAN4整合了RepNCSP块和卷积。更多详情及配置参见相关链接。