YOLOv11改进 - 卷积Conv | 加权卷积wConv:无损替换标准卷积,增强空间建模与特征提取质量

简介: 本文提出加权卷积(wConv),通过引入距离感知的密度函数,自适应调整邻域像素权重,突破传统卷积等权局限。结合双优化器策略,在不增加参数量的前提下提升特征提取能力。集成于YOLOv11后显著降低损失、提高检测精度,适用于图像去噪等密集预测任务。

前言

本文介绍了加权卷积wConv及其在YOLOv11中的结合。加权卷积是一种新型卷积机制,通过引入密度函数,根据邻域像素与中心像素的距离自适应调整权重,打破传统卷积等权处理的局限。它在不增加可训练参数的情况下实现“距离感知”特征提取,通过哈达玛积将密度函数与卷积核结合。其优化框架采用双优化器,分别对卷积核权重和密度函数进行优化。我们将加权卷积集成进YOLOv11,实验表明,与标准卷积相比,加权卷积能显著降低损失、提高测试准确率。

文章目录: YOLOv11改进大全:卷积层、轻量化、注意力机制、损失函数、Backbone、SPPF、Neck、检测头全方位优化汇总

专栏链接: YOLOv11改进专栏

介绍

image-20251123220542572

摘要

本文提出了加权卷积(weighted convolution) 这一新型卷积方法,适用于定义在规则网格上的信号(如二维图像)。该方法通过引入最优密度函数(optimal density function) ,根据邻域像素与中心像素的距离,对邻域像素的贡献度进行动态缩放。这一设计与传统的均匀卷积(uniform convolution) 不同——后者对所有邻域像素赋予同等权重。 我们提出的加权卷积可应用于卷积神经网络(CNN)相关任务,以提升模型的逼近精度。针对给定的卷积网络,本文设计了一套基于极小化模型的框架来求解最优密度函数,该框架将卷积核权重的优化(采用随机梯度下降法)与密度函数的优化(采用DIRECT-L算法)分离开来。 在图像到图像任务(如图像去噪)的学习模型上进行的实验表明,与标准卷积相比,加权卷积显著降低了损失(最高可达53%的降幅),同时提高了测试准确率。尽管该方法会使执行时间增加11%,但它对学习模型的多个超参数具有良好的鲁棒性。未来的研究将把加权卷积应用于实际场景中的二维和三维图像卷积学习任务。

文章链接

论文地址:论文地址

代码地址:代码地址

基本原理


一、加权卷积定义与原理

加权卷积(Weighted Convolution)是一种新型的卷积机制,旨在增强对局部空间相关性的建模能力。其核心思想是在卷积操作中引入密度函数 Φ(Density Function),用于根据邻域像素与中心像素的空间距离自适应地调整权重,从而打破传统卷积对所有邻域像素“等权”处理的假设【10†source】。

该方法通过对密度函数进行独立优化,在不增加模型可训练参数的前提下实现“距离感知”的特征提取。加权卷积的数学实现为将密度函数Φ与卷积核进行哈达玛积(Hadamard product),并应用于像素邻域。


二、数学表达与密度函数设计

1. 数学形式

表达形式 公式 说明
连续 $(f * g_{\varphi})(t) = \int f(\tau) \cdot \varphi(t - \tau) g(t - \tau) d\tau$ 密度函数 $\varphi$ 体现“距离敏感”卷积
离散 $(I * W{\Phi})^f{ij} = \sum{a,b} (\Phi{ab} w^f{ab}) \cdot I{i+a,j+b}$ $\Phi$ 为密度矩阵
矩阵 $(I * W{\Phi})^f{ij} = \langle \Phi \circ w^f, N(I_{ij}) \rangle_F$ $\circ$ 表哈达玛积,$N(I_{ij})$ 为邻域矩阵

特殊情况:当 Φ 为常数矩阵(如全1),该加权卷积退化为标准卷积。


2. 密度函数 Φ 的结构设计

为了降低优化复杂度,密度函数被约束为:

  • 对称性:Φ 的生成向量 α 满足 α = α[::-1],即关于中心轴对称;
  • 秩为1的结构:Φ = ααᵗ,降低变量数从 $K^2$ 到 $(K-1)/2$;
  • 中心像素权重固定为1:即 αₘ = 1(m 为中心索引);
  • 变量约束范围:α 分量在 $[0, 2]$ 内搜索。

三、优化框架:参数与密度函数分离优化

为避免优化冲突,设计了双优化器:

对象 优化方法 特性
卷积核权重 $w$ SGD 可导、梯度下降、使用 Kaiming 初始化
密度函数参数 $\alpha$ DIRECT-L 无导数、全局优化、支持非凸问题

核心代码

class wConv2d(nn.Module):
    def __init__(self, in_channels, out_channels, kernel_size, den, stride=1, padding=1, groups=1, dilation=1, bias=False):
        super(wConv2d, self).__init__()       
        self.stride = _pair(stride)
        self.padding = _pair(padding)
        self.kernel_size = _pair(kernel_size)
        self.groups = groups
        self.dilation = _pair(dilation)      
        self.weight = nn.Parameter(torch.empty(out_channels, in_channels // groups, *self.kernel_size))
        nn.init.kaiming_normal_(self.weight, mode='fan_out', nonlinearity='relu')        
        self.bias = nn.Parameter(torch.zeros(out_channels)) if bias else None

        device = torch.device('cpu')  
        self.register_buffer('alfa', torch.cat([torch.tensor(den, device=device),torch.tensor([1.0], device=device),torch.flip(torch.tensor(den, device=device), dims=[0])]))
        self.register_buffer('Phi', torch.outer(self.alfa, self.alfa))

        if self.Phi.shape != self.kernel_size:
            raise ValueError(f"Phi shape {self.Phi.shape} must match kernel size {self.kernel_size}")

    def forward(self, x):
        Phi = self.Phi.to(x.device)
        weight_Phi = self.weight * Phi
        return F.conv2d(x, weight_Phi, bias=self.bias, stride=self.stride, padding=self.padding, groups=self.groups, dilation=self.dilation)
相关文章
|
1月前
|
机器学习/深度学习 算法 atlas
YOLOv11 改进 - 注意力机制 MCAttn 蒙特卡洛注意力:全局上下文与局部细节协同建模,破解微小目标特征表达难题
本文提出将蒙特卡洛注意力(MCAttn)模块融入YOLOv11,通过随机采样多尺度池化特征并加权融合,增强模型对小目标的敏感性。MCAttn兼顾局部细节与全局上下文,提升检测精度,尤其适用于医学图像中小面积病灶识别,显著改善特征丢失问题,且保持轻量化与高效推理。
YOLOv11 改进 - 注意力机制 MCAttn 蒙特卡洛注意力:全局上下文与局部细节协同建模,破解微小目标特征表达难题
|
2月前
|
存储 SQL 分布式计算
手把手教你搞定大数据上云:数据迁移的全流程解析
本文深入探讨了企业数据迁移的核心价值与复杂挑战,重点分析了离线大数据平台在物理传输、系统耦合与数据校验三方面的难题。文章系统阐述了存储格式、表格式、计算引擎等关键技术原理,并结合LHM等工具介绍了自动化迁移的实践演进,展望了未来智能化、闭环化的数据流动方向。
622 14
手把手教你搞定大数据上云:数据迁移的全流程解析
|
26天前
|
机器学习/深度学习 编解码 机器人
YOLOv11 改进 - C2PSA | C2PSA融合Mask Attention掩码注意力,可学习掩码矩阵破解低分辨率特征提取难题 | 2025 预印
本文提出MaskAttn-UNet,融合卷积效率与注意力全局视野,通过可学习掩码选择性关注关键区域,提升低分辨率图像分割精度。模块集成至YOLOv11,兼顾性能与效率,适用于资源受限场景,在多任务中表现优异。
YOLOv11 改进 - C2PSA | C2PSA融合Mask Attention掩码注意力,可学习掩码矩阵破解低分辨率特征提取难题 | 2025 预印
|
算法 数据库 计算机视觉
Dataset之COCO数据集:COCO数据集的简介、下载、使用方法之详细攻略
Dataset之COCO数据集:COCO数据集的简介、下载、使用方法之详细攻略
|
2月前
|
缓存 运维 监控
一次内存诊断,让资源利用率提升 40%:揭秘隐式内存治理
阿里云云监控 2.0 推出 SysOM 底层操作系统诊断能力,基于 eBPF + BTF 协同分析,无需侵入业务,即可一键完成从物理页到文件路径、再到容器进程的全栈内存归因,让“黑盒内存”无所遁形。
604 81
|
25天前
|
机器学习/深度学习 编解码 计算机视觉
YOLOv11改进 - C3k2融合 | C3k2融合 IIA信息整合注意力(Information Integration Attention )平衡精度与计算成本 | TGRS2025
本文提出信息整合注意力(IIA)机制,融合通道拼接、双方向池化与轻量1D卷积,精准捕捉遥感图像空间关系,抑制噪声,平衡精度与效率。集成于YOLOv11后显著提升分割性能。
YOLOv11改进 - C3k2融合 | C3k2融合 IIA信息整合注意力(Information Integration Attention )平衡精度与计算成本 | TGRS2025
|
27天前
|
机器学习/深度学习 算法 数据挖掘
YOLOv11改进 - C3k2融合 | C3k2融合CBSA 收缩 - 广播自注意力:轻量级设计实现高效特征压缩,优化处理效率 | NeurIPS 2025
本文提出收缩-广播自注意力(CBSA),通过选取代表性token进行收缩计算并广播结果,实现高效、可解释的线性复杂度注意力机制。其逻辑透明,统一多种注意力形式,并集成至YOLOv11的C3k2模块,在视觉任务中展现优越性能与速度优势。
YOLOv11改进 - C3k2融合 | C3k2融合CBSA 收缩 - 广播自注意力:轻量级设计实现高效特征压缩,优化处理效率 | NeurIPS 2025
|
21天前
|
机器学习/深度学习 人工智能 监控
YOLOv11 改进 - 主干网络| 集成Mamba-YOLO(AAAI 2025),Mamba-YOLOv11-T 替换骨干,破解全局依赖建模难题,实现高效实时检测
Mamba YOLO提出将状态空间模型(SSM)引入实时目标检测,融合YOLO架构优势,实现“又快又准”。其通过ODMamba骨干网络解决自注意力二次复杂度问题,无需预训练;设计RG块增强局部细节建模,提升定位精度;结合多尺度融合策略,在COCO上小模型达1.5毫秒推理、mAP提升7.5%,兼顾高效与性能。
YOLOv11 改进 - 主干网络| 集成Mamba-YOLO(AAAI 2025),Mamba-YOLOv11-T 替换骨干,破解全局依赖建模难题,实现高效实时检测
|
2月前
|
存储 数据采集 监控
分钟级定位 IO 瓶颈:多租户云环境下的智能诊断
阿里云推出IO一键诊断功能,智能识别IO延迟高、流量异常等问题,通过动态阈值与多指标关联分析,实现秒级异常发现与根因定位,提升云环境存储性能问题解决效率。
198 12
分钟级定位 IO 瓶颈:多租户云环境下的智能诊断
|
1月前
|
人工智能 安全 数据可视化
构建AI智能体:五十、ModelScope MCP广场 · MCP协议 · Cherry Studio:AI应用生产线
本文介绍了AI开发生态中的三个关键组件:CherryStudio可视化开发平台、ModelScope MCP广场和MCP协议标准。CherryStudio作为低代码AI应用开发环境,通过拖拽式界面简化了基于大语言模型的智能体构建;ModelScope MCP广场作为官方MCPServer分发中心,提供各类工具服务的发现与管理;MCP协议则定义了LLM与外部工具的安全连接标准。三者构建了从资源发现、能力连接到应用落地的完整AI开发链条,推动AI开发从手工作坊迈向工业化时代。文章还演示了如何在CherryStu
344 9

热门文章

最新文章