SEAM论文解读:弱监督语义分割的自监督等变注意力机制

简介: SEAM论文解读:弱监督语义分割的自监督等变注意力机制

语义分割是一项基本的计算机视觉任务,其目的是预测图像的像素级分类结果。由于近年来深度学习研究的蓬勃发展,语义分割模型的性能有了长足的进步。然而,与其他任务(如分类和检测)相比,语义分割需要收集像素级的类标签,这既耗时又昂贵。近年来,许多研究者致力于弱监督语义分割(WSSS)的研究,如图像级分类标签、涂抹和边界盒等,试图达到可与全监督方法相媲美的分割性能。[1]侧重于通过图像级分类标签进行语义分割。

目前最先进的弱监督语义分割方法都是基于类激活特征图(CAM)实现的,它是一种通过图像分类标签定位目标的有效方法。但是CAM通常只覆盖到物体最显著的部分,通常在背景区域被错误激活,可以总结为目标激活不足和背景激活过度。

640.png

由不同比例的输入图像生成的CAM的比较。(a)常规CAM。(b)由我们的SEAM预测的CAM,它们在重新缩放后更加一致。来源[1]

当通过仿射变换对图像进行增强时,生成的CAM不一致,这些现象的根本原因是完全监督和弱监督语义分割之间的监督差距,并且使用分类获得的CAM之间存在无法克服的差距。网络和真实值因为分类和细分之间仍然存在本质的矛盾。

SEAM [1]将一致性正则化应用于来自各种变换图像的CAM,以提供用于网络学习的自我监督。为了进一步提高网络预测的一致性,SEAM引入了像素相关模块(PCM),该模块可以捕获每个像素的上下文外观信息,并通过学习的亲和性注意力图来修改原始CAM,从而对原始CAM在不同分支进行比较。使用改进的CAM进行标准化。SEAM由具有等变交叉正则化(ECR)损失的孪生网络实现。

网络体系结构

SEAM是等变差正则化(ER)和像素相关模块(PCM)的结合。经过特殊设计的损失后,修正后的CAM不仅在仿射变换中保持了一致性,而且非常适用于物体轮廓分类,且分割函数的属性不同。

640.png

分割函数往往是等变的,而分类任务更注重不变性。虽然分类函数的不变性主要是由归并操作引起的,但由于没有等变约束,使得网络学习过程中几乎不可能实现分割,需要整合其他监管机构来缩小完全监督学习和弱监督学习之间的监督差距。

自注意力是一种被广泛接受的能显著提高网络逼近能力的机制。它通过捕获上下文特征相关性对特征图进行修正,这也符合大多数WSSS方法的思想,即利用像素点的相似性对原始激活图进行细化。

等变正则化

在执行数据增强时,将使用各种仿射变换。在充分监督的情况下,由于真实值会得到增强,这就含蓄地对网络施加了等变量的约束,使其在不同尺度上的分割保持一定的一致性。

640.png

其中F(·)表示网络,A(·)表示任意空间仿射变换,如重划、旋转、翻转。

然而,监管信息薄弱只是监管的分类标签。在对原始图像进行仿射变换后,分类标签不能再以同样的方式进行变换。这将丢失原始的隐式约束,导致如图1所示的问题。

论文的作者介绍了Siamese网络,这两个网络具有完全相同的结构和共享权值。它测量两个输入有多相似。

Siamese网络有两个输入,两个输入同时输入导两个神经网络。这两个神经网络分别将输入映射到一个新的空间,形成一个新的空间中的输入,通过计算损失,评估两个输入的相似度。

因此,为了将正则化融入到原始网络中,将网络扩展为共享权值的双结构。一个分支对网络输出应用变换,另一个分支在网络前馈前通过同样的变换使图像失真。正则化来自两个分支的输出激活映射,以确保CAM的一致性。这两个网络的输入分别是原始图像和仿射变换后的图像。通过对双网络的映射,形成一种新的表示,然后设计Loss使这两种表示尽可能的小。

像素相关模块(PCM)

虽然等变正则化为网络学习提供了额外的监督,但仅通过经典的卷积层难以实现理想的等变。自注意力机制是获取上下文信息和逐像素预测结果的有效模块。

640.png

PCM的结构,其中H、W、C/C1/C2分别表示特征图的高度、宽度和通道数

为了利用上下文信息进一步细化原始CAM,在网络末端提出了一个像素相关模块(PCM)来集成每个像素的底层特征。

PCM的结构是指自注意机制的核心部分,在等变正则化的监督下进行了修改和训练。利用余弦距离评价像素之间的特征相似度。同时利用归一化特征空间中的内积计算当前像素与其他像素的亲缘关系。ReLU激活相似性来抑制负值。

最终CAM是原始CAM的归一化相似度的加权和。

640.png

与传统的注意力相比,

  • PCM消除了冗余跳转连接,以保持与原始CAM相同的激活强度(可能是原始CAM添加了更多错误消息)。
  • 此外,由于另一个网络分支为PCM提供像素级监视,因此其准确性不如真实值高,因此可通过删除嵌入函数φ和g来减少参数,从而避免过度拟合不准确的监视。
  • 激活函数使用Relu而不是S形,并使用ReLU激活函数和L1归一化来掩盖无关像素并在相关区域中生成更平滑的亲和力注意图。总之,它通过学习上下文关系来修改原始的CAM模块。

SEAM的损失设计

SEAM的损失分为三部分,其中cls分类损失用于大致定位对象,而ER损失用于缩小像素级和图像级监控之间的差距。ECR损失用于将PCM与网络集成在一起,以对各种仿射变换做出一致的预测。

640.png

结论

在PASCAL VOC 2012数据集上进行的大量实验表明,在相同的监督水平下,该方法的性能优于最新方法。

参考文献

1.Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation(https://arxiv.org/abs/2004.04581


目录
相关文章
|
6月前
|
机器学习/深度学习 算法 机器人
【论文速递】TMM2023 - FECANet:用特征增强的上下文感知网络增强小样本语义分割
【论文速递】TMM2023 - FECANet:用特征增强的上下文感知网络增强小样本语义分割
|
3月前
|
机器学习/深度学习 运维 算法
监督算法和无监督算法之间的区别
【8月更文挑战第23天】
88 0
|
4月前
|
机器学习/深度学习 图计算 计算机视觉
【YOLOv8改进 - 注意力机制】 CascadedGroupAttention:级联组注意力,增强视觉Transformer中多头自注意力机制的效率和有效性
YOLO目标检测专栏探讨了Transformer在视觉任务中的效能与计算成本问题,提出EfficientViT,一种兼顾速度和准确性的模型。EfficientViT通过创新的Cascaded Group Attention(CGA)模块减少冗余,提高多样性,节省计算资源。在保持高精度的同时,与MobileNetV3-Large相比,EfficientViT在速度上有显著提升。论文和代码已公开。CGA通过特征分割和级联头部增加注意力多样性和模型容量,降低了计算负担。核心代码展示了CGA模块的实现。
|
4月前
|
机器学习/深度学习
ICML 2024:揭示非线形Transformer在上下文学习中学习和泛化的机制
【7月更文挑战第10天】Rensselaer Polytechnic Institute和IBM的研究者探讨了非线性Transformer在上下文学习的理论基础。他们展示了Transformer如何通过注意力层聚焦相关上下文,并利用MLP层进行预测,揭示了其在不需微调情况下的泛化能力。尽管研究局限于二进制分类和单层模型,它为理解复杂模型在不同任务和领域的潜在适应性提供了新视角。[论文链接:](https://arxiv.org/pdf/2402.15607)**
40 1
|
6月前
|
机器学习/深度学习 异构计算
Gradformer: 通过图结构归纳偏差提升自注意力机制的图Transformer
Gradformer,新发布的图Transformer,引入指数衰减掩码和可学习约束,强化自注意力机制,聚焦本地信息并保持全局视野。模型整合归纳偏差,增强图结构建模,且在深层架构中表现稳定。对比14种基线模型,Gradformer在图分类、回归任务中胜出,尤其在NCI1、PROTEINS、MUTAG和CLUSTER数据集上准确率提升明显。此外,它在效率和深层模型处理上也表现出色。尽管依赖MPNN模块和效率优化仍有改进空间,但Gradformer已展现出在图任务的强大潜力。
122 2
|
6月前
|
机器学习/深度学习 自然语言处理 算法
【论文精读】COLING 2022 -带有对偶关系图注意力网络的事件检测模型
【论文精读】COLING 2022 -带有对偶关系图注意力网络的事件检测模型
|
存储 算法 搜索推荐
语义检索系统:基于无监督训练SimCSE+In-batch Negatives策略有监督训练的语义索引召回
语义检索系统:基于无监督训练SimCSE+In-batch Negatives策略有监督训练的语义索引召回
语义检索系统:基于无监督训练SimCSE+In-batch Negatives策略有监督训练的语义索引召回
|
机器学习/深度学习 算法 计算机视觉
用于语义图像分割的弱监督和半监督学习:弱监督期望最大化方法
这篇论文只有图像级标签或边界框标签作为弱/半监督学习的输入。使用期望最大化(EM)方法,用于弱/半监督下的语义分割模型训练。
163 0
|
机器学习/深度学习 编解码 自然语言处理
DAFormer | 使用Transformer进行语义分割无监督域自适应的开篇之作(一)
DAFormer | 使用Transformer进行语义分割无监督域自适应的开篇之作(一)
408 0
|
机器学习/深度学习 数据采集 Oracle
DAFormer | 使用Transformer进行语义分割无监督域自适应的开篇之作(二)
DAFormer | 使用Transformer进行语义分割无监督域自适应的开篇之作(二)
381 0