ECCV oral|弱监督语义分割SOTA,高效挖掘跨图像的语义关系

简介: 近日,由苏黎世联邦理工学院,商汤研究院和上交清源研究院共同提出的弱监督语义分割,被ECCV2020大会作为Oral论文接收,在CVPR2020 LID Challenge WSSS赛道夺冠并荣获CVPR2020 LID Workshop Best Paper。该研究创新性地提出了两种注意力机制,有效提升了弱监督语义分割效果,在PASCAL数据集上取得了多个SOTA。

微信图片_20220109140430.png


近年来,基于图像标签信息(image-level label)的弱监督语义分割(WSSS)方法主要基于以下步骤:训练图像分类器,通过分类器的CAM获取每张图像在分类中被激活的区域(物体定位图),之后生成伪标签mask作为监督信号训练语义分割模型。

 

这种方法面临的挑战是:CAM生成的物体定位图仅关注物体中最具辨识度的区域,而不是物体整体


最近由苏黎世联邦理工学院等研究机构共同提出的弱监督语义分割为这一问题的解决提供了新的思路。


微信图片_20220109140432.png


本文设计了协同注意力分类器(co-attention classifier),在分类器中引入两种注意力模型来帮助分类器识别更多的物体区域:协同注意力(co-attention)用于帮助分类器识别一对图像之间共同的语义信息(common semantics),而且能够在物体定位图(object localization maps)的推理过程中利用上下文信息对比协同注意力(contrastive co-attention)用于识别一对图像之间不同的语义信息(unshared semantics)。

 

更加注重图像间语义关系的弱监督学习


当前的研究主要关注如何通过改进分类器结构或者利用复杂多轮的训练方式,提升CAM的定位能力。尽管取得了不少进展,但这些工作一般只关注于单张图像的信息(如图1 (a)所示),却忽略了不同图像之间的语义关系。

     

微信图片_20220109140434.png


图1 传统的WSSS方法

 

不同于当前的主流算法,本文通过挖掘图像对(image pairs)之内的语义关系(如图2(b)所示),能够使图像中的物体有更多区域被分类器激活。

 

本文在传统的分类器中引入了两种注意力机制:协同注意力和对比协同注意力。前者帮助分类器发现两张图像之间共同的语义信息,后者帮助分类器关注两张图像之间不同的语义信息。

 

两种注意力机制相互合作并互为补充,使得分类器在学习过程中更加全面的关注图像中的物体

 

除此之外,本文的注意力机制也能在获取物体定位图的过程(如图2 (c)所示)中起作用。在获取某张图像的物体定位图时,通过使用相关的图像(和该图像包含某些相同的语义类别)发现更多的相似物体区域,从而获得更高质量的物体定位图。


微信图片_20220109140436.png


图2 基于协同注意力机制的WSSS方法

 

两种注意力机制,让挖掘语义信息更高效

本文的分类器基于孪生神经网络(Siamese network),作用于图像对,协同注意力模块用于挖掘两张图像中相同的语义信息(Person),而对比协同注意力模块则关注于两张图像中独有的语义信息(Cow和Table)。


       微信图片_20220109140439.png      


图3 本文提出的协同注意力分类器的整体框架和相关可视化中间结果。 


传统分类器:首先,同时输入两张图像,分别经过编码器encoder提取特征,再经全局池化(GAP)和全连接层(FC),得到各自的分类概率。


损失函数以Cross Entropy(CE)计算,可视为传统学习传统分类器的标准操作:


      微信图片_20220109140441.png      


协同注意力机制:在标准分类器的基础之上,将两张图像的特征Fm和Fn输入协同注意力模块,来挖掘两张图像中相同的语义信息,协同注意力矩阵P计算如下:


/

微信图片_20220109140442.png微信图片_20220109140444.png


P包含着两张图像中每两个位置间的相似度。之后通过以下矩阵操作,可以分别得到两张图像的协同注意力特征(co-attention feature):


 微信图片_20220109140446.png      


每张图的协同注意力特征仅包含两张图共有类(人)的语义信息(如上图),因此可以用共同的类 微信图片_20220109140448.png(Person)来监督该特征的学习。损失函数计算如下:


  微信图片_20220109140449.png


 直观而言,对于上图中的例子,通过协同注意力机制,不仅人的脸(最具分辨性的区域),人的其他部位,如手臂和腿,都被co-attention feature highlight出来,这时,分类器根据分类信号 微信图片_20220109140451.png(Person)能够意识到,不仅人的脸和Person这一label相关,其它highlight出来的区域也和Person相关,从而能够将类别标签和更多的物体区域关联起来。 


对比协同注意力机制:利用对比协同注意力分别关注两张图中独有的语义信息。图像In的特有类 微信图片_20220109140453.png是Cow,Im的特有类 微信图片_20220109140457.png是Table。对比协同注意力特征计算如下:


微信图片_20220109140459.png微信图片_20220109140501.png


因为对比协同注意力特征包含着两张图中特有的信息(如上图),分别用两张图中特有的类别来监督对比协同注意力特征的学习。损失函数计算如下:

            微信图片_20220109140503.png


直观而言,对于上图中的例子,通过对比协同注意力机制,两张图像中的共有类(Person)的语义信息被滤掉。


对比协同注意力机制的本质是使共有与非共有信息解耦和。


一方面分类器可以有机会直接关注到两张图像中非共有的物体。


另一方面,如果Cow或Table的一部分也被错误的认为和person相关并被过滤掉了,此时分类器可能难以从剩余的对比协同注意力特征中分辨出Cow或Table。因此,对比协同注意力也以迫使分类器更好的区分不同类别的语义信息。


 损失函数:协同注意力分类器的损失函数是以上三个损失函数之和:

     

  微信图片_20220109140505.png      


 获取物体定位图:不同于以往算法只将单张图像输入到训练好的分类器生成物体定位图。协同注意力分类器训练好后,在生成一张训练图像中的某一个标签类的物体定位图时,同时采集若干张同时具有该类别的图像,分别和该训练图像输入到协同注意力分类器,计算协同注意力特征,并将所产生的对应于该类别的CAM相加平均得到该类的物体定位图。 由此,协同注意力分类器可以利用上下文信息辅助物体定位图的推理 


更深入的机理探讨:从辅助任务学习(auxiliary-task learning)的角度,协同注意力分类器可以理解为在传统的分类任务(识别单张图像的语义信息)之外,引入了两个任务:预测两张图像中共有的以及独有的语义信息,因此给训练分类器提供了更多的监督信号。 从图像协同分割(image co-segmentation)的角度,既然数据集给出了两张图像是否含有相同的类别,那么这一信息也应该被挖掘成为监督信号来训练分类器。 


实验结果:抗干扰好迁移,拿到多个SOTA


以标准设置,在PASCAL VOC 2012上进行实验,结果如下图:

          微信图片_20220109140507.png      

该图中(a),(b),(c)分别对应三种不同的WSSS设置:(a)表示仅使用PASCAL VOC 2012数据集;(b)表示额外使用单标签图像(如ImageNet);(c)表示额外使用网上抓取的数据(Web data)。 


实验结果表明,在三种设置中,本文所提出的方法都得到SOTA效果


 针对单标签图像引入的领域差异(domain gap)的问题,Co-attention矩阵WpF 具备将不同数据源数据映射到统一空间的能力,设置(b)下的实验表明,所提出的方法能有效的处理领域差异。 而网上抓取的数据中不可避免包含很多噪音,因为本文的算法利用多张图像的上下文信息,能够自然的增强分类器的鲁棒性,设置(c)下的实验也清楚地证明了这一点。 


以本文算法为核心的方案,在CVPR2020 LID Challenge的WSSS 赛道,以绝对优势获得冠军


比赛最终结果如下图所示。       


微信图片_20220109140509.png  

 LID2019和LID2020使用相同数据,但LID2019允许使用全监督训练的显著性(saliency)模型来提升结果。可以看到,在LID2020不允许使用额外显著性数据的前提下,本文的性能甚至明显超过了LID2019的冠军 消融实验表明本文提出的协同注意力和对比协同注意力能够有效提高WSSS的性能。      

 微信图片_20220109140510.png      

结论


不同于当前主流算法只关注单一图像中的信息,本文提出利用图像之间丰富的语义关系,有效提升了CAM对物体整体的定位准确度。


主要亮点如下: 


1. 不同于之前细化分类网络或多步骤训练方法,本文在思想上另辟蹊径,设计了协同注意力(co-attention)和对比协同注意力(contrastive co-attention)机制,分别挖掘跨图像的(cross-image)共同语义信息(common semantics)和独有语义信息(unshared semantics),极大提高了CAM定位的准确度。


 2. 协同注意力机制,不仅能在训练过程中促进对物体整体模式的学习,而且能够在物体定位图(object localization maps)的推理过程中利用上下文信息。 


3. 当前的WSSS算法中,除了利用PASCAL数据集标注训练(标准设置),有的工作还利用单标签数据(single-label image),或者使用网上抓取的数据(webly supervised)。但后两者包含了领域迁移和噪声干扰的难题。本文提出的方法利用一个统一的网络架构,可以优雅的解决以上三种设置,并在不同设置中都获得SOTA。 


4. 以本文算法为核心的方案在CVPR2020 LID Challenge WSSS赛道以高出第二名7%IoU的优势夺冠。 


弱监督语义分割近年来受到越来越广泛的关注,虽然和全监督学习语义分割的差距在逐渐缩小,但仍有很大差距。相信随着技术的不断进步,弱监督学习在其他领域的应用也将逐渐铺开。

相关文章
|
机器学习/深度学习 人工智能 自然语言处理
一文尽览 | 开放世界目标检测的近期工作及简析!(基于Captioning/CLIP/伪标签/Prompt)(上)
人类通过自然监督,即探索视觉世界和倾听他人描述情况,学会了毫不费力地识别和定位物体。我们人类对视觉模式的终身学习,并将其与口语词汇联系起来,从而形成了丰富的视觉和语义词汇,不仅可以用于检测物体,还可以用于其他任务,如描述物体和推理其属性和可见性。人类的这种学习模式为我们实现开放世界的目标检测提供了一个可以学习的角度。
一文尽览 | 开放世界目标检测的近期工作及简析!(基于Captioning/CLIP/伪标签/Prompt)(上)
|
12月前
|
机器学习/深度学习 人工智能 自然语言处理
NVIDIA Triton系列13-用 FasterTransformer 和 Triton 加速大型 Transformer 模型的推理
本文介绍了 NVIDIA FasterTransformer 库及其在加速大型 Transformer 模型推理中的应用。FasterTransformer 是一个高效、可扩展的库,支持分布式多 GPU 推理,特别适合处理具有数万亿参数的模型。文章还详细讲解了如何使用 FasterTransformer 和 NVIDIA Triton 推理服务器优化 GPT-J 和 T5 模型的推理性能,包括张量并行、流水线并行等技术。
407 0
NVIDIA Triton系列13-用 FasterTransformer 和 Triton 加速大型 Transformer 模型的推理
|
12月前
|
Windows
该文件没有与之关联的应用来执行该操作。请安装应用,若已经安装应用,请在“默认应用设置“页面中创建关联
【10月更文挑战第22天】当你遇到“该文件没有与之关联的应用来执行该操作”的提示时,通常是因为文件类型未关联应用或文件损坏。解决方法包括:1. 确定文件类型并安装合适的应用程序,如Microsoft Office、Adobe Acrobat Reader等;2. 如果已安装应用,进入系统设置关联文件类型;3. 检查文件完整性,重新下载或验证文件格式。
4968 1
|
IDE Java 程序员
安卓应用开发入门:打造你的第一个“Hello World”
【9月更文挑战第11天】在编程的世界里,每一个初学者的旅程都从一个简单的“Hello World”开始。本文将带领安卓开发的新手们,通过简单直观的方式,一步步构建出自己的第一个安卓应用。我们将探索安卓工作室(Android Studio)的安装、项目的创建,以及如何运行和调试你的应用。无论你是编程新手还是想扩展技能的老手,这篇文章都将为你打开一扇通往安卓世界的大门。
396 8
|
12月前
|
机器学习/深度学习 算法 数据挖掘
CVPR2024 医学图像相关论文
CVPR2024医学图像相关论文汇总,涵盖图像重建、超分、配准、分割、生成、分类、联邦学习、预训练模型、视觉-语言模型及计算病理等多个领域。包括多项创新技术,如QN-Mixer、PrPSeg、MAPSeg等,涉及多个开源项目和代码。持续更新中,欢迎关注。原始GIT地址:https://github.com/MedAIerHHL/CVPR-MIA
1249 0
|
机器学习/深度学习 计算机视觉 网络架构
【YOLOv8改进 - 注意力机制】HCF-Net 之 PPA:并行化注意力设计 | 小目标
YOLO目标检测专栏介绍了HCF-Net,一种用于红外小目标检测的深度学习模型,它通过PPA、DASI和MDCR模块提升性能。PPA利用多分支特征提取和注意力机制,DASI实现自适应特征融合,MDCR通过多层深度可分离卷积细化空间特征。HCF-Net在SIRST数据集上表现出色,超越其他方法。论文和代码分别在[arxiv.org](https://arxiv.org/pdf/2403.10778)和[github.com/zhengshuchen/HCFNet](https://github.com/zhengshuchen/HCFNet)上。YOLOv8的PPA类展示了整合注意力机制的结构
安装VS2015时出现“安装包丢失或损坏”
安装VS2015时出现“安装包丢失或损坏”
|
并行计算 PyTorch 程序员
老程序员分享:Pytorch入门之Siamese网络
老程序员分享:Pytorch入门之Siamese网络
230 0
|
机器学习/深度学习 编解码 监控
【aiy篇】小目标检测综述
【aiy篇】小目标检测综述
821 2
|
算法 API 计算机视觉
【原理解密】多角度、多尺度、多目标的边缘模板匹配
【原理解密】多角度、多尺度、多目标的边缘模板匹配
549 0