AAAI 2022 | 在图像级弱监督语义分割这项CV难题上,字节跳动做到了性能显著提升

简介: AAAI 2022 | 在图像级弱监督语义分割这项CV难题上,字节跳动做到了性能显著提升
论文提出了一种面向图像级标签的弱监督语义分割的激活值调制和重校准方案。该方法利用注意力调制模块挖掘面向分割任务的目标区域,通过补偿分支产生的CAM图校准基准的响应图,得到图像的伪标签,该方法在PASCAL VOC2012数据集上获得了SOTA性能。


图像级弱监督语义分割(WSSS)是一项基本但极具挑战性的计算机视觉任务,该任务有助于促进场景理解和自动驾驶领域的发展。现有的技术大多采用基于分类的类激活图(CAM)作为初始的伪标签,这些伪标签往往集中在有判别性的图像区域,缺乏针对于分割任务的定制化特征。

为了解决上述问题,字节跳动 - 智能创作团队提出了一种即插即用的激活值调制和重校准(Activation Modulation and Recalibration 简称 AMR)模块来生成面向分割任务的 CAM,大量的实验表明,AMR 不仅在 PASCAL VOC 2012 数据集上获得最先进的性能。实验表明,AMR 是即插即用的,可以作为其他先进方法的子模块来提高性能。论文已入选机器学习顶级论文 AAAI2022,相关代码即将开源。



论文链接:https://arxiv.org/abs/2112.08996

GitHub 链接:https://github.com/jieqin-ai/AMR


引言

论文提出了一种新颖的激活调制和重校准(AMR)方案,该方案利用聚光灯分支和补偿分支获得加权 CAM,从而提供重校准的监督信号。注意力调制模块(AMM)按照通道 - 空间的顺序重新学习特征重要性的分布,这有助于显式地建模通道相关性和空间编码,以自适应地调制面向分割任务的激活响应。此外,研究者还针对双分支引入了一种交叉伪监督机制,它可以被视为一种语义相似的正则化机制来相互细化两个分支。实验结果表明,该方法可以通过学习大量粗粒度的标注获得良好的分割结果,这对实际应用非常有益。


方法


1、激活调制和重新校准方案 AMR

AMR 是由一个聚光灯分支和一个补偿分支组成的互补的双分支网络结构。具体来说,聚光灯分支用于生成基础的判别性强区域的 CAM,补偿分支用于生成面向分割任务的 CAM,为聚光灯的 CAM 提供互补的监督信号。补偿分支能够挖掘重要却容易被聚光灯分支忽视的区域,生成的补偿 CAM 通过重新校准聚光灯 CAM 来生成最终的加权 CAM:


2、注意力调制模块 AMM

论文提出了注意调制模块(AMM)从通道 - 空间顺序的角度重新排序特征重要性的分布,这有助于显式地建模通道间的相互依赖性和空间编码,以自适应地调节面向分割的激活响应值。AMM 包括通道注意调制和空间注意调制。研究者首先将输入到通道 AMM,通过平均池化和卷积层显式地建模通道的相互依赖性。为了进一步在空间维度上建模内部空间的关系,研究者还引入了一个空间 AMM 来级联通道 AMM。研究者利用高斯调制函数来增强次要特征并抑制最敏感和最不敏感的特征,该函数强调通过次重要的区域来直接提取容易忽略的区域,这对于分割任务至关重要。



3、交叉伪监督损失 CPS

为了充分利用其他分支提供的互补 CAM,研究者在聚光灯 CAM 和补偿 CAM 之间增加一个交叉伪监督损失函数,起到语义相似性正则的作用:


交叉伪监督损失不仅正则化了补偿分支,还将判别性区域和容易忽略的区域彼此拉近。因此可以获得两个互补区域来重新校准初始 CAM。综上所述,AMR 采用最终下述损失函数进行优化:


实验

在 PASCAL VOC2012 数据集上,一方面,AMR 超过了当前图像级弱监督方法,取得了最佳的分割性能。另一方面,AMR 甚至比一些具有更细粒度监督(如显著性监督)的算法获得更好的效果。


可视化结果如下图所示,从结果可以看出两个互补的分支能够关注到不同的响应区域,最终的加权结果能挖掘出更多属于目标对象的区域,从而获得更好的分割性能。

相关文章
|
6月前
|
机器学习/深度学习 编解码 PyTorch
复旦大学提出SemiSAM | 如何使用SAM来增强半监督医学图像分割?这或许是条可行的路
复旦大学提出SemiSAM | 如何使用SAM来增强半监督医学图像分割?这或许是条可行的路
221 0
|
6月前
|
自然语言处理 安全 算法
23REPEAT方法:软工顶会ICSE ‘23 大模型在代码智能领域持续学习 代表性样本重放(选择信息丰富且多样化的示例) + 基于可塑权重巩固EWC的自适应参数正则化 【网安AIGC专题11.22】
23REPEAT方法:软工顶会ICSE ‘23 大模型在代码智能领域持续学习 代表性样本重放(选择信息丰富且多样化的示例) + 基于可塑权重巩固EWC的自适应参数正则化 【网安AIGC专题11.22】
154 0
23REPEAT方法:软工顶会ICSE ‘23 大模型在代码智能领域持续学习 代表性样本重放(选择信息丰富且多样化的示例) + 基于可塑权重巩固EWC的自适应参数正则化 【网安AIGC专题11.22】
|
计算机视觉
大连理工卢湖川团队TMI顶刊新作 | M^2SNet: 新颖多尺度模块 + 智能损失函数 = 通用图像分割SOTA网络
大连理工卢湖川团队TMI顶刊新作 | M^2SNet: 新颖多尺度模块 + 智能损失函数 = 通用图像分割SOTA网络
485 0
|
6月前
|
机器学习/深度学习 人工智能 算法
基于AidLux的工业视觉少样本缺陷检测实战应用---深度学习分割模型UNET的实践部署
  工业视觉在生产和制造中扮演着关键角色,而缺陷检测则是确保产品质量和生产效率的重要环节。工业视觉的前景与发展在于其在生产制造领域的关键作用,尤其是在少样本缺陷检测方面,借助AidLux技术和深度学习分割模型UNET的实践应用,深度学习分割模型UNET的实践部署变得至关重要。
163 1
|
6月前
|
机器学习/深度学习 计算机视觉
【论文速递】ICLR2023 - 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究
【论文速递】ICLR2023 - 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究
108 0
|
机器学习/深度学习 编解码 人工智能
深度学习应用篇-计算机视觉-语义分割综述[6]:DeepLab系列简介、DeepLabV3深入解读创新点、训练策略、主要贡献
深度学习应用篇-计算机视觉-语义分割综述[6]:DeepLab系列简介、DeepLabV3深入解读创新点、训练策略、主要贡献
深度学习应用篇-计算机视觉-语义分割综述[6]:DeepLab系列简介、DeepLabV3深入解读创新点、训练策略、主要贡献
|
机器学习/深度学习 计算机视觉
清华大学提出LiVT,用视觉Transformer学习长尾数据,解决不平衡标注数据不在话下
清华大学提出LiVT,用视觉Transformer学习长尾数据,解决不平衡标注数据不在话下
152 0
|
机器学习/深度学习 人工智能 算法
一文尽览!弱监督语义/实例/全景分割全面调研(2022最新综述)(下)
今天分享一篇上交投稿TPAMI的文章,论文很全面的调研了广义上的弱监督分割算法,又涵盖了语义、实例和全景三个主流的分割任务。特别是基于目标框的弱监督分割算法,未来有很大的研究价值和落地价值,相关算法如BoxInst、DiscoBox和ECCV2022的BoxLevelset已经证明了,只用目标框可以实现可靠的分割性能。论文很赞,内容很扎实,分割方向的同学一定不要错过!
一文尽览!弱监督语义/实例/全景分割全面调研(2022最新综述)(下)
|
机器学习/深度学习 人工智能 算法
一文尽览!弱监督语义/实例/全景分割全面调研(2022最新综述)(上)
今天分享一篇上交投稿TPAMI的文章,论文很全面的调研了广义上的弱监督分割算法,又涵盖了语义、实例和全景三个主流的分割任务。特别是基于目标框的弱监督分割算法,未来有很大的研究价值和落地价值,相关算法如BoxInst、DiscoBox和ECCV2022的BoxLevelset已经证明了,只用目标框可以实现可靠的分割性能。论文很赞,内容很扎实,分割方向的同学一定不要错过!
一文尽览!弱监督语义/实例/全景分割全面调研(2022最新综述)(上)
|
移动开发 计算机视觉
自监督学习如何兼顾语义对齐与空间分辨能力?清华、商汤提出「SIM」方法
自监督学习如何兼顾语义对齐与空间分辨能力?清华、商汤提出「SIM」方法
159 0