TMM2023 - FECANet:用特征增强的上下文感知网络增强小样本语义分割

简介: TMM2023 - FECANet:用特征增强的上下文感知网络增强小样本语义分割

【论文速递】TMM2023 - FECANet:用特征增强的上下文感知网络增强小样本语义分割



【论文原文】:FECANet: Boosting Few-Shot Semantic Segmentation with Feature-Enhanced Context-Aware Network


获取地址:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10023953


CSDN下载:https://download.csdn.net/download/qq_36396104/87401747

博主关键词:小样本学习,语义分割,视觉关联

推荐相关论文:

- 无

摘要:


小样本语义分割的任务是学习在只有少量标注支持图像的查询图像中定位新类的每个像素。由于典型的基于原型的方法不能学习细粒度的对应关系,目前基于相关性的方法都是通过构造成对的特征相关性来建立多对多匹配。然而,现有的方法仍然存在朴素关联中包含的噪声和关联中缺乏上下文语义信息的问题。 为了缓解上述问题,我们提出了一个特征增强的上下文感知网络(FECANet)。具体而言,提出了一种特征增强模块,以抑制类间局部相似引起的匹配噪声,增强朴素相关中的类内相关性。此外,我们提出了一种新的相关重建模块,该模块编码了前景和背景之间的额外对应关系以及多尺度上下文语义特征,极大地提高了编码器捕获可靠匹配模式的能力。 在PASCAL-5 i和COCO-20i数据集上的实验表明,我们提出的FECANet与以前的技术相比有了显著的改进,证明了其有效性。源代码和模型已在https://github.com/ NUST-Machine-Intelligence-Laboratory/FECANET上提供。


关键词 -语义分割,小样本学习,小样本语义分割,学习视觉关联。


简介:


语义分割[1]-[6]是现代计算机视觉的重要组成部分,具有许多潜在的应用,从机器人操作[7]到医学图像诊断[8]。随着卷积神经网络[9]-[15]的快速发展,全监督语义图像分割取得了重大进展。然而,最先进的语义分割方法的训练通常需要具有像素级注释的大规模数据集[16]-[18]。对于他们来说,在给出很少的注释训练图像的情况下分割新对象是一个挑战。因此,针对上述新颖的类训练问题,提出了小样本分割[20]-[24]算法,目的是用少量支持图像对未见类的查询图像进行分割。


目前大多数的小样本分割方法[4],[23],[25]-[27]都是对支持特征的前景区域进行全局平均池化,得到原型向量,并利用它们来指导查询图像的分割。由于压缩的原型向量只保留目标类的最明显的信息,这些基于原型的方法将多对多通信简化为一对多匹配问题。特征细节的缺乏阻碍了原型向量与查询图像中的目标对象进行细粒度匹配。因此,多对多关联的解决在探索更好的few-shot语义分割性能方面具有巨大的潜力。 HSNet[28]是最近提出的多对多对应模型,旨在通过分析4D相关空间中的模式关系来学习视觉对应。它构造了多-多相关张量,并用中心轴四维卷积对其进行处理。


尽管HSNet在few-shot分割任务中取得了优异的性能,但其关联构造仍存在一些不足。其 主要缺点是HSNet直接使用骨干网特征生成的朴素初始相关性作为编码器输入。朴素相关可能包含许多类间局部相似性引起的噪声。 这些噪声会误导编码器学习不适当的关系匹配和段背景实例作为目标类的对象。另一方面,由于类内的多样性,同一类的区域会衍生出较低的相关性,从而导致对象发现不完整。HSNet[28]的另一个缺点是超相关缺乏上下文语义信息,这阻碍了编码器学习高级关系匹配。此外,该算法构造的密集相关性对支撑图像中的背景信息进行了过滤,从而忽略了前景与背景之间许多潜在的对应关系。


为了缓解上述问题,我们提出了一个特征增强的上下文感知网络(FECANet)。首先,受[29]和[30]工作的启发,我们提出了一个特征增强模块(FEM),该模块采用了一种新的交叉注意机制,以促进支持特征和查询特征之间的精确模式匹配。 由于直接利用骨干网获得的特征会导致包含类内多样性和类间相似度引起的噪声的朴素相关性,我们提出通过抑制不同类之间的局部相似度和增强同一类之间的全局相似度来增强特征表示 。具体来说,我们将单个特征的自注意机制转化为成对特征的交叉注意机制。我们通过查询(支持)特性与支持(查询)特性的相关性,对支持(查询)特性进行加权,在查询(支持)特性与支持(查询)特性之间进行信息交换,实现信息通信。此外,我们的FEM设计精巧,可训练参数很少,以服务于类别不可知分割的目的,并保持较高的泛化能力。为了完善相关结构,我们探索了编码器捕获可靠匹配模式的有用本质。我们注意到,在基于cnn的描述符中,赋予全局上下文的特征对类内变化更健壮,这有利于编码器准确地分割对象。为此,我们设计了一个由密集积分相关和全局上下文相关生成组成的相关重构模块(CRM)。 具体来说,我们将背景信息保留在支持特征中,并将不同的语义特征聚合在一起,生成包含前景和背景对应关系的密集积分关联。在全局上下文相关生成中,我们采用自相似模块,将局部区域的语义信息编码为向量,生成全局上下文特征图。此外,我们利用一个多尺度引导模块,在多个尺度上融合全局上下文语义特征,以捕获更多样化和复杂的上下文特征。


我们的主要贡献总结如下:


  • 我们提出了一个特征增强模块来过滤受类间相似性和类内多样性影响的相关性噪声。它在空间和通道维度上交换支持特征和查询特征之间的信息,以增强特征的表示。
  • 我们提出了一个相关重建模块,该模块编码了前景和背景之间的额外对应关系以及多尺度上下文语义特征,极大地提高了编码器捕获可靠匹配模式的能力。
  • 与目前的方法相比,在PASCAL-5 i数据集和COCO-20i上进行的大量实验证明了最先进的结果。


本文的其余部分组织如下:第二节和第三节描述了相关工作和初步工作,第四节介绍了我们的方法;然后,我们在第五节中报告了我们对两个广泛使用的用于小样本图像分割任务的数据集的评估;我们在第VI部分报告了消融研究,并在第VII部分最后总结了我们的工作。

9a8e2fe5c4c55e5833713de319386ee5.png


Fig. 1. Overall architecture of the proposed FECANet which consists of three main parts: feature enhancement module, correlation reconstruction module, and Residual 2D decoder. We refer the readers to Section IV for details of the architecture..

相关文章
|
10天前
|
运维 安全 网络安全
|
1月前
|
传感器 物联网 人机交互
物联网:物联网,作为新一代信息技术的重要组成部分,通过智能感知、识别技术与普适计算等通信感知技术,将各种信息传感设备与互联网结合起来而形成的一个巨大网络,实现了物物相连、人物相连,开启了万物互联的新时代。
在21世纪,物联网(IoT)作为新一代信息技术的核心,正以前所未有的速度重塑生活、工作和社会结构。本文首先介绍了物联网的概念及其在各领域的广泛应用,强调其技术融合性、广泛的应用范围以及数据驱动的特点。接着,详细阐述了物联网行业的现状和发展趋势,包括政策支持、关键技术突破和应用场景深化。此外,还探讨了物联网面临的挑战与机遇,并展望了其未来在技术创新和模式创新方面的潜力。物联网行业正以其独特魅力引领科技发展潮流,有望成为推动全球经济发展的新引擎。
|
1月前
|
机器学习/深度学习 人工智能 算法
首个像人类一样思考的网络!Nature子刊:AI模拟人类感知决策
【9月更文挑战第8天】近日,《自然》子刊发表的一篇关于RTNet神经网络的论文引起广泛关注。RTNet能模拟人类感知决策思维,其表现与人类相近,在反应时间和准确率上表现出色。这项研究证明了神经网络可模拟人类思维方式,为人工智能发展带来新启示。尽管存在争议,如是否真正理解人类思维机制以及潜在的伦理问题,但RTNet为人工智能技术突破及理解人类思维机制提供了新途径。论文详细内容见《自然》官网。
47 3
|
2月前
|
算法
基于多路径路由的全局感知网络流量分配优化算法matlab仿真
本文提出一种全局感知网络流量分配优化算法,针对现代网络中多路径路由的需求,旨在均衡分配流量、减轻拥塞并提升吞吐量。算法基于网络模型G(N, M),包含N节点与M连接,并考虑K种不同优先级的流量。通过迭代调整每种流量在各路径上的分配比例,依据带宽利用率um=Σ(xm,k * dk) / cm来优化网络性能,确保高优先级流量的有效传输同时最大化利用网络资源。算法设定收敛条件以避免陷入局部最优解。
|
3月前
|
计算机视觉 网络架构
【YOLOv8改进 - 卷积Conv】DWRSeg:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
YOLO目标检测专栏探讨了YOLO的创新改进,如多尺度特征提取的DWRSeg网络。该网络通过区域残差化和语义残差化提升效率,使用DWR和SIR模块优化高层和低层特征。DWRSeg在Cityscapes和CamVid数据集上表现优秀,速度与准确性兼备。论文和代码已公开。核心代码展示了一个包含DWR模块的卷积层。更多配置详情见相关链接。
|
5月前
|
算法 计算机视觉 网络架构
CVPR 202:擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet
【5月更文挑战第10天】在CVPR 2024会议上,清华大学与博世团队推出MagNet,一种针对复杂场景和语言表达的实例分割网络。MagNet通过Mask Grounding辅助任务强化视觉-语言对应,缩小模态差距,并结合跨模态对齐损失与模块,提升RIS任务的准确性。在RefCOCO、RefCOCO+和G-Ref基准上取得显著优势,但对罕见表达和复杂场景的处理仍有待优化。[论文链接](https://arxiv.org/abs/2312.12198)
159 5
|
5月前
|
监控 安全 网络虚拟化
VLAN分割网络
VLAN是将物理网络划分为逻辑上的虚拟网络,增强安全、和可扩展性,采用模块化或层次化架构。VLAN划分基于组织结构、安全需求和性能,通过限制广播域和配置跨VLAN路由来控制流量。利用动态分配技术如802.1X和虚拟化服务(VRF、VXLAN)提升灵活性。使用集中管理工具和自动化策略简化网络管理,降低错误和成本。
45 2
|
5月前
|
机器学习/深度学习 计算机视觉 网络架构
【FCN】端到端式语义分割的开篇之作! 从中窥探后续语义分割网络的核心模块(一)
【FCN】端到端式语义分割的开篇之作! 从中窥探后续语义分割网络的核心模块(一)
399 0
【FCN】端到端式语义分割的开篇之作! 从中窥探后续语义分割网络的核心模块(一)
|
5月前
|
机器学习/深度学习 编解码 数据可视化
UNet 和 UNet++:医学影像经典分割网络对比
UNet 和 UNet++:医学影像经典分割网络对比
499 0
|
5月前
|
机器学习/深度学习 存储 算法
基于多模态融合与图神经网络的用户精准感知系统研究
基于多模态融合与图神经网络的用户精准感知系统研究
184 0