【论文速递】ICLR2022 - 语言驱动的语义分割
【论文原文】:LANGUAGE-DRIVEN SEMANTIC SEGMENTATION
【作者信息】:Boyi Li Cornell University, Cornell Tech Kilian Q. Weinberger Cornell University Serge Belongie University of Copenhagen Vladlen Koltun Apple René Ranftl Intel Labs
获取地址:https://arxiv.org/abs/2201.03546
博主关键词: 小样本学习,语义分割,视觉语言模型
推荐相关论文:
【论文速递】ICLR2023 - 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究 - https://blog.csdn.net/qq_36396104/article/details/130353850?spm=1001.2014.3001.5501
摘要:
我们提出了 LSeg,一种用于语言驱动语义图像分割的新型模型。LSeg使用文本编码器计算描述性输入标签(例如“草”或“建筑物”)的嵌入,以及使用基于Transformer的图像编码器来计算输入图像的每像素密集嵌入。图像编码器通过对比度目标训练以将像素嵌入与相应语义类别的文本嵌入对齐。文本嵌入提供了一种灵活的标签表示形式,在这种表示形式中,语义上相似的标签映射到嵌入空间中的相似区域(例如“猫”和“有毛的”)。这使得LSeg能够在测试时推广到以前未见过的类别,而无需重新训练甚至不需要单个额外的训练样本。我们证明了我们的方法在零样本和少样本语义分割方面具有高竞争力的性能,并且即使提供了一个固定的标签集,也可以与传统分割算法的准确性相匹配。代码和演示可在 https://github.com/isl-org/lang-seg 获得。
关键词 -小样本学习,图像分割,Transformer ,文本编码。
简介:
语义分割是计算机视觉中的核心问题,其目标是将图像分割为有着各自语义类别标签的连续区域。目前现有的语义分割方法通常假定可以对像素分配有限的语义类别标签。标签的数量由训练数据集决定,通常涵盖从少至数十个类别(Everingham等,2015)到数百个类别(Zhou等,2019;Mottaghi等,2014)。然而,英语语言定义了数十万个名词(Li等,2020c),限制的标签数量很可能会严重阻碍现有语义分割模型的潜在识别性能。
现有方法中标签数量受限的主要原因是注释图像以产生足够的训练数据的成本。为创建训练数据集,人类注释员必须将数千个图像中的每个像素都与一个语义类别标签相关联,这是一项极其费力且成本高昂的任务,即使只使用少量标签集。随着标签数量的增加,注释的复杂性会显著增加,因为人类注释员必须了解精细的候选标签。此外,当图像中存在适用于多个不同描述或受到标签层次结构支配的对象时,注释员之间的一致性也将成为问题。
为解决这个问题,零样本和小样本的语义分割方法被提出。few-shot方法(Shaban等,2017;Rakelly等,2018;Siam等,2019;Wang等,2019;Zhang等,2019;Nguyen&Todorovic,2019;Liu等,2020b;王等,2020;Tian等,2020;Boudiaf等,2021;Min等,2021)提供了一种只用少量标注图像学习区分新类别的方法。但是,这些方法仍需要包含新类别的标记数据以便进行转移。另一方面,zero-shot方法通常利用单词嵌入来发现或生成已知类和未知类之间的相关特征(Bucher等,2019;Gu等,2020),而无需额外的注释。这个领域的现有作品使用标准单词嵌入(Mikolov等,2013)并关注于图像编码器。
Fig. 1. 示例结果。LSeg 能够处理未见过的标签,以及任意长度和顺序的标签集。这使得能够动态合成zero-shot语义分割模型。从左到右,每次运行中被删除的标签都有下划线标记,而添加的标签则用粗体红色标记。
在本研究中,我们提出一种简单的方法,利用现代语言模型增强语义分割模型的灵活性和普适性。我们的工作受到 CLIP 模型(用于图像分类,Radford等,2021)的启发,该模型将高容量图像和文本编码器配对,以产生健壮的zero-shot分类器。我们建议使用针对视觉数据共同训练的最新文本编码器(例如 CLIP),将训练集中的标签嵌入到嵌入空间中,并训练一个视觉编码器,以便从输入图像中生成与相应标签嵌入接近的每像素嵌入。由于文本编码器被训练,以使密切相关的概念靠近彼此(例如,“狗”比“车辆”更接近“宠物”), 我们可以将文本编码器的灵活性转移到视觉识别模块中,同时仅使用现有语义分割数据集提供的限制标签集进行训练。如图1(最上排)所示的例子,该模型可以成功地标记属于“宠物”类的像素,尽管训练集中没有包含此标签。
我们的方法使得能够动态合成zero-shot语义分割模型。换句话说,用户可以任意地扩展、缩小或重新排列任何图像的标签集。我们还引入了一个输出模块,可以在保持这种灵活性的同时对预测进行空间正则化。我们在图1中展示了我们模型灵活性的一些示例。LSeg 能够基于给定的标签集输出不同的分割图。例如,在最后一行,输出(a)识别了椅子,并将所有非椅子对象标记为“其他”,因为这是模型提供的仅有的两个标签。当添加标签时,如(b)和(c)中所示,模型将能够成功地使用扩展标签集对其他对象进行分割。
我们对各种zero-shot和few-shot语义分割任务进行了定量评估。我们的方法在zero-shot设置中表现优异,并在多个few-shot基准测试中具有竞争力。与我们进行比较的最新基线不同,我们的方法不需要额外的训练样本。我们的实验还表明,与标准的固定标签分割方法相比,引入文本嵌入只会产生微不足道的性能损失。