【论文速递】ICLR2022 - 语言驱动的语义分割

简介: 【论文速递】ICLR2022 - 语言驱动的语义分割

【论文速递】ICLR2022 - 语言驱动的语义分割

【论文原文】:LANGUAGE-DRIVEN SEMANTIC SEGMENTATION

作者信息】:Boyi Li Cornell University, Cornell Tech Kilian Q. Weinberger Cornell University Serge Belongie University of Copenhagen Vladlen Koltun Apple René Ranftl Intel Labs

获取地址:https://arxiv.org/abs/2201.03546

博主关键词: 小样本学习,语义分割,视觉语言模型

推荐相关论文:

【论文速递】ICLR2023 - 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究
- https://blog.csdn.net/qq_36396104/article/details/130353850?spm=1001.2014.3001.5501

摘要:

我们提出了 LSeg,一种用于语言驱动语义图像分割的新型模型。LSeg使用文本编码器计算描述性输入标签(例如“草”或“建筑物”)的嵌入,以及使用基于Transformer的图像编码器来计算输入图像的每像素密集嵌入。图像编码器通过对比度目标训练以将像素嵌入与相应语义类别的文本嵌入对齐。文本嵌入提供了一种灵活的标签表示形式,在这种表示形式中,语义上相似的标签映射到嵌入空间中的相似区域(例如“猫”和“有毛的”)。这使得LSeg能够在测试时推广到以前未见过的类别,而无需重新训练甚至不需要单个额外的训练样本。我们证明了我们的方法在零样本和少样本语义分割方面具有高竞争力的性能,并且即使提供了一个固定的标签集,也可以与传统分割算法的准确性相匹配。代码和演示可在 https://github.com/isl-org/lang-seg 获得。

关键词 -小样本学习,图像分割,Transformer ,文本编码。

简介:

语义分割是计算机视觉中的核心问题,其目标是将图像分割为有着各自语义类别标签的连续区域。目前现有的语义分割方法通常假定可以对像素分配有限的语义类别标签。标签的数量由训练数据集决定,通常涵盖从少至数十个类别(Everingham等,2015)到数百个类别(Zhou等,2019;Mottaghi等,2014)。然而,英语语言定义了数十万个名词(Li等,2020c),限制的标签数量很可能会严重阻碍现有语义分割模型的潜在识别性能。

现有方法中标签数量受限的主要原因是注释图像以产生足够的训练数据的成本。为创建训练数据集,人类注释员必须将数千个图像中的每个像素都与一个语义类别标签相关联,这是一项极其费力且成本高昂的任务,即使只使用少量标签集。随着标签数量的增加,注释的复杂性会显著增加,因为人类注释员必须了解精细的候选标签。此外,当图像中存在适用于多个不同描述或受到标签层次结构支配的对象时,注释员之间的一致性也将成为问题。

为解决这个问题,零样本和小样本的语义分割方法被提出。few-shot方法(Shaban等,2017;Rakelly等,2018;Siam等,2019;Wang等,2019;Zhang等,2019;Nguyen&Todorovic,2019;Liu等,2020b;王等,2020;Tian等,2020;Boudiaf等,2021;Min等,2021)提供了一种只用少量标注图像学习区分新类别的方法。但是,这些方法仍需要包含新类别的标记数据以便进行转移。另一方面,zero-shot方法通常利用单词嵌入来发现或生成已知类和未知类之间的相关特征(Bucher等,2019;Gu等,2020),而无需额外的注释。这个领域的现有作品使用标准单词嵌入(Mikolov等,2013)并关注于图像编码器。

Fig. 1. 示例结果。LSeg 能够处理未见过的标签,以及任意长度和顺序的标签集。这使得能够动态合成zero-shot语义分割模型。从左到右,每次运行中被删除的标签都有下划线标记,而添加的标签则用粗体红色标记。

在本研究中,我们提出一种简单的方法,利用现代语言模型增强语义分割模型的灵活性和普适性。我们的工作受到 CLIP 模型(用于图像分类,Radford等,2021)的启发,该模型将高容量图像和文本编码器配对,以产生健壮的zero-shot分类器。我们建议使用针对视觉数据共同训练的最新文本编码器(例如 CLIP),将训练集中的标签嵌入到嵌入空间中,并训练一个视觉编码器,以便从输入图像中生成与相应标签嵌入接近的每像素嵌入。由于文本编码器被训练,以使密切相关的概念靠近彼此(例如,“狗”比“车辆”更接近“宠物”), 我们可以将文本编码器的灵活性转移到视觉识别模块中,同时仅使用现有语义分割数据集提供的限制标签集进行训练。如图1(最上排)所示的例子,该模型可以成功地标记属于“宠物”类的像素,尽管训练集中没有包含此标签。

我们的方法使得能够动态合成zero-shot语义分割模型。换句话说,用户可以任意地扩展、缩小或重新排列任何图像的标签集。我们还引入了一个输出模块,可以在保持这种灵活性的同时对预测进行空间正则化。我们在图1中展示了我们模型灵活性的一些示例。LSeg 能够基于给定的标签集输出不同的分割图。例如,在最后一行,输出(a)识别了椅子,并将所有非椅子对象标记为“其他”,因为这是模型提供的仅有的两个标签。当添加标签时,如(b)和(c)中所示,模型将能够成功地使用扩展标签集对其他对象进行分割。

我们对各种zero-shot和few-shot语义分割任务进行了定量评估。我们的方法在zero-shot设置中表现优异,并在多个few-shot基准测试中具有竞争力。与我们进行比较的最新基线不同,我们的方法不需要额外的训练样本。我们的实验还表明,与标准的固定标签分割方法相比,引入文本嵌入只会产生微不足道的性能损失。


目录
相关文章
|
7月前
【论文速递】ICLR2018 - 用于小样本语义分割的条件网络
【论文速递】ICLR2018 - 用于小样本语义分割的条件网络
91 0
|
存储 自然语言处理 测试技术
【论文速递】COLING 2022 - 联合语言语义和结构嵌入用于知识图补全
补全知识三元组的任务具有广泛的下游应用。结构信息和语义信息在知识图补全中都起着重要作用。与以往依赖知识图谱的结构或语义的方法不同
254 0
|
7月前
|
机器学习/深度学习 编解码 自然语言处理
一文综述 | 万字文总结,近几年都有哪些语义分割模型用了Transformer方法呢?
一文综述 | 万字文总结,近几年都有哪些语义分割模型用了Transformer方法呢?
547 0
|
7月前
|
存储 算法 自动驾驶
【论文速递】CVPR2022 - 用于语义分割的跨图像关系知识蒸馏
【论文速递】CVPR2022 - 用于语义分割的跨图像关系知识蒸馏
|
7月前
|
编解码 算法 测试技术
【论文精读】ICLR2022 - 语言驱动的语义分割
【论文精读】ICLR2022 - 语言驱动的语义分割
|
7月前
|
机器学习/深度学习 计算机视觉
【论文速递】PR2023 - 基于自正则原型网络的小样本语义分割
【论文速递】PR2023 - 基于自正则原型网络的小样本语义分割
|
机器学习/深度学习 算法 数据挖掘
NeurIPS 2022 Spotlight|生成式语义分割新范式GMMSeg,可同时处理闭集和开集识别
NeurIPS 2022 Spotlight|生成式语义分割新范式GMMSeg,可同时处理闭集和开集识别
NeurIPS 2022 Spotlight|生成式语义分割新范式GMMSeg,可同时处理闭集和开集识别
|
自然语言处理 数据挖掘 语音技术
INTERSPEECH 论文解读〡口语语言处理的音素与文本融合技术及区分式自训练技术
INTERSPEECH 是由国际语音通讯协会(International Speech Communication Association, ISCA)创办的语音信号处理领域顶级旗舰国际会议。历届 INTERSPEECH 会议都备受全球各地语音语言领域人士的广泛关注。 本文介绍我们在 INTERSPEECH 2021 发表的两篇论文工作:一种在预训练 (pre-training) 和微调 (fine-tuning) 中融合音素和文本信息的技术,提升下游 SLP 任务对于 ASR 错误的鲁棒性,以及一种区分式自训练技术 (discriminative self-training) ,减缓对于有
168 0
INTERSPEECH 论文解读〡口语语言处理的音素与文本融合技术及区分式自训练技术
|
机器学习/深度学习 人工智能 算法
CVPR 2023 | 一键去除视频闪烁,该研究提出了一个通用框架
CVPR 2023 | 一键去除视频闪烁,该研究提出了一个通用框架
226 0
|
数据可视化 计算机视觉
CVPR2021 | 重新思考BiSeNet让语义分割模型速度起飞(文末获取论文)(二)
CVPR2021 | 重新思考BiSeNet让语义分割模型速度起飞(文末获取论文)(二)
134 0