【论文速递】ICLR2022 - 语言驱动的语义分割

简介: 【论文速递】ICLR2022 - 语言驱动的语义分割

【论文速递】ICLR2022 - 语言驱动的语义分割

【论文原文】:LANGUAGE-DRIVEN SEMANTIC SEGMENTATION

作者信息】:Boyi Li Cornell University, Cornell Tech Kilian Q. Weinberger Cornell University Serge Belongie University of Copenhagen Vladlen Koltun Apple René Ranftl Intel Labs

获取地址:https://arxiv.org/abs/2201.03546

博主关键词: 小样本学习,语义分割,视觉语言模型

推荐相关论文:

【论文速递】ICLR2023 - 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究
- https://blog.csdn.net/qq_36396104/article/details/130353850?spm=1001.2014.3001.5501

摘要:

我们提出了 LSeg,一种用于语言驱动语义图像分割的新型模型。LSeg使用文本编码器计算描述性输入标签(例如“草”或“建筑物”)的嵌入,以及使用基于Transformer的图像编码器来计算输入图像的每像素密集嵌入。图像编码器通过对比度目标训练以将像素嵌入与相应语义类别的文本嵌入对齐。文本嵌入提供了一种灵活的标签表示形式,在这种表示形式中,语义上相似的标签映射到嵌入空间中的相似区域(例如“猫”和“有毛的”)。这使得LSeg能够在测试时推广到以前未见过的类别,而无需重新训练甚至不需要单个额外的训练样本。我们证明了我们的方法在零样本和少样本语义分割方面具有高竞争力的性能,并且即使提供了一个固定的标签集,也可以与传统分割算法的准确性相匹配。代码和演示可在 https://github.com/isl-org/lang-seg 获得。

关键词 -小样本学习,图像分割,Transformer ,文本编码。

简介:

语义分割是计算机视觉中的核心问题,其目标是将图像分割为有着各自语义类别标签的连续区域。目前现有的语义分割方法通常假定可以对像素分配有限的语义类别标签。标签的数量由训练数据集决定,通常涵盖从少至数十个类别(Everingham等,2015)到数百个类别(Zhou等,2019;Mottaghi等,2014)。然而,英语语言定义了数十万个名词(Li等,2020c),限制的标签数量很可能会严重阻碍现有语义分割模型的潜在识别性能。

现有方法中标签数量受限的主要原因是注释图像以产生足够的训练数据的成本。为创建训练数据集,人类注释员必须将数千个图像中的每个像素都与一个语义类别标签相关联,这是一项极其费力且成本高昂的任务,即使只使用少量标签集。随着标签数量的增加,注释的复杂性会显著增加,因为人类注释员必须了解精细的候选标签。此外,当图像中存在适用于多个不同描述或受到标签层次结构支配的对象时,注释员之间的一致性也将成为问题。

为解决这个问题,零样本和小样本的语义分割方法被提出。few-shot方法(Shaban等,2017;Rakelly等,2018;Siam等,2019;Wang等,2019;Zhang等,2019;Nguyen&Todorovic,2019;Liu等,2020b;王等,2020;Tian等,2020;Boudiaf等,2021;Min等,2021)提供了一种只用少量标注图像学习区分新类别的方法。但是,这些方法仍需要包含新类别的标记数据以便进行转移。另一方面,zero-shot方法通常利用单词嵌入来发现或生成已知类和未知类之间的相关特征(Bucher等,2019;Gu等,2020),而无需额外的注释。这个领域的现有作品使用标准单词嵌入(Mikolov等,2013)并关注于图像编码器。

Fig. 1. 示例结果。LSeg 能够处理未见过的标签,以及任意长度和顺序的标签集。这使得能够动态合成zero-shot语义分割模型。从左到右,每次运行中被删除的标签都有下划线标记,而添加的标签则用粗体红色标记。

在本研究中,我们提出一种简单的方法,利用现代语言模型增强语义分割模型的灵活性和普适性。我们的工作受到 CLIP 模型(用于图像分类,Radford等,2021)的启发,该模型将高容量图像和文本编码器配对,以产生健壮的zero-shot分类器。我们建议使用针对视觉数据共同训练的最新文本编码器(例如 CLIP),将训练集中的标签嵌入到嵌入空间中,并训练一个视觉编码器,以便从输入图像中生成与相应标签嵌入接近的每像素嵌入。由于文本编码器被训练,以使密切相关的概念靠近彼此(例如,“狗”比“车辆”更接近“宠物”), 我们可以将文本编码器的灵活性转移到视觉识别模块中,同时仅使用现有语义分割数据集提供的限制标签集进行训练。如图1(最上排)所示的例子,该模型可以成功地标记属于“宠物”类的像素,尽管训练集中没有包含此标签。

我们的方法使得能够动态合成zero-shot语义分割模型。换句话说,用户可以任意地扩展、缩小或重新排列任何图像的标签集。我们还引入了一个输出模块,可以在保持这种灵活性的同时对预测进行空间正则化。我们在图1中展示了我们模型灵活性的一些示例。LSeg 能够基于给定的标签集输出不同的分割图。例如,在最后一行,输出(a)识别了椅子,并将所有非椅子对象标记为“其他”,因为这是模型提供的仅有的两个标签。当添加标签时,如(b)和(c)中所示,模型将能够成功地使用扩展标签集对其他对象进行分割。

我们对各种zero-shot和few-shot语义分割任务进行了定量评估。我们的方法在zero-shot设置中表现优异,并在多个few-shot基准测试中具有竞争力。与我们进行比较的最新基线不同,我们的方法不需要额外的训练样本。我们的实验还表明,与标准的固定标签分割方法相比,引入文本嵌入只会产生微不足道的性能损失。


目录
相关文章
|
缓存 监控 数据可视化
linux查看内存信息
在Linux中检查内存使用:`free -h`或`-m`显示简洁内存统计;`cat /proc/meminfo`获取详细信息;`top`或`htop`(如果安装)实时监控进程内存占用;`vmstat`查看虚拟内存统计;`sar -r`(需要sysstat)报告系统内存活动。图形工具如Gnome System Monitor提供可视化界面。
592 4
|
机器学习/深度学习 数据采集 计算机视觉
深度学习之缺失数据的图像修复
基于深度学习的缺失数据图像修复是一种通过深度学习技术填补图像中缺失或损坏部分的过程。这种技术在图像处理领域具有重要意义,能够改善图像的视觉质量,并在许多实际应用中发挥作用,如图像恢复、视频编辑和图像生成等。
326 4
|
存储 传感器 监控
物联网:物联网卡为什么没有语音功能
物联网卡(IoT SIM卡)主要是为物联网设备设计的,这些设备包括但不限于智能城市传感器、可穿戴设备、工业监控设备、车联网设备等。与普通的消费者SIM卡相比,物联网卡在功能和设计上存在一些显著的区别,其中不包括语音功能是其重要特点之一。以下是物联网卡没有语音功能的几个主要原因:
|
10月前
|
弹性计算 数据挖掘 测试技术
ECS e实例测评
ECS e实例是阿里云推出的经济型云服务器,适合中小规模应用。性能上能满足基本需求,但在高并发场景下表现一般。性价比高,价格亲民,适合预算有限的开发者。用户体验良好,配有丰富的技术文档,但部分高级功能操作说明有待优化。
183 18
|
监控 安全 Linux
撒旦快速入门实战2
撒旦快速入门实战2
|
机器学习/深度学习 数据采集 自然语言处理
注意力机制中三种掩码技术详解和Pytorch实现
**注意力机制中的掩码在深度学习中至关重要,如Transformer模型所用。掩码类型包括:填充掩码(忽略填充数据)、序列掩码(控制信息流)和前瞻掩码(自回归模型防止窥视未来信息)。通过创建不同掩码,如上三角矩阵,模型能正确处理变长序列并保持序列依赖性。在注意力计算中,掩码修改得分,确保模型学习的有效性。这些技术在现代NLP和序列任务中是核心组件。**
1025 12
|
JavaScript 前端开发 测试技术
动态组件化的优缺点是什么
【9月更文挑战第2天】动态组件化的优缺点是什么
225 5
|
敏捷开发 弹性计算 持续交付
阿里云云效产品使用合集之同一个主机部署是否支持下载多个制品
云效作为一款全面覆盖研发全生命周期管理的云端效能平台,致力于帮助企业实现高效协同、敏捷研发和持续交付。本合集收集整理了用户在使用云效过程中遇到的常见问题,问题涉及项目创建与管理、需求规划与迭代、代码托管与版本控制、自动化测试、持续集成与发布等方面。
|
算法 安全 程序员
揭秘分布式系统:日志复制如何保障数据一致性?
本文介绍了分布式系统中的日志复制技术,这是保证高可用性和数据一致性的重要手段。以Raft算法为例,文章阐述了Leader如何将客户端请求复制到Follower的日志中:Leader首先记录请求,然后通过RPC发送给Follower,等待ACK确认,必要时进行重试。当多数Follower确认后,Leader提交日志并通知Follower。文中还提到了网络分区和日志一致性等挑战,以及应对策略,如超时机制、领导选举、日志匹配和压缩。最后,强调了日志复制在面对故障时确保系统一致性和可用性的作用。
441 4
|
前端开发 搜索推荐 关系型数据库
分享32个Python管理系统源代码总有一个是你想要的
分享32个Python管理系统源代码总有一个是你想要的
520 1