【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递(8 月 7 日论文合集)

本文涉及的产品
简介: 【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递(8 月 7 日论文合集)

一、分割|语义相关(7篇)

1.1 Convolutions Die Hard: Open-Vocabulary Segmentation with Single Frozen Convolutional CLIP

卷积硬汉:使用单个冻结卷积片段的开放词汇切分
https://arxiv.org/abs/2308.02487
开放式词汇分割是一项具有挑战性的任务,需要从一组开放的类别中分割和识别对象。解决这一挑战的一种方法是利用多模态模型(如CLIP)在共享嵌入空间中提供图像和文本特征,从而弥合封闭词汇和开放词汇识别之间的差距。因此,现有方法通常采用两阶段框架来解决该问题,其中输入首先通过掩码生成器,然后通过CLIP模型以及预测的掩码。这个过程涉及多次从图像中提取特征,这可能是无效和低效的。相比之下,我们建议使用共享的冻结卷积CLIP主干将所有内容构建到单阶段框架中,这不仅显着简化了当前的两阶段流水线,而且还显着产生了更好的精度-成本权衡。所提出的FC-CLIP受益于以下观察结果:冻结的CLIP主干保持开放词汇分类的能力,并且还可以用作强掩码生成器,并且卷积CLIP很好地推广到比在对比图像-文本预训练期间使用的分辨率更大的输入分辨率。当仅对COCO全景数据进行训练并以zero-shot方式进行测试时,FC-CLIP在ADE 20 K上实现26.8 PQ、16.8 AP和34.1 mIoU,在Mapillary Vistas上实现18.2 PQ、27.9 mIoU,在Cityscapes上实现44.0 PQ、26.8 AP、56.2 mIoU,分别在ADE 20 K上实现+4.2 PQ、+2.4 AP、+4.2 mIoU,在Mapillary Vistas上实现+4.0 PQ,在Cityscapes上实现+20.1 PQ。另外,FC-CLIP的训练和测试时间比相同的现有技术显著快7.5倍和6.6倍,同时使用少5.9倍的参数。FC-CLIP还在各种开放词汇语义分割数据集上设置了新的最先进的性能。代码https://github.com/bytedance/fc-clip

1.2 On the Calibration of Uncertainty Estimation in LiDAR-based Semantic Segmentation

基于LiDAR的语义切分中不确定性估计的校正
https://arxiv.org/abs/2308.02248
基于深度学习的感知模型的置信度校准对其可靠性起着至关重要的作用。特别是在自动驾驶的背景下,预测和规划等下游任务取决于准确的置信度估计。在像语义分割这样的逐点多类分类任务中,模型必须处理严重的类不平衡。由于其代表性不足,具有较小实例的类的置信度校准具有挑战性,但不仅出于安全原因,也是必要的。我们提出了一个度量来衡量的信心校准质量的语义分割模型相对于个别类。它是通过计算稀疏曲线的基础上的不确定性估计为每个类。我们使用分类校准度量来评估不确定性估计方法相对于他们的置信度校准的代表性不足的类。此外,我们还建议该方法的双重用途,以自动查找标签问题,以提高手工或自动注释数据集的质量。

1.3 Learning Referring Video Object Segmentation from Weak Annotation

从弱标注中学习参考视频对象分割
https://arxiv.org/abs/2308.02162
参考视频对象分割(RVOS)是一项任务,旨在分割目标对象在所有的视频帧的基础上描述的对象的句子。以前的RVOS方法已经取得了显着的性能与密集注释的数据集,其建设是昂贵的和耗时的。为了减轻数据注释的负担,同时保持足够的监督分割,我们提出了一个新的注释方案,在该方案中,我们标记的帧中的对象第一次出现的掩模,并使用边界框的后续帧。基于这个方案,我们提出了一种方法来学习这个弱注释。具体来说,我们设计了一个跨帧分割方法,它使用语言引导的动态过滤器,彻底利用宝贵的掩码注释和边界框。我们进一步开发了一个双层次的对比学习方法,鼓励模型学习的像素级的歧视性表示。大量的实验和烧蚀分析表明,我们的方法是能够达到竞争性的性能,而不需要密集的掩模注释。该代码将在https://github.com/wangbo-zhao/WRVOS/上获得。

1.4 Rethinking Class Activation Maps for Segmentation: Revealing Semantic Information in Shallow Layers by Reducing Noise

重新思考用于分割的类激活图:通过降低噪声来揭示浅层的语义信息
https://arxiv.org/abs/2308.02118
类激活映射被广泛用于解释深度神经网络。由于其突出感兴趣区域的能力,近年来它已发展成为弱监督学习的关键步骤。类激活映射的性能的主要限制是卷积神经网络的最后一层中的特征映射的小空间分辨率。因此,我们期望生成高分辨率的特征图,从而产生高质量的语义信息。在本文中,我们重新思考浅层特征映射的语义信息的属性。我们发现,浅层特征图仍然具有细粒度的非区分性特征,而混合相当大的非目标噪声。此外,我们提出了一种简单的基于梯度的去噪方法,通过截断正梯度来过滤噪声。我们提出的方案可以很容易地部署在其他CAM相关的方法,促进这些方法,以获得更高质量的类激活地图。我们通过一个弱监督的语义分割任务来评估所提出的方法,大量的实验证明了我们的方法的有效性。

1.5 Multi-interactive Feature Learning and a Full-time Multi-modality Benchmark for Image Fusion and Segmentation

多交互特征学习和全时多通道图像融合与分割基准
https://arxiv.org/abs/2308.02097
多模态图像融合和分割在自动驾驶和机器人操作中起着至关重要的作用。早期的努力集中在提高一个任务的性能,\n {例如,}融合或分割,使其难以达到“两全其美”。为了克服这个问题,在本文中,我们提出了一个\textbf{M}ulti-\textbf{i} interactive\textbf{F}特征学习架构,用于图像融合和\textbf{Seg}mentation,即SegMiF,并利用双任务相关性来提高这两个任务的性能。SegMiF为级联结构,包含融合子网络和常用分割子网络。通过巧妙地桥接两个组件之间的中间特征,从分割任务中学习到的知识可以有效地辅助融合任务。此外,受益的融合网络支持分割一个执行更自命不凡。此外,一个分层的交互式注意力块的建立,以确保两个任务之间的所有重要信息的细粒度映射,使模态/语义特征可以充分的相互作用。此外,引入动态权值因子,自动调整各任务对应的权值,平衡交互特征对应关系,突破费力调优的局限。此外,我们构建了一个智能的多波双目成像系统,并收集了一个全职的多模态基准与15注释像素级类别的图像融合和分割。在几个公共数据集和我们的基准上进行的大量实验表明,所提出的方法输出视觉上吸引人的融合图像,并在现实世界的场景中比最先进的方法平均执行$7.66\%$更高的分割mIoU。源代码和基准测试可在\url{https://github.com/JinyuanLiu-CV/SegMiF}获得。

1.6 UGainS: Uncertainty Guided Anomaly Instance Segmentation

UGainS:不确定性引导的异常实例分割
https://arxiv.org/abs/2308.02046
道路上的一个意外物体可能导致事故或可能导致受伤。为了防止这种情况,我们需要一种可靠的机制来发现道路上的异常物体。这项被称为异常分割的任务可以成为安全可靠的自动驾驶的垫脚石。当前的方法通过向每个像素分配异常分数并且通过使用简单的启发式对异常区域进行分组来解决异常分割。然而,像素分组是一个限制因素,当它来评估个别异常对象的分割性能。为了解决将多个异常实例分组为一个的问题,我们提出了一种产生准确的异常实例掩码的方法。我们的方法集中在一个分布的分割模型,用于识别不确定的区域和一个强大的通才分割模型的异常实例分割。我们研究如何使用不确定的区域来指导这样的分割模型来执行异常实例的分割。通过将强大的对象先验从一个通才模型,我们还提高了每像素的异常分割性能。我们的方法优于当前的像素级异常分割方法,分别在Fishyscapes Lost and Found和RoadAnomaly验证集上实现了80.08%和88.98%的AP。项目页面:https://vision.rwth-aachen.de/ugains

相关实践学习
基于函数计算一键部署掌上游戏机
本场景介绍如何使用阿里云计算服务命令快速搭建一个掌上游戏机。
建立 Serverless 思维
本课程包括: Serverless 应用引擎的概念, 为开发者带来的实际价值, 以及让您了解常见的 Serverless 架构模式
相关文章
|
2天前
|
机器学习/深度学习 编解码 资源调度
2024年3月的计算机视觉论文推荐
从去年开始,针对LLM的研究成为了大家关注的焦点。但是其实针对于计算机视觉的研究领域也在快速的发展。每周都有计算机视觉领域的创新研究,包括图像识别、视觉模型优化、生成对抗网络(gan)、图像分割、视频分析等。
46 0
|
2天前
|
机器学习/深度学习 自然语言处理 算法
2024年4月计算机视觉论文推荐
四月的计算机视觉研究涵盖多个子领域,包括扩散模型和视觉语言模型。在扩散模型中,Tango 2通过直接偏好优化改进了文本到音频生成,而Ctrl-Adapter提出了一种有效且通用的框架,用于在图像和视频扩散模型中添加多样控制。视觉语言模型的论文分析了CLIP模型在有限资源下的优化,并探讨了语言引导对低级视觉任务的鲁棒性。图像生成与编辑领域关注3D感知和高质量图像编辑,而视频理解与生成则涉及实时视频转游戏环境和文本引导的剪贴画动画。
43 0
|
9月前
|
机器学习/深度学习 算法 计算机视觉
【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递(8 月 14 日论文合集)
【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递(8 月 14 日论文合集)
|
2天前
|
算法 数据库 计算机视觉
【计算机视觉】FCN、Seg-Net、U-Net模型进行图像分割实战(附源码和数据集 超详细必看)
【计算机视觉】FCN、Seg-Net、U-Net模型进行图像分割实战(附源码和数据集 超详细必看)
89 2
|
2天前
|
机器学习/深度学习 算法 计算机视觉
【计算机视觉】图像分割中FCN、DeepLab、SegNet、U-Net、Mask R-CNN等算法的讲解(图文解释 超详细)
【计算机视觉】图像分割中FCN、DeepLab、SegNet、U-Net、Mask R-CNN等算法的讲解(图文解释 超详细)
67 0
|
9月前
|
机器学习/深度学习 算法 数据可视化
【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递(8 月 14 日论文合集)
【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递(8 月 14 日论文合集)
|
2天前
|
机器学习/深度学习 计算机视觉
AIGC核心技术——计算机视觉(CV)预训练大模型
【1月更文挑战第13天】AIGC核心技术——计算机视觉(CV)预训练大模型
401 3
AIGC核心技术——计算机视觉(CV)预训练大模型
|
5月前
|
机器学习/深度学习 PyTorch 算法框架/工具
Azure 机器学习 - 使用 ONNX 对来自 AutoML 的计算机视觉模型进行预测
Azure 机器学习 - 使用 ONNX 对来自 AutoML 的计算机视觉模型进行预测
69 0
|
2天前
|
机器学习/深度学习 编解码 人工智能
Vision Mamba:将Mamba应用于计算机视觉任务的新模型
Mamba是LLM的一种新架构,与Transformers等传统模型相比,它能够更有效地处理长序列。就像VIT一样现在已经有人将他应用到了计算机视觉领域,让我们来看看最近的这篇论文“Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Models,”
283 7
|
2天前
|
机器学习/深度学习 人工智能 计算机视觉
生成式计算机视觉(CV)模型的发展历程及最新进展
在计算机视觉(CV)领域,生成式AI技术的发展经历了多个阶段。在深度学习革命之前,传统的图像生成技术主要依赖于手工制作的特征,如纹理合成和纹理映射等方法。然而,这些方法在生成复杂和生动的图像方面的能力是有限的。
157 2

热门文章

最新文章