【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递(8 月 9 日论文合集)

简介: 【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递(8 月 9 日论文合集)

一、分割|语义相关(7篇)

1.1 Learning Unbiased Image Segmentation: A Case Study with Plain Knee Radiographs

学习无偏图像分割:以膝关节平片为例
https://arxiv.org/abs/2308.04356
膝关节骨性解剖结构的自动分割在骨科中是必不可少的,并且在术前和术后设置中已经存在了几年。虽然深度学习算法在医学图像分析中表现出卓越的性能,但对这些模型中的公平性和潜在偏差的评估仍然有限。本研究旨在使用普通X光片重新审视深度学习驱动的膝关节骨骼解剖分割,以发现可见的性别和种族偏见。目前的贡献提供了潜在的,以促进我们对偏见的理解,它提供了实际的见解,为研究人员和从业人员在医学成像。所提出的缓解策略减轻了性别和种族偏见,确保公平和公正的分割结果。此外,这项工作促进了不同患者群体平等获得准确诊断和治疗结果,促进了公平和包容性的医疗保健服务。

1.2 All-pairs Consistency Learning for Weakly Supervised Semantic Segmentation

弱监督语义分割的全对一致性学习
https://arxiv.org/abs/2308.04321
在这项工作中,我们提出了一个新的基于变换的正则化,以更好地本地化弱监督语义分割(WSSS)的对象。在图像级WSSS中,采用类激活图(CAM)来生成对象定位作为伪分割标签。为了解决CAM的部分激活问题,采用一致性正则化来维持跨各种图像增强的激活强度不变性。然而,这样的方法忽略了每个CAM内的区域之间的成对关系,其捕获上下文并且在图像视图中也应该是不变的。为此,我们提出了一个新的所有对一致性正则化(ACR)。给定一对增强视图,我们的方法使一对增强视图之间的激活强度正规化,同时还确保每个视图内跨区域的亲和力保持一致。我们采用Vision Transformers作为自我注意力机制,自然嵌入成对的亲和力。这使我们能够简单地正则化增强图像对的注意矩阵之间的距离。此外,我们引入了一种新的类明智的本地化方法,利用梯度的类令牌。我们的方法可以无缝集成到现有的WSSS方法使用Transformers,而无需修改架构。我们评估我们的方法PASCAL VOC和MS COCO数据集。我们的方法产生了明显更好的类本地化地图(67.3% mIoU PASCAL VOC训练),从而导致卓越的WSSS性能。

1.3 Vehicle Motion Forecasting using Prior Information and Semantic-assisted Occupancy Grid Maps

基于先验信息和语义辅助乘员网格地图的车辆运动预测
https://arxiv.org/abs/2308.04303
由于传感器数据的不确定性、未来的不确定性以及智能体的复杂行为,运动预测对于自动驾驶车辆来说是一项具有挑战性的任务。在本文中,我们解决了这个问题,通过表示动态占用网格地图(DOGMs)的场景,语义标签相关联的被占领的细胞,并将地图信息。我们提出了一个新的框架,结合基于深度学习的时空和概率方法来预测车辆行为。与传统的OGM预测方法相反,我们的工作是根据地面实况注释进行评估的。我们在真实世界的NuScenes数据集上进行了实验和验证,结果表明,与OGM预测相比,我们的模型在预测静态和动态车辆方面表现出卓越的能力。此外,我们进行了消融研究,并评估语义标签和地图的架构中的作用。

1.4 MindDiffuser: Controlled Image Reconstruction from Human Brain Activity with Semantic and Structural Diffusion

MindDiffer:基于语义扩散和结构扩散的受控人脑活动图像重建
https://arxiv.org/abs/2308.04249
从大脑记录中重建视觉刺激一直是一项有意义且具有挑战性的任务。尤其是精确可控的图像重建技术的实现,对于推动脑-机接口技术的发展和应用具有重要意义。尽管在复杂的图像重建技术的进步,挑战仍然存在于实现语义(概念和对象)和结构(位置,方向和大小)与图像刺激的内聚对齐。为了解决上述问题,我们提出了一个两阶段的图像重建模型称为MindDiffuser。在阶段1中,VQ-VAE潜在表示和从fMRI解码的CLIP文本嵌入被放入稳定扩散,这产生包含语义信息的初步图像。在第二阶段,我们利用从fMRI解码的CLIP视觉特征作为监督信息,并通过反向传播不断调整在第一阶段解码的两个特征向量,以对齐结构信息。定性和定量分析的结果表明,我们的模型已经超过了目前国家的最先进的自然场景数据集(NSD)的模型。随后的实验结果证实了该模型的神经生物学合理性,所采用的多模态特征的可解释性证明了这一点,这与相应的大脑反应一致。

1.5 AICSD: Adaptive Inter-Class Similarity Distillation for Semantic Segmentation

AICSD:用于语义分割的自适应类间相似度抽取
https://arxiv.org/abs/2308.04243
近年来,深度神经网络在计算机视觉任务中取得了显着的准确性。由于推理时间是一个关键因素,特别是在语义分割等密集预测任务中,知识蒸馏已成为提高轻量级学生网络准确性的成功技术。现有的方法往往忽略了通道内和不同类别之间的信息。为了克服这些局限性,本文提出了一种新的方法称为类间相似蒸馏(ICSD)的知识蒸馏的目的。所提出的方法转移高阶关系从教师网络到学生网络,通过独立计算每个类的类内分布从网络输出。这之后是通过使用每对类的分布之间的KL散度来计算用于蒸馏的类间相似性矩阵。为了进一步提高该方法的有效性,提出了一种自适应损失加权(ALW)训练策略。与现有的方法不同,ALW策略逐渐减少教师网络的影响,对训练过程的结束,占教师的预测错误。在两个著名的语义分割数据集Cityscapes和Pascal VOC 2012上进行了大量实验,验证了所提出的方法在mIoU和像素精度方面的有效性。所提出的方法优于大多数现有的知识蒸馏方法所证明的定量和定性评价。代码可在:https://github.com/AmirMansurian/AICSD

1.6 AquaSAM: Underwater Image Foreground Segmentation

AquaSAM:水下图像前景分割
https://arxiv.org/abs/2308.04218
分段任意模型(Segment Anything Model,SAM)是自然图像分割的一个革命性的方法,但其在水下图像分割中的应用仍受到限制。这项工作提出了AquaSAM,第一次尝试扩展SAM的成功,水下图像的目的是创建一个多功能的方法,用于分割各种水下目标。为了实现这一点,我们开始分类和提取各种标签自动SUIM数据集。随后,我们开发了一个简单的微调方法,以适应SAM一般前景水下图像分割。通过广泛的实验,涉及8个分割任务,如人类潜水员,我们证明了AquaSAM优于默认的SAM模型,特别是在硬任务,如珊瑚礁。AquaSAM在水下分割任务中实现了平均7.13(%)的Dice相似系数(DSC)改进和平均8.27(%)的mIoU改进。

1.7 PAIF: Perception-Aware Infrared-Visible Image Fusion for Attack-Tolerant Semantic Segmentation

PAIF:感知红外-可见光图像融合的攻击容忍语义分割
https://arxiv.org/abs/2308.03979
红外和可见光图像融合是一种功能强大的技术,它结合了来自不同模态的互补信息,用于下游的语义感知任务。现有的基于学习的方法表现出显着的性能,但遭受对抗性攻击的固有脆弱性,导致准确性显着下降。在这项工作中,提出了一个感知感知的融合框架,以促进分割的鲁棒性在对抗性的场景。我们首先进行系统的分析,图像融合的组件,调查的相关性与分割的鲁棒性对抗扰动。基于这些分析,我们提出了一个协调的架构搜索与基于分解的结构,以平衡标准的准确性和鲁棒性。我们还提出了一种自适应学习策略,以提高图像融合的参数鲁棒性,它可以学习有效的特征提取在不同的对抗扰动。因此,图像融合的目标(\textit{即,}从源模态中提取互补特征和防御攻击)可以从体系结构和学习策略的角度来实现。大量的实验结果表明,我们的计划大大提高了鲁棒性,与先进的竞争对手相比,在对抗场景中的分割的15.3% mIOU的收益。源代码可在https://github.com/LiuZhu-CV/PAIF获得。

相关文章
|
6月前
|
机器学习/深度学习 编解码 资源调度
2024年3月的计算机视觉论文推荐
从去年开始,针对LLM的研究成为了大家关注的焦点。但是其实针对于计算机视觉的研究领域也在快速的发展。每周都有计算机视觉领域的创新研究,包括图像识别、视觉模型优化、生成对抗网络(gan)、图像分割、视频分析等。
130 0
|
6月前
|
机器学习/深度学习 自然语言处理 算法
2024年4月计算机视觉论文推荐
四月的计算机视觉研究涵盖多个子领域,包括扩散模型和视觉语言模型。在扩散模型中,Tango 2通过直接偏好优化改进了文本到音频生成,而Ctrl-Adapter提出了一种有效且通用的框架,用于在图像和视频扩散模型中添加多样控制。视觉语言模型的论文分析了CLIP模型在有限资源下的优化,并探讨了语言引导对低级视觉任务的鲁棒性。图像生成与编辑领域关注3D感知和高质量图像编辑,而视频理解与生成则涉及实时视频转游戏环境和文本引导的剪贴画动画。
140 0
|
5月前
|
编解码 机器人 测试技术
2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等
6月还有一周就要结束了,我们今天来总结2024年6月上半月发表的最重要的论文,重点介绍了计算机视觉领域的最新研究和进展。
133 8
|
6月前
|
编解码 边缘计算 自然语言处理
2024年5月计算机视觉论文推荐:包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题
五月发布的计算机视觉领域重要论文涵盖了扩散模型、视觉语言模型、图像生成与编辑及目标检测。亮点包括:1) Dual3D提出双模式推理策略,实现高效文本到3D图像生成;2) CAT3D利用多视图扩散模型创建3D场景,仅需少量图像;3) Hunyuan-DiT是多分辨率的中文理解扩散Transformer,可用于多模态对话和图像生成;4) 通过潜在扩散模型从EEG数据重建自然主义音乐,展示复杂音频重建潜力。此外,还有关于视觉语言模型和图像编辑的创新工作,如BlobGEN用于合成具有控制性的图像。
228 3
|
机器学习/深度学习 算法 计算机视觉
【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递(8 月 14 日论文合集)
【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递(8 月 14 日论文合集)
|
6月前
|
算法 数据库 计算机视觉
【计算机视觉】FCN、Seg-Net、U-Net模型进行图像分割实战(附源码和数据集 超详细必看)
【计算机视觉】FCN、Seg-Net、U-Net模型进行图像分割实战(附源码和数据集 超详细必看)
243 2
|
6月前
|
机器学习/深度学习 算法 计算机视觉
【计算机视觉】图像分割中FCN、DeepLab、SegNet、U-Net、Mask R-CNN等算法的讲解(图文解释 超详细)
【计算机视觉】图像分割中FCN、DeepLab、SegNet、U-Net、Mask R-CNN等算法的讲解(图文解释 超详细)
215 0
|
6月前
|
机器学习/深度学习 计算机视觉
AIGC核心技术——计算机视觉(CV)预训练大模型
【1月更文挑战第13天】AIGC核心技术——计算机视觉(CV)预训练大模型
602 3
AIGC核心技术——计算机视觉(CV)预训练大模型
|
11月前
|
机器学习/深度学习 PyTorch 算法框架/工具
Azure 机器学习 - 使用 ONNX 对来自 AutoML 的计算机视觉模型进行预测
Azure 机器学习 - 使用 ONNX 对来自 AutoML 的计算机视觉模型进行预测
121 0
|
2月前
|
人工智能 测试技术 API
AI计算机视觉笔记二十 九:yolov10竹签模型,自动数竹签
本文介绍了如何在AutoDL平台上搭建YOLOv10环境并进行竹签检测与计数。首先从官网下载YOLOv10源码并创建虚拟环境,安装依赖库。接着通过官方模型测试环境是否正常工作。然后下载自定义数据集并配置`mycoco128.yaml`文件,使用`yolo detect train`命令或Python代码进行训练。最后,通过命令行或API调用测试训练结果,并展示竹签计数功能。如需转载,请注明原文出处。

热门文章

最新文章

下一篇
无影云桌面