【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递(8 月 11 日论文合集)

简介: 【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递(8 月 11 日论文合集)

一、分割|语义相关(7篇)

1.1 Look at the Neighbor: Distortion-aware Unsupervised Domain Adaptation for Panoramic Semantic Segmentation

看邻居:面向全景语义分割的失真感知无监督领域自适应
https://arxiv.org/abs/2308.05493
最近已经作出的努力,从标记针孔图像域的知识转移到未标记全景图像域通过无监督域自适应(UDA)。其目的是解决等矩形投影(ERP)的非均匀分布像素的样式差异和失真问题所引起的域间隙。以前的工作通常集中在传输知识的基础上的几何先验与专门设计的多分支网络架构。其结果是,相当大的计算成本,同时,其泛化能力严重地受到像素间失真变化的影响。在本文中,我们发现,像素的邻近区域的ERP确实引入较少的失真。直观地说,我们提出了一种新的UDA框架,可以有效地解决全景语义分割的失真问题。相比之下,我们的方法更简单,更容易实现,计算效率更高。具体而言,我们提出了失真感知的注意(DA)捕捉相邻像素分布,而不使用任何几何约束。此外,我们提出了一个类的特征聚合(CFA)模块迭代更新的特征表示与内存库。因此,两个域之间的特征相似性可以被一致地优化。大量的实验表明,我们的方法实现了新的国家的最先进的性能,同时显着减少了80%的参数。

1.2 Pseudo-label Alignment for Semi-supervised Instance Segmentation

半监督实例分割中的伪标签对齐方法
https://arxiv.org/abs/2308.05359
伪标记对于半监督实例分割是重要的,其从未注释的图像生成实例掩码和类以用于后续训练。然而,在现有的流水线中,由于类别和掩码质量的不匹配,包含有价值信息的伪标签可能被直接过滤掉。为了解决这个问题,我们提出了一个新的框架,称为伪标签对齐实例分割(PAIS),在本文中。在PAIS中,我们设计了一个动态对齐损失(DALoss),调整半监督损失项的权重与不同的类和掩码得分对。通过在COCO和Cityscapes数据集上进行的大量实验,我们证明了PAIS是一个很有前途的半监督实例分割框架,特别是在标记数据严重受限的情况下。值得注意的是,仅使用1%的标记数据,PAIS在COCO数据集上实现了21.2 mAP(基于Mask-RCNN)和19.9 mAP(基于K-Net),优于当前最先进的模型,即NoisyBoundary,7.7 mAP,超过12个点。代码可在:\url{https://github.com/hujiecpp/PAIS}.

1.3 Fine-grained building roof instance segmentation based on domain adapted pretraining and composite dual-backbone

基于领域自适应预训练和复合双主干的细粒度建筑屋顶实例分割
https://arxiv.org/abs/2308.05358
全球城市的建筑风格的多样性,位于各种地形,云和阴影的影响下,退化的光学图像,和显着的类间不平衡的屋顶类型的设计一个强大的和准确的建筑屋顶实例分割提出了挑战。为了解决这些问题,我们提出了一个有效的框架,以实现高分辨率光学卫星图像的单个建筑物的语义解释。具体而言,利用域自适应预训练策略和复合双主干极大地促进了区分性特征学习。此外,新的数据增强管道,随机加权平均(SWA)的训练和实例分割为基础的模型集成在测试中,以获得额外的性能提升。实验结果表明,该方法在2023年IEEE GRSS数据融合竞赛(DFC)Track 1测试阶段获得第一名($mAP_{50}$:50.6\%)。值得注意的是,我们还探讨了光学卫星图像和SAR数据的多模态数据融合的潜力。

1.4 Deep Semantic Graph Matching for Large-scale Outdoor Point Clouds Registration

用于大规模室外点云配准的深度语义图匹配
https://arxiv.org/abs/2308.05314
现有的点云配准方法主要是基于几何信息的配准,往往忽略了点云中的语义信息。本文将点云配准问题视为语义实例匹配和配准任务,提出了一种面向大规模室外点云配准的深度语义图匹配方法。首先,利用大规模点云语义分割网络获得三维点云的语义类别标签。然后利用欧氏聚类算法对具有相同类别标签的相邻点进行聚类,得到语义实例。其次,基于语义实例的空间邻接关系构建语义邻接图。通过图卷积网络学习几何形状特征、语义类别特征和空间分布特征3种高维特征,并基于注意机制进行增强。第三,将语义实例匹配问题建模为一个最优传输问题,并通过最优匹配层进行求解。最后,根据匹配的语义实例,首先利用SVD算法获得两点云之间的几何变换矩阵,然后利用ICP算法进行细化。在KITTI Odometry数据集上进行了实验,该方法的平均相对平移误差和平均相对旋转误差分别为6.6cm和0.229{\deg}.

1.5 SegMatch: A semi-supervised learning method for surgical instrument segmentation

SegMatch:一种手术器械分割的半监督学习方法
https://arxiv.org/abs/2308.05232
手术器械分割被认为是提供高级手术辅助和改进计算机辅助干预的关键推动因素。在这项工作中,我们提出了SegMatch,一种半监督学习方法,以减少腹腔镜和机器人手术图像昂贵的注释的需要。SegMatch建立在FixMatch基础上,FixMatch是一种广泛的半监督分类管道,结合了一致性正则化和伪标签,并将其用于分割目的。在我们提出的SegMatch中,未标记的图像被弱增强并被馈送到分割模型中以生成伪标签,以针对具有高置信度分数的像素上的对抗性增强图像的模型输出执行无监督损失。我们的适应分割任务包括仔细考虑我们依赖的增强函数的等变性和不变性特性。为了提高增强的相关性,我们不再只使用手工增强,而是引入了一种可训练的对抗增强策略。我们的算法在MICCAI仪器分割挑战数据集Robust-MIS 2019和EndoVis 2017上进行了评价。我们的研究结果表明,为训练目的添加未标记数据使我们能够超越完全监督方法的性能,这些方法在这些挑战中受到训练数据可用性的限制。SegMatch还在不同的标记与未标记数据比率中优于一系列最先进的半监督学习语义分割模型。

1.6 Discrepancy-based Active Learning for Weakly Supervised Bleeding Segmentation in Wireless Capsule Endoscopy Images

基于差异的主动学习用于无线胶囊内窥镜图像的弱监督出血分割
https://arxiv.org/abs/2308.05137
弱监督的方法,如类激活映射(CAM)的基础上,已被应用于实现出血分割与低注释的努力,在无线胶囊内窥镜(WCE)图像。然而,CAM标签往往是非常嘈杂的,并且在CAM标签和医学图像的地面实况之间存在不可弥补的差距。本文提出了一种新的基于差异的主动学习(DEAL)方法,以弥合CAM和地面真理之间的差距与一些注释。具体来说,为了解放劳动力,我们设计了一种新的差异解码器模型和CAMPUS(CAM,伪标签和groUnd-truth选择)标准,以取代嘈杂的CAM与准确的模型预测和一些人类标签。差异解码器模型用独特的方案训练以生成标准的、粗略的和精细的预测。提出了基于模型散度和CAM散度的CAMPUS准则来预测CAM与地面实况之间的差距。我们在WCE数据集上对我们的方法进行了评估,结果表明,我们的方法优于最先进的主动学习方法,并且与使用完整注释数据集进行训练的方法相比,仅标记了10%的训练数据。

1.7 Multi-source adversarial transfer learning for ultrasound image segmentation with limited similarity

有限相似度超声图像分割的多源对抗性转移学习
https://arxiv.org/abs/2305.19069
基于深度学习技术的超声医学图像的病变分割是用于诊断疾病的广泛使用的方法。尽管在医学中心和其他地方存在大量的超声图像数据,但是标记的超声数据集是稀缺资源,并且很可能没有数据集可用于新的组织/器官。迁移学习为解决这一问题提供了可能,但自然图像中有太多与目标域无关的特征。作为源域,将提取不利于任务的冗余特征。超声图像之间的迁移可以避免这个问题,但是公共数据集的类型很少,并且很难找到足够相似的源域。与自然图像相比,超声图像信息量少,不同超声图像之间可传递的特征少,可能会造成负传递。为此,提出了一种用于超声图像分割的多源对抗性转移学习网络。具体而言,为了解决缺乏注释的问题,对抗性迁移学习的思想用于自适应地提取某对源域和目标域之间的共同特征,这提供了利用未标记的超声数据的可能性。为了缓解单一源领域知识的不足,采用多源迁移学习融合来自多个源领域的知识。为了保证融合的有效性和最大限度地利用宝贵的数据,还提出了一种多源域独立的策略,以改善目标域数据分布的估计,这进一步增加了多源对抗迁移学习网络在多个域的学习能力。

相关文章
|
7月前
|
机器学习/深度学习 编解码 资源调度
2024年3月的计算机视觉论文推荐
从去年开始,针对LLM的研究成为了大家关注的焦点。但是其实针对于计算机视觉的研究领域也在快速的发展。每周都有计算机视觉领域的创新研究,包括图像识别、视觉模型优化、生成对抗网络(gan)、图像分割、视频分析等。
186 0
|
7月前
|
机器学习/深度学习 自然语言处理 算法
2024年4月计算机视觉论文推荐
四月的计算机视觉研究涵盖多个子领域,包括扩散模型和视觉语言模型。在扩散模型中,Tango 2通过直接偏好优化改进了文本到音频生成,而Ctrl-Adapter提出了一种有效且通用的框架,用于在图像和视频扩散模型中添加多样控制。视觉语言模型的论文分析了CLIP模型在有限资源下的优化,并探讨了语言引导对低级视觉任务的鲁棒性。图像生成与编辑领域关注3D感知和高质量图像编辑,而视频理解与生成则涉及实时视频转游戏环境和文本引导的剪贴画动画。
150 0
|
6月前
|
编解码 机器人 测试技术
2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等
6月还有一周就要结束了,我们今天来总结2024年6月上半月发表的最重要的论文,重点介绍了计算机视觉领域的最新研究和进展。
159 8
|
7月前
|
编解码 边缘计算 自然语言处理
2024年5月计算机视觉论文推荐:包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题
五月发布的计算机视觉领域重要论文涵盖了扩散模型、视觉语言模型、图像生成与编辑及目标检测。亮点包括:1) Dual3D提出双模式推理策略,实现高效文本到3D图像生成;2) CAT3D利用多视图扩散模型创建3D场景,仅需少量图像;3) Hunyuan-DiT是多分辨率的中文理解扩散Transformer,可用于多模态对话和图像生成;4) 通过潜在扩散模型从EEG数据重建自然主义音乐,展示复杂音频重建潜力。此外,还有关于视觉语言模型和图像编辑的创新工作,如BlobGEN用于合成具有控制性的图像。
279 3
|
机器学习/深度学习 算法 计算机视觉
【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递(8 月 14 日论文合集)
【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递(8 月 14 日论文合集)
|
7月前
|
算法 数据库 计算机视觉
【计算机视觉】FCN、Seg-Net、U-Net模型进行图像分割实战(附源码和数据集 超详细必看)
【计算机视觉】FCN、Seg-Net、U-Net模型进行图像分割实战(附源码和数据集 超详细必看)
280 2
|
7月前
|
机器学习/深度学习 算法 计算机视觉
【计算机视觉】图像分割中FCN、DeepLab、SegNet、U-Net、Mask R-CNN等算法的讲解(图文解释 超详细)
【计算机视觉】图像分割中FCN、DeepLab、SegNet、U-Net、Mask R-CNN等算法的讲解(图文解释 超详细)
307 0
|
7月前
|
机器学习/深度学习 计算机视觉
AIGC核心技术——计算机视觉(CV)预训练大模型
【1月更文挑战第13天】AIGC核心技术——计算机视觉(CV)预训练大模型
643 3
AIGC核心技术——计算机视觉(CV)预训练大模型
|
机器学习/深度学习 PyTorch 算法框架/工具
Azure 机器学习 - 使用 ONNX 对来自 AutoML 的计算机视觉模型进行预测
Azure 机器学习 - 使用 ONNX 对来自 AutoML 的计算机视觉模型进行预测
129 0
|
3月前
|
人工智能 测试技术 API
AI计算机视觉笔记二十 九:yolov10竹签模型,自动数竹签
本文介绍了如何在AutoDL平台上搭建YOLOv10环境并进行竹签检测与计数。首先从官网下载YOLOv10源码并创建虚拟环境,安装依赖库。接着通过官方模型测试环境是否正常工作。然后下载自定义数据集并配置`mycoco128.yaml`文件,使用`yolo detect train`命令或Python代码进行训练。最后,通过命令行或API调用测试训练结果,并展示竹签计数功能。如需转载,请注明原文出处。

热门文章

最新文章