【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递(8 月 8 日论文合集)(二)(上)

简介: 【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递(8 月 8 日论文合集)(二)(上)

一、分割|语义相关(19篇)(上)

1.1 Mask Frozen-DETR: High Quality Instance Segmentation with One GPU

掩码冻结-DETR:一个GPU的高质量实例分割
https://arxiv.org/abs/2308.03747
在本文中,我们的目标是研究如何以最少的训练时间和 GPU 构建强大的实例分割器,而不是当前大多数方法通过构建更高级的框架来追求更准确的实例分割器,但代价是更长的训练时间和更高的成本。 GPU 要求。 为了实现这一目标,我们引入了一个简单而通用的框架,称为 Mask Frozen-DETR,它可以将任何现有的基于 DETR 的对象检测模型转换为强大的实例分割模型。 我们的方法只需要训练一个额外的轻量级掩模网络,该网络可以预测由冻结的基于 DETR 的对象检测器给出的边界框中的实例掩模。 值得注意的是,我们的方法在 COCO 测试-开发分割的性能方面优于最先进的实例分割方法 Mask DINO(55.3% vs. 54.7%),同时训练速度提高了 10 倍以上。 此外,我们所有的实验都可以仅使用一个具有 16 GB 内存的 Tesla V100 GPU 进行训练,这证明了我们提出的框架的显着效率。

1.2 AdaptiveSAM: Towards Efficient Tuning of SAM for Surgical Scene Segmentation

AdaptiveSAM:用于手术场景分割的高效SAM调整
https://arxiv.org/abs/2308.03726
分割是使用人工智能进行手术场景分析的一个基本问题。 然而,该领域固有的数据稀缺性使得采用传统的分割技术来完成该任务具有挑战性。 为了解决这个问题,当前的研究采用预训练模型并根据给定数据对其进行微调。 即便如此,每次有新数据可用时,都需要使用数百万个参数来训练深度网络。 最近发布的基础模型 Segment-Anything (SAM) 可以很好地推广到各种自然图像,从而在合理的程度上解决了这一挑战。 然而,SAM 并不能很好地推广到医疗领域,因为它没有利用大量计算资源进行微调和使用特定于任务的提示。 此外,这些提示采用边界框或前景/背景点的形式,需要为每个图像明确注释,使得该解决方案随着数据量的增加而变得越来越乏味。 在这项工作中,我们提出了 AdaptiveSAM - SAM 的自适应修改,可以快速有效地适应新数据集,同时支持文本提示分割。 对于微调 AdaptiveSAM,我们提出了一种称为偏差调整的方法,该方法需要的可训练参数数量明显少于 SAM(少于 2%)。 同时,AdaptiveSAM 需要的专家干预可以忽略不计,因为它使用自由格式的文本作为提示,并且只需标签名称作为提示即可分割感兴趣的对象。 我们的实验表明,AdaptiveSAM 在各种医学成像数据集(包括手术、超声和 X 射线)上的表现优于当前最先进的方法。

1.3 SEM-GAT: Explainable Semantic Pose Estimation using Learned Graph Attention

基于学习图注意的可解释语义姿势估计
https://arxiv.org/abs/2308.03718
本文提出了一种基于 GNN 的方法,利用语义和局部几何来指导识别可靠的点云配准候选者。 环境的语义和形态特征作为配准的关键参考点,从而实现基于激光雷达的准确姿态估计。 我们新颖的轻量级静态图结构通过识别基于语义实例的关系,为我们基于注意力的关键点节点聚合 GNN 网络提供信息,充当归纳偏差,显着减少点云注册的计算负担。 通过连接候选节点并利用跨图注意力,我们识别所有潜在配准对应的置信度分数,估计点云扫描之间的位移。 我们的管道通过将模型的性能与环境中局部结构的个体贡献相关联,可以对模型的性能进行内省分析,从而为系统的行为提供有价值的见解。 我们在 KITTI 里程计数据集上测试了我们的方法,与基准方法相比,实现了有竞争力的准确性和更高的轨道平滑度,同时依赖于更少的网络参数。

1.4 Prototype Learning for Out-of-Distribution Polyp Segmentation

基于原型学习的散乱息肉分割算法
https://arxiv.org/abs/2308.03709
现有的结肠镜检查图像息肉分割模型通常无法在不同中心的数据集上提供可靠的分割结果,限制了其适用性。 我们在这项研究中的目标是创建一个强大且通用的分割模型,名为 PrototypeLab,可以帮助进行息肉分割。 为了实现这一目标,我们将各种照明模式(例如白光成像(WLI)、蓝光成像(BLI)、链接彩色成像(LCI)和灵活光谱成像色彩增强(FICE))融入到我们的新分割模型中,该模型学习 为图像中存在的每一类对象创建原型。 这些原型代表了物体的特征,例如它们的形状、纹理、颜色。 我们的模型旨在在来自多个中心的分布外 (OOD) 数据集上有效执行。 我们首先生成一个粗略掩模,用于学习主要对象类的原型,然后使用原型生成最终的分割掩模。 通过使用原型来表示主类,我们的方法可以处理医学图像中存在的变异性,并很好地推广到新数据,因为原型捕获了数据的基础分布。 PrototypeLab 提供了一种很有前途的解决方案,其 dice 系数≥ 90%,mIoU ≥ 85%,息肉分割具有近乎实时的处理速度。 与 16 个最先进的图像分割架构相比,它在 OOD 数据集上实现了卓越的性能,有可能改善临床结果。

1.5 Feature Decoupling-Recycling Network for Fast Interactive Segmentation

用于快速交互分割的特征解耦-循环网络
最近的交互式分割方法迭代地将源图像、用户指导和先前预测的掩模作为输入,而不考虑源图像的不变性。 因此,在每次交互中都会重复从源图像中提取特征,从而导致大量的计算冗余。 在这项工作中,我们提出了特征解耦回收网络(FDRN),它根据建模组件的内在差异来解耦建模组件,然后为每个用户交互回收组件。 这样,整个交互过程的效率就可以得到显着的提升。 具体来说,我们从三个角度应用解耦-回收策略来分别解决三类差异。 首先,我们的模型将源图像语义的学习与用户指导的编码解耦,以分别处理两种类型的输入域。 其次,FDRN 将高层和低层特征与分层语义表示解耦,以增强特征学习。 第三,在用户引导的编码过程中,将当前用户引导与历史引导解耦,以突出当前用户引导的效果。 我们对来自不同领域和模式的 6 个数据集进行了广泛的实验,证明了我们的模型具有以下优点:1)比其他方法具有更高的效率,特别是在需要长期交互的具有挑战性的场景中特别有利(快达 4.25 倍),同时实现 良好的分割性能; 2)对各种方法的适用性强,作为通用的增强技术; 3)良好的跨任务通用性,例如医学图像分割,以及针对误导性用户指导的鲁棒性。

1.6 Keyword Spotting Simplified: A Segmentation-Free Approach using Character Counting and CTC re-scoring

简化关键词定位:一种基于字符计数和CTC重新评分的无分词方法
https://arxiv.org/abs/2308.03515
无分段关键词识别的最新进展解决了这个问题。 对象检测范例并借鉴最先进的检测系统,同时提出单词边界框提议机制并计算相应的表示。 与依赖复杂和大型 DNN 模型的此类方法的规范相反,我们提出了一种新颖的无分割系统,可以有效扫描文档图像以查找包含查询信息的矩形区域。 底层模型简单而紧凑,通过隐式学习的比例图预测矩形区域上的字符出现,并在字级注释图像上进行训练。 然后,通过积分图像和二分搜索,以经济有效的方式使用该字符计数来执行所建议的文档扫描。 最后,充分利用经过训练的 CNN 模型,通过金字塔表示和基于 CTC 的重新评分算法来细化字符计数的检索相似度。 对两个广泛使用的数据集的实验验证表明,尽管底层模型很简单,但我们的方法取得了最先进的结果,优于更复杂的替代方案。

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
7月前
|
机器学习/深度学习 编解码 资源调度
2024年3月的计算机视觉论文推荐
从去年开始,针对LLM的研究成为了大家关注的焦点。但是其实针对于计算机视觉的研究领域也在快速的发展。每周都有计算机视觉领域的创新研究,包括图像识别、视觉模型优化、生成对抗网络(gan)、图像分割、视频分析等。
186 0
|
7月前
|
机器学习/深度学习 自然语言处理 算法
2024年4月计算机视觉论文推荐
四月的计算机视觉研究涵盖多个子领域,包括扩散模型和视觉语言模型。在扩散模型中,Tango 2通过直接偏好优化改进了文本到音频生成,而Ctrl-Adapter提出了一种有效且通用的框架,用于在图像和视频扩散模型中添加多样控制。视觉语言模型的论文分析了CLIP模型在有限资源下的优化,并探讨了语言引导对低级视觉任务的鲁棒性。图像生成与编辑领域关注3D感知和高质量图像编辑,而视频理解与生成则涉及实时视频转游戏环境和文本引导的剪贴画动画。
150 0
|
6月前
|
编解码 机器人 测试技术
2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等
6月还有一周就要结束了,我们今天来总结2024年6月上半月发表的最重要的论文,重点介绍了计算机视觉领域的最新研究和进展。
159 8
|
7月前
|
编解码 边缘计算 自然语言处理
2024年5月计算机视觉论文推荐:包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题
五月发布的计算机视觉领域重要论文涵盖了扩散模型、视觉语言模型、图像生成与编辑及目标检测。亮点包括:1) Dual3D提出双模式推理策略,实现高效文本到3D图像生成;2) CAT3D利用多视图扩散模型创建3D场景,仅需少量图像;3) Hunyuan-DiT是多分辨率的中文理解扩散Transformer,可用于多模态对话和图像生成;4) 通过潜在扩散模型从EEG数据重建自然主义音乐,展示复杂音频重建潜力。此外,还有关于视觉语言模型和图像编辑的创新工作,如BlobGEN用于合成具有控制性的图像。
279 3
|
机器学习/深度学习 算法 计算机视觉
【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递(8 月 14 日论文合集)
【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递(8 月 14 日论文合集)
|
7月前
|
算法 数据库 计算机视觉
【计算机视觉】FCN、Seg-Net、U-Net模型进行图像分割实战(附源码和数据集 超详细必看)
【计算机视觉】FCN、Seg-Net、U-Net模型进行图像分割实战(附源码和数据集 超详细必看)
280 2
|
7月前
|
机器学习/深度学习 算法 计算机视觉
【计算机视觉】图像分割中FCN、DeepLab、SegNet、U-Net、Mask R-CNN等算法的讲解(图文解释 超详细)
【计算机视觉】图像分割中FCN、DeepLab、SegNet、U-Net、Mask R-CNN等算法的讲解(图文解释 超详细)
307 0
|
7月前
|
机器学习/深度学习 计算机视觉
AIGC核心技术——计算机视觉(CV)预训练大模型
【1月更文挑战第13天】AIGC核心技术——计算机视觉(CV)预训练大模型
643 3
AIGC核心技术——计算机视觉(CV)预训练大模型
|
机器学习/深度学习 PyTorch 算法框架/工具
Azure 机器学习 - 使用 ONNX 对来自 AutoML 的计算机视觉模型进行预测
Azure 机器学习 - 使用 ONNX 对来自 AutoML 的计算机视觉模型进行预测
129 0
|
3月前
|
人工智能 测试技术 API
AI计算机视觉笔记二十 九:yolov10竹签模型,自动数竹签
本文介绍了如何在AutoDL平台上搭建YOLOv10环境并进行竹签检测与计数。首先从官网下载YOLOv10源码并创建虚拟环境,安装依赖库。接着通过官方模型测试环境是否正常工作。然后下载自定义数据集并配置`mycoco128.yaml`文件,使用`yolo detect train`命令或Python代码进行训练。最后,通过命令行或API调用测试训练结果,并展示竹签计数功能。如需转载,请注明原文出处。

热门文章

最新文章