【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递(8 月 14 日论文合集)

简介: 【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递(8 月 14 日论文合集)

一、分割|语义相关(5篇)

1.1 Spatial-information Guided Adaptive Context-aware Network for Efficient RGB-D Semantic Segmentation

空间信息引导的自适应上下文感知网络高效RGB-D语义分割
https://arxiv.org/abs/2308.06024
有效的RGB-D语义分割在移动机器人中受到了广泛的关注,它在分析和识别环境信息中起着至关重要的作用。根据以往的研究,深度信息可以为物体和场景提供相应的几何关系,但实际的深度数据通常以噪声的形式存在。为了避免对分割精度和计算的不利影响,有必要设计一个有效的框架来利用跨模态相关性和互补线索。在本文中,我们提出了一个有效的轻量级编码器-解码器网络,减少了计算参数,并保证了算法的鲁棒性。通过使用通道和空间融合注意力模块,我们的网络有效地捕获了多层次的RGB-D特征。提出了一种全局引导的局部亲和度上下文模块,以获得足够的高层上下文信息。解码器利用一个轻量级的残差单元,结合了短距离和长距离的信息与一些冗余的计算。在NYUv 2,SUN RGB-D和Cityscapes数据集上的实验结果表明,我们的方法在分割精度,推理时间和参数之间取得了更好的权衡比最先进的方法。源代码位于https://github.com/MVME-HBUT/SGACNet

1.2 FoodSAM: Any Food Segmentation

FoodSAM:任何食品细分
https://arxiv.org/abs/2308.05938
在本文中,我们探讨了zero-shot的能力,段任何模型(SAM)的食品图像分割。为了解决缺乏类特定的信息SAM生成的面具,我们提出了一个新的框架,称为FoodSAM。这种创新的方法将粗糙的语义掩码与SAM生成的掩码相结合,以提高语义分割质量。此外,我们认识到,在食物中的成分可以被认为是独立的个体,这促使我们执行实例分割的食物图像。此外,FoodSAM扩展了其zero-shot能力,通过结合对象检测器来涵盖全景分割,这使得FoodSAM能够有效地捕获非食物对象信息。从最近的成功提示分割的灵感,我们还扩展FoodSAM提示分割,支持各种提示变量。因此,FoodSAM作为一个包罗万象的解决方案出现,能够在多个粒度级别分割食品。值得注意的是,这个开创性的框架是有史以来第一个在食物图像上实现实例,全景和可提示分割的工作。大量的实验证明了FoodSAM的可行性和令人印象深刻的性能,验证SAM的潜力,作为一个突出的和有影响力的工具,在食品图像分割领域。我们在https://github.com/jamesjg/FoodSAM上发布代码。

1.3 SegDA: Maximum Separable Segment Mask with Pseudo Labels for Domain Adaptive Semantic Segmentation

SegDA:领域自适应语义切分的带伪标签的最大可分分段掩码
https://arxiv.org/abs/2308.05851
无监督域自适应(UDA)通过从标签丰富的源域转移知识来解决目标域标签稀缺的问题。通常,源域由合成图像组成,对于合成图像,使用众所周知的计算机图形技术容易地获得注释。然而,获得真实世界图像(目标域)的注释需要大量的手动注释工作,并且非常耗时,因为它需要每个像素的注释。为了解决这个问题,我们提出了SegDA模块来提高UDA方法的传输性能,通过学习最大可分离段表示。这解决了识别视觉上类似的类别(如行人/骑车人、人行道/道路等)的问题。我们利用等角紧帧(ETF)分类器的启发神经崩溃的最大分离段类。这使得源域像素表示塌陷到形成与最大可分离ETF分类器对准的单纯形顶点的单个向量。我们利用这种现象提出了一种新的架构,用于目标域的分段表示的域适应。此外,我们提出估计的噪声标签的目标域图像和更新解码器的噪声校正,这鼓励发现的类未识别的伪标签的像素。我们已经使用了四个UDA基准模拟合成到真实,白天到夜间,晴朗到不利的天气场景。我们提出的方法在GTA -> Cityscapes上优于+2.2mIoU,在Synthia -> Cityscapes上优于+2.0mIoU,在Cityscapes -> DarkZurich上优于+5.9mIoU,在Cityscapes -> ACDC上优于+2.6mIoU。

1.4 The Multi-modality Cell Segmentation Challenge: Towards Universal Solutions

多通道细胞分割挑战:通向通用解决方案
https://arxiv.org/abs/2308.05864
细胞分割是显微图像单细胞定量分析的关键步骤。现有的细胞分割方法通常针对特定的模态进行定制,或者需要手动干预来指定不同实验设置中的超参数。在这里,我们提出了一个多模态细胞分割基准,包括来自50多个不同的生物实验超过1500标记的图像。顶级参与者开发了一种基于Transformer的深度学习算法,该算法不仅超过了现有方法,而且还可以应用于成像平台和组织类型的各种显微图像,而无需手动调整参数。该基准和改进的算法提供了更准确和更灵活的细胞分析在显微镜成像有前途的途径。

1.5 Multi-scale Multi-site Renal Microvascular Structures Segmentation for Whole Slide Imaging in Renal Pathology

用于肾脏病理全幻灯片成像的多尺度多点肾微血管结构分割
https://arxiv.org/abs/2308.05782
从人肾全切片图像(WSI)中分割微血管结构(诸如小动脉、小静脉和毛细血管)已经成为肾脏病理学中的焦点。当前的手动分割技术是耗时的,并且对于大规模数字病理图像是不可行的。虽然基于深度学习的方法提供了自动分割的解决方案,但大多数方法都受到限制:它们被设计用于并限制于在单站点、单尺度数据上的训练。在本文中,我们提出了Omni-Seg,一种新的单动态网络方法,利用多站点,多尺度的训练数据。独特的我们的方法,我们利用部分标记的图像,其中每个训练图像只有一个组织类型被标记,分割微血管结构。我们使用来自两个数据集(HuBMAP和NEPTUNE)的图像,在不同的放大倍数(40 x,20 x,10 x和5x)下训练了一个单一的深度网络。实验结果表明,Omni-Seg在骰子相似系数(DSC)和交集大于并集(IoU)方面都优于其他算法。我们提出的方法为肾脏病理学家提供了一个强大的计算工具,定量分析肾脏微血管结构。

相关文章
|
7月前
|
机器学习/深度学习 编解码 资源调度
2024年3月的计算机视觉论文推荐
从去年开始,针对LLM的研究成为了大家关注的焦点。但是其实针对于计算机视觉的研究领域也在快速的发展。每周都有计算机视觉领域的创新研究,包括图像识别、视觉模型优化、生成对抗网络(gan)、图像分割、视频分析等。
186 0
|
7月前
|
机器学习/深度学习 自然语言处理 算法
2024年4月计算机视觉论文推荐
四月的计算机视觉研究涵盖多个子领域,包括扩散模型和视觉语言模型。在扩散模型中,Tango 2通过直接偏好优化改进了文本到音频生成,而Ctrl-Adapter提出了一种有效且通用的框架,用于在图像和视频扩散模型中添加多样控制。视觉语言模型的论文分析了CLIP模型在有限资源下的优化,并探讨了语言引导对低级视觉任务的鲁棒性。图像生成与编辑领域关注3D感知和高质量图像编辑,而视频理解与生成则涉及实时视频转游戏环境和文本引导的剪贴画动画。
150 0
|
6月前
|
编解码 机器人 测试技术
2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等
6月还有一周就要结束了,我们今天来总结2024年6月上半月发表的最重要的论文,重点介绍了计算机视觉领域的最新研究和进展。
159 8
|
7月前
|
编解码 边缘计算 自然语言处理
2024年5月计算机视觉论文推荐:包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题
五月发布的计算机视觉领域重要论文涵盖了扩散模型、视觉语言模型、图像生成与编辑及目标检测。亮点包括:1) Dual3D提出双模式推理策略,实现高效文本到3D图像生成;2) CAT3D利用多视图扩散模型创建3D场景,仅需少量图像;3) Hunyuan-DiT是多分辨率的中文理解扩散Transformer,可用于多模态对话和图像生成;4) 通过潜在扩散模型从EEG数据重建自然主义音乐,展示复杂音频重建潜力。此外,还有关于视觉语言模型和图像编辑的创新工作,如BlobGEN用于合成具有控制性的图像。
279 3
|
7月前
|
算法 数据库 计算机视觉
【计算机视觉】FCN、Seg-Net、U-Net模型进行图像分割实战(附源码和数据集 超详细必看)
【计算机视觉】FCN、Seg-Net、U-Net模型进行图像分割实战(附源码和数据集 超详细必看)
280 2
|
7月前
|
机器学习/深度学习 算法 计算机视觉
【计算机视觉】图像分割中FCN、DeepLab、SegNet、U-Net、Mask R-CNN等算法的讲解(图文解释 超详细)
【计算机视觉】图像分割中FCN、DeepLab、SegNet、U-Net、Mask R-CNN等算法的讲解(图文解释 超详细)
307 0
|
7月前
|
机器学习/深度学习 计算机视觉
AIGC核心技术——计算机视觉(CV)预训练大模型
【1月更文挑战第13天】AIGC核心技术——计算机视觉(CV)预训练大模型
643 3
AIGC核心技术——计算机视觉(CV)预训练大模型
|
机器学习/深度学习 PyTorch 算法框架/工具
Azure 机器学习 - 使用 ONNX 对来自 AutoML 的计算机视觉模型进行预测
Azure 机器学习 - 使用 ONNX 对来自 AutoML 的计算机视觉模型进行预测
129 0
|
3月前
|
人工智能 测试技术 API
AI计算机视觉笔记二十 九:yolov10竹签模型,自动数竹签
本文介绍了如何在AutoDL平台上搭建YOLOv10环境并进行竹签检测与计数。首先从官网下载YOLOv10源码并创建虚拟环境,安装依赖库。接着通过官方模型测试环境是否正常工作。然后下载自定义数据集并配置`mycoco128.yaml`文件,使用`yolo detect train`命令或Python代码进行训练。最后,通过命令行或API调用测试训练结果,并展示竹签计数功能。如需转载,请注明原文出处。
|
3月前
|
人工智能 测试技术 PyTorch
AI计算机视觉笔记二十四:YOLOP 训练+测试+模型评估
本文介绍了通过正点原子的ATK-3568了解并实现YOLOP(You Only Look Once for Panoptic Driving Perception)的过程,包括训练、测试、转换为ONNX格式及在ONNX Runtime上的部署。YOLOP由华中科技大学团队于2021年发布,可在Jetson TX2上达到23FPS,实现了目标检测、可行驶区域分割和车道线检测的多任务学习。文章详细记录了环境搭建、训练数据准备、模型转换和测试等步骤,并解决了ONNX转换过程中的问题。

热门文章

最新文章