一、分割|语义相关(5篇)
1.1 Spatial-information Guided Adaptive Context-aware Network for Efficient RGB-D Semantic Segmentation
空间信息引导的自适应上下文感知网络高效RGB-D语义分割
https://arxiv.org/abs/2308.06024
有效的RGB-D语义分割在移动机器人中受到了广泛的关注,它在分析和识别环境信息中起着至关重要的作用。根据以往的研究,深度信息可以为物体和场景提供相应的几何关系,但实际的深度数据通常以噪声的形式存在。为了避免对分割精度和计算的不利影响,有必要设计一个有效的框架来利用跨模态相关性和互补线索。在本文中,我们提出了一个有效的轻量级编码器-解码器网络,减少了计算参数,并保证了算法的鲁棒性。通过使用通道和空间融合注意力模块,我们的网络有效地捕获了多层次的RGB-D特征。提出了一种全局引导的局部亲和度上下文模块,以获得足够的高层上下文信息。解码器利用一个轻量级的残差单元,结合了短距离和长距离的信息与一些冗余的计算。在NYUv 2,SUN RGB-D和Cityscapes数据集上的实验结果表明,我们的方法在分割精度,推理时间和参数之间取得了更好的权衡比最先进的方法。源代码位于https://github.com/MVME-HBUT/SGACNet
1.2 FoodSAM: Any Food Segmentation
FoodSAM:任何食品细分
https://arxiv.org/abs/2308.05938
在本文中,我们探讨了zero-shot的能力,段任何模型(SAM)的食品图像分割。为了解决缺乏类特定的信息SAM生成的面具,我们提出了一个新的框架,称为FoodSAM。这种创新的方法将粗糙的语义掩码与SAM生成的掩码相结合,以提高语义分割质量。此外,我们认识到,在食物中的成分可以被认为是独立的个体,这促使我们执行实例分割的食物图像。此外,FoodSAM扩展了其zero-shot能力,通过结合对象检测器来涵盖全景分割,这使得FoodSAM能够有效地捕获非食物对象信息。从最近的成功提示分割的灵感,我们还扩展FoodSAM提示分割,支持各种提示变量。因此,FoodSAM作为一个包罗万象的解决方案出现,能够在多个粒度级别分割食品。值得注意的是,这个开创性的框架是有史以来第一个在食物图像上实现实例,全景和可提示分割的工作。大量的实验证明了FoodSAM的可行性和令人印象深刻的性能,验证SAM的潜力,作为一个突出的和有影响力的工具,在食品图像分割领域。我们在https://github.com/jamesjg/FoodSAM上发布代码。
1.3 SegDA: Maximum Separable Segment Mask with Pseudo Labels for Domain Adaptive Semantic Segmentation
SegDA:领域自适应语义切分的带伪标签的最大可分分段掩码
https://arxiv.org/abs/2308.05851
无监督域自适应(UDA)通过从标签丰富的源域转移知识来解决目标域标签稀缺的问题。通常,源域由合成图像组成,对于合成图像,使用众所周知的计算机图形技术容易地获得注释。然而,获得真实世界图像(目标域)的注释需要大量的手动注释工作,并且非常耗时,因为它需要每个像素的注释。为了解决这个问题,我们提出了SegDA模块来提高UDA方法的传输性能,通过学习最大可分离段表示。这解决了识别视觉上类似的类别(如行人/骑车人、人行道/道路等)的问题。我们利用等角紧帧(ETF)分类器的启发神经崩溃的最大分离段类。这使得源域像素表示塌陷到形成与最大可分离ETF分类器对准的单纯形顶点的单个向量。我们利用这种现象提出了一种新的架构,用于目标域的分段表示的域适应。此外,我们提出估计的噪声标签的目标域图像和更新解码器的噪声校正,这鼓励发现的类未识别的伪标签的像素。我们已经使用了四个UDA基准模拟合成到真实,白天到夜间,晴朗到不利的天气场景。我们提出的方法在GTA -> Cityscapes上优于+2.2mIoU,在Synthia -> Cityscapes上优于+2.0mIoU,在Cityscapes -> DarkZurich上优于+5.9mIoU,在Cityscapes -> ACDC上优于+2.6mIoU。
1.4 The Multi-modality Cell Segmentation Challenge: Towards Universal Solutions
多通道细胞分割挑战:通向通用解决方案
https://arxiv.org/abs/2308.05864
细胞分割是显微图像单细胞定量分析的关键步骤。现有的细胞分割方法通常针对特定的模态进行定制,或者需要手动干预来指定不同实验设置中的超参数。在这里,我们提出了一个多模态细胞分割基准,包括来自50多个不同的生物实验超过1500标记的图像。顶级参与者开发了一种基于Transformer的深度学习算法,该算法不仅超过了现有方法,而且还可以应用于成像平台和组织类型的各种显微图像,而无需手动调整参数。该基准和改进的算法提供了更准确和更灵活的细胞分析在显微镜成像有前途的途径。
1.5 Multi-scale Multi-site Renal Microvascular Structures Segmentation for Whole Slide Imaging in Renal Pathology
用于肾脏病理全幻灯片成像的多尺度多点肾微血管结构分割
https://arxiv.org/abs/2308.05782
从人肾全切片图像(WSI)中分割微血管结构(诸如小动脉、小静脉和毛细血管)已经成为肾脏病理学中的焦点。当前的手动分割技术是耗时的,并且对于大规模数字病理图像是不可行的。虽然基于深度学习的方法提供了自动分割的解决方案,但大多数方法都受到限制:它们被设计用于并限制于在单站点、单尺度数据上的训练。在本文中,我们提出了Omni-Seg,一种新的单动态网络方法,利用多站点,多尺度的训练数据。独特的我们的方法,我们利用部分标记的图像,其中每个训练图像只有一个组织类型被标记,分割微血管结构。我们使用来自两个数据集(HuBMAP和NEPTUNE)的图像,在不同的放大倍数(40 x,20 x,10 x和5x)下训练了一个单一的深度网络。实验结果表明,Omni-Seg在骰子相似系数(DSC)和交集大于并集(IoU)方面都优于其他算法。我们提出的方法为肾脏病理学家提供了一个强大的计算工具,定量分析肾脏微血管结构。