0
1
图像分割类
[1]AutoFocusFormer: Image Segmentation off the Grid
推荐理由:该论文提出了 AutoFocusFormer (AFF),一种局部注意力变换器图像识别主干,它通过学习保留任务最重要的像素来执行自适应下采样。放弃了经典的网格结构,该论文开发了一种新的基于点的局部注意力块,由平衡聚类模块和可学习的邻域合并模块提供便利,可以为最先进的分割头的基于点的版本生成表示。实验表明,AutoFocusFormer (AFF) 比类似尺寸的基线模型有显着改进。
[2]FreeSeg: Unified, Universal and Open-Vocabulary Image Segmentation
推荐理由:该论文提出了 FreeSeg,这是一个通用框架,可以实现统一、通用和开放词汇的图像分割。广泛的实验结果表明,FreeSeg 在三个分割任务的性能和泛化方面建立了新的最先进结果,大大优于最佳特定任务架构:语义分割 5.5% mIoU,实例 mAP 17.6%分割,COCO 上未见类的全景分割 PQ 为 20.1%。
[3]Parameter Efficient Local Implicit Image Function Network for Face Segmentation
推荐理由:人脸解析被定义为包含人脸的图像的每像素标记。定义标签来识别眼睛、嘴唇、鼻子、头发等关键面部区域。该论文利用人脸的结构一致性,提出了一种使用局部隐函数网络FP-LIF的轻量级人脸解析方法。也提出了一种简单的架构,该架构具有卷积编码器和像素MLP解码器,与最先进的模型相比,该架构使用了1/26个参数,但在多个数据集(如CelebMask HQ和LaPa)上匹配或优于最先进的模型。
2
全景分割类
[1]You Only Segment Once: Towards Real-Time Panoptic Segmentation
推荐理由:该论文提出了YOSO,一种实时全景分割框架。YOSO通过全景内核和图像特征图之间的动态卷积来预测掩码,其中只需为实例和语义分割任务分割一次。为了减少计算开销,设计了一个用于特征图提取的特征金字塔聚合器,以及一个用于全景内核生成的可分离动态解码器。
[2]UniDAformer: Unified Domain Adaptive Panoptic Segmentation Transformer via Hierarchical Mask Calibration
推荐理由:该论文设计了UniDAformer,这是一种统一域自适应全景分割转换器,它简单,但可以在单个网络中同时实现域自适应实例分割和语义分割。它具有三个独特的功能:1)可实现统一域自适应全景自适应;2)有效减少错误预测,提高域自适应全景分割;3)它是端到端的,可以通过更简单的训练和推理管道进行训练。在多个公共基准测试上进行的广泛实验表明,与最先进的技术相比,UniDAformer 实现了卓越的域自适应全景分割。
[3]Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models
推荐理由:该论文提出了 ODISE:基于开放词汇扩散的全景分割,它统一了预训练的文本图像扩散和判别模型来执行开放词汇全景分割。该论文方法在开放词汇全景和语义分割任务上的表现都优于以前的最先进技术。特别是,仅通过 COCO 训练,该方法在 ADE20K 数据集上实现了 23.4 PQ 和 30.0 mIoU,与之前的最先进技术相比有 8.3 PQ 和 7.9 mIoU 的绝对改进。
3
语义分割类
[1]Federated Incremental Semantic Segmentation
推荐理由:该论文提出了一种遗忘平衡学习(FBL)模型,从客户端内和客户端间两个方面解决旧类上的异构遗忘问题。在自适应类平衡伪标签生成的伪标签的指导下,开发遗忘平衡语义补偿损失和遗忘平衡关系一致性损失,以纠正具有背景转移的旧类别的客户端内异构遗忘。此外该论文还提出了一种任务转移监视器。它可以识别受隐私保护的新类,并存储最新的旧全局模型以进行关系提取。定性实验表明,与比较方法相比,该模型有了很大的改进。
[2]Exploiting the Complementarity of 2D and 3D Networks to Address Domain-Shift in 3D Semantic Segmentation
推荐理由:3D语义分割是许多现实世界应用中的一项关键任务,如自动驾驶、机器人和混合现实。然而,由于3D点云的非结构化、稀疏和未着色性质带来的模糊性,该任务极具挑战性。该论文贡献在四个流行的多模态无监督领域自适应基准上实现了最先进的性能,并在领域泛化场景中取得了更好的结果。
[3]Instant Domain Augmentation for LiDAR Semantic Segmentation
推荐理由:本文提出了一种用于语义分割任务的快速灵活的LiDAR增强方法,称为“LiDomAug”。它聚合原始 LiDAR 扫描,并在考虑动态失真和遮挡的情况下创建任何配置的 LiDAR 扫描,从而实现即时域增强。在该实验中,借助所提出的LiDomAug的基于学习的方法受传感器偏差问题的影响较小,并且在不使用目标域数据的情况下,在SemanticKITTI和nuScenes数据集上实现了新的最先进的域适应性能。
4
实例分割类
[1]SIM: Semantic-aware Instance Mask Generation for Box-Supervised Instance Segmentation
推荐理由:仅使用边界框注释的弱监督实例分割最近引起了广泛的研究关注。该论文通过开发语义感知实例掩码(SIM)生成范式,提出了一种新的框监督实例分割方法。考虑到语义感知原型无法区分相同语义的不同实例,该论文提出了一种自我纠正机制来纠正错误激活的区域,同时增强正确的区域。广泛的实验结果表明,提出的SIM方法优于其他最先进的方法。
[2]DynaMask: Dynamic Mask Selection for Instance Segmentation
推荐理由:为了减轻使用大掩码导致的计算和内存成本的增加,该论文开发了一个计算成本可忽略不计的掩码切换模块(MSM)来为每个实例选择最合适的掩码分辨率,在保持高分割精度的同时实现高效率。没有花哨的地方,所提出的方法,即 DynaMask,以适度的计算开销带来了比其他最先进的一致和显着的性能改进。
[3]ISBNet: a 3D Point Cloud Instance Segmentation Network with Instance-aware Sampling and Box-aware Dynamic Convolution
推荐理由:现有的3D实例分割方法主要是自下而上的设计——手动微调算法,将点分组为簇,然后是细化网络。为了解决这些限制,该论文引入了ISBNet,这是一种新的无集群方法,它将实例表示为内核,并通过动态卷积解码实例掩码。为了有效地生成高召回率和判别性内核,还提出了一种名为实例感知最远点采样的简单策略来对候选进行采样,并利用PointNet++启发的局部聚合层对候选特征进行编码。