CVPR 2023 最全分割类论文整理:图像/全景/语义/实例分割等【附PDF+代码】

简介: CVPR 2023 最全分割类论文整理:图像/全景/语义/实例分割等【附PDF+代码】

0


1

图像分割类


[1]AutoFocusFormer: Image Segmentation off the Grid

推荐理由:该论文提出了 AutoFocusFormer (AFF),一种局部注意力变换器图像识别主干,它通过学习保留任务最重要的像素来执行自适应下采样。放弃了经典的网格结构,该论文开发了一种新的基于点的局部注意力块,由平衡聚类模块和可学习的邻域合并模块提供便利,可以为最先进的分割头的基于点的版本生成表示。实验表明,AutoFocusFormer (AFF) 比类似尺寸的基线模型有显着改进。


[2]FreeSeg: Unified, Universal and Open-Vocabulary Image Segmentation

推荐理由:该论文提出了 FreeSeg,这是一个通用框架,可以实现统一、通用和开放词汇的图像分割。广泛的实验结果表明,FreeSeg 在三个分割任务的性能和泛化方面建立了新的最先进结果,大大优于最佳特定任务架构:语义分割 5.5% mIoU,实例 mAP 17.6%分割,COCO 上未见类的全景分割 PQ 为 20.1%。


[3]Parameter Efficient Local Implicit Image Function Network for Face Segmentation

推荐理由:人脸解析被定义为包含人脸的图像的每像素标记。定义标签来识别眼睛、嘴唇、鼻子、头发等关键面部区域。该论文利用人脸的结构一致性,提出了一种使用局部隐函数网络FP-LIF的轻量级人脸解析方法。也提出了一种简单的架构,该架构具有卷积编码器和像素MLP解码器,与最先进的模型相比,该架构使用了1/26个参数,但在多个数据集(如CelebMask HQ和LaPa)上匹配或优于最先进的模型。



2

全景分割类


[1]You Only Segment Once: Towards Real-Time Panoptic Segmentation

推荐理由:该论文提出了YOSO,一种实时全景分割框架。YOSO通过全景内核和图像特征图之间的动态卷积来预测掩码,其中只需为实例和语义分割任务分割一次。为了减少计算开销,设计了一个用于特征图提取的特征金字塔聚合器,以及一个用于全景内核生成的可分离动态解码器。


[2]UniDAformer: Unified Domain Adaptive Panoptic Segmentation Transformer via Hierarchical Mask Calibration

推荐理由:该论文设计了UniDAformer,这是一种统一域自适应全景分割转换器,它简单,但可以在单个网络中同时实现域自适应实例分割和语义分割。它具有三个独特的功能:1)可实现统一域自适应全景自适应;2)有效减少错误预测,提高域自适应全景分割;3)它是端到端的,可以通过更简单的训练和推理管道进行训练。在多个公共基准测试上进行的广泛实验表明,与最先进的技术相比,UniDAformer 实现了卓越的域自适应全景分割。


[3]Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models

推荐理由:该论文提出了 ODISE:基于开放词汇扩散的全景分割,它统一了预训练的文本图像扩散和判别模型来执行开放词汇全景分割。该论文方法在开放词汇全景和语义分割任务上的表现都优于以前的最先进技术。特别是,仅通过 COCO 训练,该方法在 ADE20K 数据集上实现了 23.4 PQ 和 30.0 mIoU,与之前的最先进技术相比有 8.3 PQ 和 7.9 mIoU 的绝对改进。




3

语义分割类


[1]Federated Incremental Semantic Segmentation

推荐理由:该论文提出了一种遗忘平衡学习(FBL)模型,从客户端内和客户端间两个方面解决旧类上的异构遗忘问题。在自适应类平衡伪标签生成的伪标签的指导下,开发遗忘平衡语义补偿损失和遗忘平衡关系一致性损失,以纠正具有背景转移的旧类别的客户端内异构遗忘。此外该论文还提出了一种任务转移监视器。它可以识别受隐私保护的新类,并存储最新的旧全局模型以进行关系提取。定性实验表明,与比较方法相比,该模型有了很大的改进。


[2]Exploiting the Complementarity of 2D and 3D Networks to Address Domain-Shift in 3D Semantic Segmentation

推荐理由:3D语义分割是许多现实世界应用中的一项关键任务,如自动驾驶、机器人和混合现实。然而,由于3D点云的非结构化、稀疏和未着色性质带来的模糊性,该任务极具挑战性。该论文贡献在四个流行的多模态无监督领域自适应基准上实现了最先进的性能,并在领域泛化场景中取得了更好的结果。


[3]Instant Domain Augmentation for LiDAR Semantic Segmentation

推荐理由:本文提出了一种用于语义分割任务的快速灵活的LiDAR增强方法,称为“LiDomAug”。它聚合原始 LiDAR 扫描,并在考虑动态失真和遮挡的情况下创建任何配置的 LiDAR 扫描,从而实现即时域增强。在该实验中,借助所提出的LiDomAug的基于学习的方法受传感器偏差问题的影响较小,并且在不使用目标域数据的情况下,在SemanticKITTI和nuScenes数据集上实现了新的最先进的域适应性能。


4

实例分割类


[1]SIM: Semantic-aware Instance Mask Generation for Box-Supervised Instance Segmentation

推荐理由:仅使用边界框注释的弱监督实例分割最近引起了广泛的研究关注。该论文通过开发语义感知实例掩码(SIM)生成范式,提出了一种新的框监督实例分割方法。考虑到语义感知原型无法区分相同语义的不同实例,该论文提出了一种自我纠正机制来纠正错误激活的区域,同时增强正确的区域。广泛的实验结果表明,提出的SIM方法优于其他最先进的方法。


[2]DynaMask: Dynamic Mask Selection for Instance Segmentation

推荐理由:为了减轻使用大掩码导致的计算和内存成本的增加,该论文开发了一个计算成本可忽略不计的掩码切换模块(MSM)来为每个实例选择最合适的掩码分辨率,在保持高分割精度的同时实现高效率。没有花哨的地方,所提出的方法,即 DynaMask,以适度的计算开销带来了比其他最先进的一致和显着的性能改进。


[3]ISBNet: a 3D Point Cloud Instance Segmentation Network with Instance-aware Sampling and Box-aware Dynamic Convolution

推荐理由:现有的3D实例分割方法主要是自下而上的设计——手动微调算法,将点分组为簇,然后是细化网络。为了解决这些限制,该论文引入了ISBNet,这是一种新的无集群方法,它将实例表示为内核,并通过动态卷积解码实例掩码。为了有效地生成高召回率和判别性内核,还提出了一种名为实例感知最远点采样的简单策略来对候选进行采样,并利用PointNet++启发的局部聚合层对候选特征进行编码。

相关文章
|
API 数据库 对象存储
ModelScope有的论文可以找到,有的找不到,上传空间不能上传PDF
ModelScope有的论文可以找到,有的找不到,上传空间不能上传PDF
109 3
|
3月前
|
人工智能 自然语言处理 算法
科研论文翻译神器!BabelDOC:开源AI工具让PDF论文秒变双语对照,公式图表全保留
BabelDOC 是一款专为科学论文设计的开源AI翻译工具,采用先进的无损解析技术和智能布局识别算法,能完美保留原文格式并生成双语对照翻译。
1401 67
科研论文翻译神器!BabelDOC:开源AI工具让PDF论文秒变双语对照,公式图表全保留
|
3月前
|
程序员 开发者
PDF 转图片,一行代码搞定!批量支持已上线!
大家好,我是程序员晚枫!今天为大家介绍 `popdf` 的新功能:PDF 转图片,支持批量操作!只需一行代码即可完成单文件转换,批量处理也只需简单修改参数。工具简单易用,小白也能快速上手。`popdf` 是我开发的实用工具之一,旨在解决开发中的小痛点。欢迎访问 GitHub 项目地址 (<https://github.com/CoderWanFeng/popdf>),提出建议或加入开源小组,一起交流进步!快来体验吧,保证让你惊艳! 😄
115 16
|
3月前
|
程序员 开发者
开源项目:一行代码,批量 PDF 转 Word 轻松搞定!
程序员晚枫分享了 `popdf` 的新功能:支持批量 PDF 转 Word!只需简单代码,即可轻松实现单文件或批量转换。`input_path` 和 `output_path` 参数让操作更便捷,适合处理大量 PDF 文件。作为开发者,晚枫致力于解决技术小痛点,欢迎体验并反馈。项目地址:[https://github.com/CoderWanFeng/popdf](https://github.com/CoderWanFeng/popdf)
162 6
|
7月前
|
人工智能 文字识别 数据挖掘
MarkItDown:微软开源的多格式转Markdown工具,支持将PDF、Word、图像和音频等文件转换为Markdown格式
MarkItDown 是微软开源的多功能文档转换工具,支持将 PDF、PPT、Word、Excel、图像、音频等多种格式的文件转换为 Markdown 格式,具备 OCR 文字识别、语音转文字和元数据提取等功能。
1136 9
MarkItDown:微软开源的多格式转Markdown工具,支持将PDF、Word、图像和音频等文件转换为Markdown格式
|
IDE Java 编译器
使用Java分割PDF文件
使用Java分割PDF文件
257 1
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
Documind:开源 AI 文档处理工具,将 PDF 转换为图像提取结构化数据
Documind 是一款利用 AI 技术从 PDF 中提取结构化数据的先进文档处理工具,支持灵活的本地或云端部署。
313 8
Documind:开源 AI 文档处理工具,将 PDF 转换为图像提取结构化数据
|
Java
java处理pdf代码
java处理pdf代码
83 0
|
9月前
|
Java BI API
spring boot 整合 itextpdf 导出 PDF,写入大文本,写入HTML代码,分析当下导出PDF的几个工具
这篇文章介绍了如何在Spring Boot项目中整合iTextPDF库来导出PDF文件,包括写入大文本和HTML代码,并分析了几种常用的Java PDF导出工具。
1761 0
spring boot 整合 itextpdf 导出 PDF,写入大文本,写入HTML代码,分析当下导出PDF的几个工具
|
11月前
|
C# 开发者 Windows
WPF与PDF文档:解锁创建和编辑PDF文件的新技能——从环境配置到代码实践,手把手教你如何在WPF应用中高效处理PDF,提升文档管理效率
【8月更文挑战第31天】随着数字文档的普及,PDF因跨平台兼容性和高保真度成为重要格式。WPF虽不直接支持PDF处理,但借助第三方库(如iTextSharp)可在WPF应用中实现PDF的创建与编辑。本文通过具体案例和示例代码,详细介绍了如何在WPF中集成PDF库,并展示了从设计用户界面到实现PDF创建与编辑的完整流程。不仅包括创建新文档的基本步骤,还涉及在现有PDF中添加页眉页脚等高级功能。通过这些示例,WPF开发者可以更好地掌握PDF处理技术,提升应用程序的功能性和实用性。
517 0

热门文章

最新文章