【论文速递】Arxiv2018 - 加州伯克利大学借助引导网络实现快速、准确的小样本分割

简介: 【论文速递】Arxiv2018 - 加州伯克利大学借助引导网络实现快速、准确的小样本分割

【论文速递】Arxiv2018 - 加州伯克利大学借助引导网络实现快速、准确的小样本分割

【论文原文】:Few-Shot Segmentation Propagation with Guided Networks

作者信息】:Kate Rakelly∗ Evan Shelhamer∗ Trevor Darrell Alexei Efros Sergey Levine

获取地址:https://arxiv.org/pdf/1806.07373

博主关键词: 小样本学习,语义分割,引导网络

推荐相关论文:

【论文精选】TPAMI2020 - PFENet_先验引导的特征富集网络_小样本语义分割
- https://phoenixash.blog.csdn.net/article/details/128720119

摘要:

基于学习的视觉分割方法已经在特定类型的分割任务上取得了进展,但受到必要的监督、固定任务的狭隘定义以及在纠正错误的推理过程中缺乏控制的限制。为了弥补标准方法的刚性和注释负担,我们解决了小样本分割的问题:给定少量图像和少量像素监督,相应地分割任何图像。我们提出了引导网络,它从任意数量的监督中提取潜在的任务表示,并优化我们的端到端架构,以实现快速、准确的小样本分割。 我们的方法可以在没有进一步优化的情况下切换任务,并在得到更多指导时快速更新。我们报告了从每个概念一个像素分割的第一个结果,并展示了实时交互式视频分割。我们的统一方法跨空间传播像素注释以进行交互式分割,跨时间传播像素注释以进行视频分割,跨场景传播像素注释以进行语义分割。我们的引导分割器在注释量和时间的准确性方面是最先进的。有关代码、模型和更多细节,请参阅http://github.com/shelhamer/revolver。

简介:

学习特定类型的分割,甚至将现有模型扩展到新任务(如新的语义类),通常需要收集和注释大量数据,并(重新)训练模型进行多次迭代。目前的方法是由数千或数万个完全注释的图像来监督的,这样即使是一个“小”数据集也包含数十亿个像素级注释。收集这些密集的注释非常耗时、乏味且容易出错。有许多具有实际和科学意义的任务,在这种规模上的注释是不切实际的,甚至是不可行的,例如平面设计、医学成像等等。

半监督和弱监督分割方法可以跨任务中的输入传播注释(整个视频中的实例分割)或跨不同类型的注释(标签、框和掩码),但目前的方法是特定于任务或监督形式的,并且通常在计算或数据方面效率低下。一旦学会,这些方法很难指导或纠正,并且对少量的进一步注释不敏感。另一方面,交互式分割方法调整到给定的任务很少注释,并可以校正。然而,注释只控制对同一图像的推断,不能通知分割新的输入。

相反,我们解决了小样本分割的问题:只给出一些带有稀疏像素级注释的图像来指示任务,相应地分割没有注释的图像。我们统一的框架是“像素输入,像素输出”,用于从图像内部和跨图像传播任何像素注释集合到未注释的像素进行推断。我们直接优化引导网络来推断由稀疏注释定义的潜在任务,并分割以该任务为条件的新输入。 我们的小样本分段器从每个概念的一个像素中分割出新的概念,并在几乎瞬间结合进一步的注释来更新和改进推理。现有的方法是为特定的分割任务而设计的,在极其稀疏的区域失败,而我们的方法可以在光谱上从一个注释的像素传播到完整、密集的掩模。我们的小样本分割器在根据注释进行切换时是任务不可知的,在从少数像素级注释中学习数据时是高效的,并且在逐步纳入更多监督时是可纠正的。

小样本设置将输入分为一个带注释的支持(监督要完成的任务)和一个应相应地进行分段的无注释查询。在这项工作中,我们解决了小样本分割问题的这些关键部分:(1)如何将稀疏的、结构化的支持总结为任务表示,(2)如何在给定的任务表示上调整像素推理,以及(3)如何综合分割任务的准确性和一般性。结构化输出由于其高维、统计依赖和倾斜的输入和输出分布,对这些方面都提出了挑战。 我们在图像分类设置中连接小样本方法,因为我们使它们适应于分割,以便与我们的方法进行比较。

我们提出了一类新的引导网络,它扩展了小样本和全卷积架构;参见图1。给定一个标注的支持集和查询图像,引导g提取任务的潜在表示z,它通过fθ指导查询的分割。 我们对如何编码支持进行了全面的比较(第4.1节),并引入了一种用于融合图像和注释的新机制,该机制提高了学习时间和推理精度。我们研究了不同的引导推理选择(第4.2节),以确定哪个最适合结构化输出。一旦经过训练,我们的模型就不需要进一步的优化来处理新的少量任务,并且可以快速增量地合并额外的注释来改变任务或纠正错误。

我们在各种具有挑战性的分割问题上评估了我们的方法:5.1中的交互式图像分割,5.2中的语义分割,5.3中的视频对象分割和5.4中的实时交互式视频分割。图2说明了我们所考虑的问题。我们的结果的重点是在稀疏区域,对于这种情况,收集注释是实用的。在所有情况下,我们的准确性都是最先进的注释量和所需的时间。我们的方法合并新注释的速度使它适合实时交互使用。

目录
相关文章
|
3月前
|
机器学习/深度学习 编解码 计算机视觉
【APFN】从大佬论文中探索如何分析改进金字塔网络
【APFN】从大佬论文中探索如何分析改进金字塔网络
105 0
|
1天前
|
算法 计算机视觉 网络架构
CVPR 202:擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet
【5月更文挑战第10天】在CVPR 2024会议上,清华大学与博世团队推出MagNet,一种针对复杂场景和语言表达的实例分割网络。MagNet通过Mask Grounding辅助任务强化视觉-语言对应,缩小模态差距,并结合跨模态对齐损失与模块,提升RIS任务的准确性。在RefCOCO、RefCOCO+和G-Ref基准上取得显著优势,但对罕见表达和复杂场景的处理仍有待优化。[论文链接](https://arxiv.org/abs/2312.12198)
11 5
|
2天前
|
机器学习/深度学习 存储 自然语言处理
【威胁情报挖掘-论文阅读】学习图表绘制 基于多实例学习的网络行为提取 SeqMask: Behavior Extraction Over Cyber Threat Intelligence
【威胁情报挖掘-论文阅读】学习图表绘制 基于多实例学习的网络行为提取 SeqMask: Behavior Extraction Over Cyber Threat Intelligence
6 0
|
19天前
|
监控 安全 网络虚拟化
VLAN分割网络
VLAN是将物理网络划分为逻辑上的虚拟网络,增强安全、和可扩展性,采用模块化或层次化架构。VLAN划分基于组织结构、安全需求和性能,通过限制广播域和配置跨VLAN路由来控制流量。利用动态分配技术如802.1X和虚拟化服务(VRF、VXLAN)提升灵活性。使用集中管理工具和自动化策略简化网络管理,降低错误和成本。
11 2
|
27天前
|
机器学习/深度学习
yolov7论文学习——创新点解析、网络结构图
yolov7论文学习——创新点解析、网络结构图
|
2月前
|
机器学习/深度学习 开发者
论文介绍:基于扩散神经网络生成的时空少样本学习
【2月更文挑战第28天】论文介绍:基于扩散神经网络生成的时空少样本学习
17 1
论文介绍:基于扩散神经网络生成的时空少样本学习
|
1天前
|
网络协议 Linux 网络架构
|
4天前
|
域名解析 网络协议 Linux
linux网络配置详解
linux网络配置详解
13 0
|
5天前
|
网络协议 Java Linux
【探索Linux】P.29(网络编程套接字 —— 简单的TCP网络程序模拟实现)
【探索Linux】P.29(网络编程套接字 —— 简单的TCP网络程序模拟实现)
11 0
|
5天前
|
存储 网络协议 算法
【探索Linux】P.28(网络编程套接字 —— 简单的UDP网络程序模拟实现)
【探索Linux】P.28(网络编程套接字 —— 简单的UDP网络程序模拟实现)
11 0