A Semisupervised CRF Model for CNN-Based Semantic Segmentation With Sparse Ground Truth

简介: A Semisupervised CRF Model for CNN-Based Semantic Segmentation With Sparse Ground Truth

论文阅读:

A Semisupervised CRF Model for CNN-Based Semantic Segmentation With Sparse Ground Truth

作者声明

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

原文链接:凤⭐尘 》》https://www.cnblogs.com/phoenixash/p/15390699.html

基本信息

**\1.标题:**A Semisupervised CRF Model for CNN-Based Semantic Segmentation With Sparse Ground Truth

**\2.作者:**Luca Maggiolo, Diego Marcos , Gabriele Moser , Senior Member, IEEE, Sebastiano B. Serpico , Fellow, IEEE, and Devis Tuia , Senior Member, IEEE

**\3.作者单位:**University of Genoa, Wageningen University, Ecole Polytechnique

**\4.发表期刊/会议:**TGRS

**\5.发表时间:**2021

**\6.原文链接:**https://ieeexplore.ieee.org/document/9497318/

Abstract

卷积神经网络(CNNs)具有在学习相关特征的同时自动捕获语义信息的能力,是高分辨率(VHR)图像语义分割的新参考方法。然而,对于大多数监督方法来说,map精度取决于训练它们所用的真值(ground truth, GT)的数量和质量。密集数据标注的使用(即详细的、详尽的、像素级GT)允许获得有效的CNN模型,但通常意味着标注的工作量很大。在测试新方法的基准数据集中往往可以得到这种真值数据,但在土地覆盖应用的实际数据中却不能得到这种情况,因为只有稀疏的标注可能具有足够的成本效益。用这种不完整的真值图训练的CNN模型有平滑对象边界的倾向,因为它们从来没有在GT中精确地描绘出来。为了解决这些问题,我们提出利用CNN的中间激活特征,并部署半监督全连接条件随机场(CRF)。与使用相同稀疏标注的竞争对手相比,本文方法能够较好地填补在通常不可用的密集真值标注上训练的CNN的部分性能空白。

1.Introduction

如今,非常高分辨率(VHR)遥感图像已经达到了十进制或厘米的分辨率,从而使城市空间的高分辨率制图成为可能。卷积神经网络(cnn)代表了解决这类任务的新标准。最近的研究表明,基于全卷积cnn[2],[3]的方法可以达到很高的逐像素级别精度,甚至可以重现被分割物体的正确形状。这是因为这类模型的上层可以捕获形状统计信息并将其注入输出映射中。然而,为了正确建模这些统计数据,CNN需要从稠密的准确地代表了所有对象的边界的真值(GT)中学习它们。尽管在基准数据集中可以使用这种细粒度的GT映射,但它们的创建是非常劳动密集型的;因此,密集的像素级GT在真实的映射应用程序中很少可用。更常见的是只有少量的注释可用于训练模型(见图1的左部)。这种情况下,用于训练的图片仅有部分标注,可以从semisupervised学习[4],[5]从获得提升,其中标记和未标记像素都被利用来解决任务。


在这项工作中,我们关注的是如何提高一个训练不完整的CNN,更容易获得的结果,例如,潦草的GT,从而陷入半监督设置。部分标注的gt具有不同的细节级别。第一类是最节省时间的,只提供图像级的标签(即场景中的一个类列表,没有任何位置信息[6])。这个场景可以放宽到更本地化但不完整的注释的情况,比如每个类[7]的单个像素位置,或者以手绘涂鸦[8]的形式的多个位置。我们提出了一种针对后一种情况的方法,旨在减轻稀疏标注训练集的影响,同时部分恢复物体形状。该方法基于一种新颖而高效的全连接条件随机场(CRF)的近似,通过聚类的中间节点来考虑长时间空间依赖关系。聚类阶段使用中间CNN特征,同时有利于低通滤波、高级语义和锐化边缘。关键思想是接受明显次优(即潦画的)训练集,并通过将其集成到一个概率图形模型中,尽可能多地利用CNN在所有层和激活过程中捕获的信息。

为了实验验证该方法,我们从著名的航空土地覆盖基准开始模拟潦草的标注。为了这个目的,我们运用形态学腐蚀和删除大部分注释对象(见图1),下调他们的密集的真值标注。这种测试方法可以验证该方法的有效性和评估原始密集的真值的退化如何影响分类精度。

研究者们在会议论文[9]中发表了这项工作的初步介绍。我们在此进行了扩展,提供了深入的方法分析,并在另外一个数据集(波茨坦国际摄影测量和遥感学会(ISPRS)Potsdam)上添加了结果。

本文的组织如下。第二节回顾了CNN和CRF文献中之前的相关工作。在第三节中,我们提出了提出的模型的方法学公式。在第四节中,我们描述了数据集和实验设置,然后在第五节讨论其结果,最后在第六节得出结论。

2.Previous Work

A. Convolutional Neural Networks

cnn[10],[11]是图像语义分割的新标准。与传统的特征工程相比,它们具有从数据中学习特征和学习下游任务的优点。在VHR像素级分割方面已有大量的文献。[12]-[15]第一次尝试使用滑动窗口进行推理,并将patch映射到单个标签(代表patch的中心像素),从而通过每次生成一个像素生成整个类别映射。然而,这远远不够高效,限制了CNN自身在分类过程中对空间信息进行编码的能力。为了解决这个问题,发展出了不同的CNN架构,以便进行密集预测,即同时估计输入patch中包含的所有像素的分类标签。通过这种方式,网络隐式地编码了不同类之间的空间关系。示例包括通过插值对激活进行上采样[3],全卷积模型[16],[17],以及学到的反卷积层[2]。在[18]中,模型甚至被训练来预测对象边界作为辅助任务。[20]和[21]的作者受到超柱模型[19]的启发,在多个尺度上叠加上采样激活,以训练其他层进行密集预测。

这部分文献证明了利用cnn进行遥感图像处理的机会,但也显示了一个重要的缺点;用于语义分割的cnn通常假定有大量标注的数据可用,而这些数据通常是不可用的。当CNN用不完整或潦草的真值进行训练时,得到的预测图通常几何保真度很差,特别是在目标边界附近,那里通常没有提供训练样本。这些真值不完全的案例被视为监督不完全的弱监督问题[22]。不同级别的不完整的标签已经被用于进行语义分割,如没有任何位置信息的图像级标签[23]、单点标签[7]或潦草的标签[8]、[24]、[25]。最近的大多数方法是通过在CNN[26],[27]的训练中集成伪标签来解决GT的不完全性。相反,本文提出的方法既没有对CNN模型进行修改,也没有对训练中使用的数据进行修改。相反,该方法使用一种新的CRF模型来增强上下文信息,该模型近似完整的连通性,以考虑长期空间关系。在第二- b节中回顾了以前关于CRF建模的相关工作。

B. Conditional Random Fields

解决训练样本稀缺问题的一种方法是注入关于空间上下文信息的先验信息,通常使用图模型。CRFs[28]是一种概率图模型,它包含了基于观测变量的相邻像素之间的类交互的上下文信息[29][30]。CRF由能量函数决定,能量函数相对于标签的最小值提供了最大后验(MAP)解[29]。

利用一元和成对势的传统CRF公式的一个局限性是邻接结构不允许CRF捕获图像内的长程依赖。在一个VHR图像中,一个像素可以代表一个线性大小甚至等于5-10厘米的地面区域,所以寻找直接的邻居可能不能捕获足够的上下文。在文献中,为了解决受限邻域的问题,基本的CRF结构被扩展到包括层次连通性和定义在图像区域[31]-[34]上的高阶势。即使不同的模型显示出显著的进展[33]-[35],所有这些方法的准确性都受到无监督图像分割过程的准确性的限制,该过程用于计算模型操作的区域。在[36]中,提出了一个适应不同空间支撑的模型,特别是关于像素和区域的模型。在这两层上估计的后验是用两层互连的CRF概率融合的。这个模型的输入可以是任何分类器的输出,它估计标签上的像素后验分布。在[37]中,CNN用于联合学习两个任务:语义分割和语义边界检测。然后,利用边界来确定CRF模型中的一对势。但是,这个模型需要一个具有精确边界的GT,对于上一节讨论的方法,我们认为不现实。

理想情况下,编码远程连接的替代方案是一个完全连接的CRF,该模型中每个像素都与图像的其他像素相连接[38]-[41]。这使得每个像素可以从整个图像的相似像素中收集信息,而不仅仅是从它自己的相邻像素中。全连接CRF建模的naïve方法将使用一个密集的NxN成对矩阵(N是总像素数),这在内存和计算复杂性方面是不切实际的。

一种基于平均场近似[42]的有效方法已被证明是向理想的完全连通模型行为移动的有效方法。尽管如此,这种近似的复杂性与特征空间的维数是线性的,这使得它对于高维空间的使用是不切实际的,无论是与高光谱图像本身相关的还是从大量提取的特征中提取的。在这项工作中,我们通过利用网络中间层提取的高维特征来定义一个额外的结构来处理这一限制。


AIEarth是一个由众多领域内专家博主共同打造的学术平台,旨在建设一个拥抱智慧未来的学术殿堂!【平台地址:https://devpress.csdn.net/aiearth】 很高兴认识你!加入我们共同进步!

目录
相关文章
|
机器学习/深度学习 网络架构 计算机视觉
论文笔记之:A CNN Cascade for Landmark Guided Semantic Part Segmentation
  A CNN Cascade for Landmark Guided Semantic Part Segmentation  ECCV 2016     摘要:本文提出了一种 CNN cascade (CNN 级联)结构,根据一系列的定位(landmarks or keypoints),得到特定的 pose 信息,进行 语义 part 分割。
|
1月前
|
机器学习/深度学习 计算机视觉 网络架构
为什么卷积现在不火了:CNN研究热度降温的深层原因分析
纵观近年的顶会论文和研究热点,我们不得不承认一个现实:CNN相关的研究论文正在减少,曾经的"主角"似乎正逐渐淡出研究者的视野。
89 11
为什么卷积现在不火了:CNN研究热度降温的深层原因分析
|
20天前
|
机器学习/深度学习 人工智能 自然语言处理
深入理解深度学习中的卷积神经网络(CNN)##
在当今的人工智能领域,深度学习已成为推动技术革新的核心力量之一。其中,卷积神经网络(CNN)作为深度学习的一个重要分支,因其在图像和视频处理方面的卓越性能而备受关注。本文旨在深入探讨CNN的基本原理、结构及其在实际应用中的表现,为读者提供一个全面了解CNN的窗口。 ##
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习中的卷积神经网络(CNN): 从理论到实践
本文将深入浅出地介绍卷积神经网络(CNN)的工作原理,并带领读者通过一个简单的图像分类项目,实现从理论到代码的转变。我们将探索CNN如何识别和处理图像数据,并通过实例展示如何训练一个有效的CNN模型。无论你是深度学习领域的新手还是希望扩展你的技术栈,这篇文章都将为你提供宝贵的知识和技能。
147 7
|
27天前
|
机器学习/深度学习 自然语言处理 算法
深入理解深度学习中的卷积神经网络(CNN)
深入理解深度学习中的卷积神经网络(CNN)
36 1
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
探索深度学习中的卷积神经网络(CNN)及其在现代应用中的革新
探索深度学习中的卷积神经网络(CNN)及其在现代应用中的革新
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习中的卷积神经网络(CNN)及其在图像识别中的应用
本文旨在通过深入浅出的方式,为读者揭示卷积神经网络(CNN)的神秘面纱,并展示其在图像识别领域的实际应用。我们将从CNN的基本概念出发,逐步深入到网络结构、工作原理以及训练过程,最后通过一个实际的代码示例,带领读者体验CNN的强大功能。无论你是深度学习的初学者,还是希望进一步了解CNN的专业人士,这篇文章都将为你提供有价值的信息和启发。
|
1月前
|
机器学习/深度学习 人工智能 网络架构
深入理解深度学习中的卷积神经网络(CNN)
深入理解深度学习中的卷积神经网络(CNN)
43 1
|
1月前
|
机器学习/深度学习 人工智能 算法框架/工具
深度学习中的卷积神经网络(CNN)入门
【10月更文挑战第41天】在人工智能的璀璨星空下,卷积神经网络(CNN)如一颗耀眼的新星,照亮了图像处理和视觉识别的路径。本文将深入浅出地介绍CNN的基本概念、核心结构和工作原理,同时提供代码示例,带领初学者轻松步入这一神秘而又充满无限可能的领域。
|
1月前
|
机器学习/深度学习 人工智能 数据处理
深入浅出卷积神经网络(CNN)
【10月更文挑战第40天】本文旨在通过浅显易懂的语言和直观的示例,带领初学者了解并掌握卷积神经网络(CNN)的基本概念、结构以及在图像处理中的应用。我们将从CNN的核心组成讲起,逐步深入到网络训练的过程,最后通过一个实际的代码示例来展示如何利用CNN进行图像识别任务。无论你是编程新手还是深度学习爱好者,这篇文章都将为你打开一扇通往人工智能世界的新窗。

热门文章

最新文章