基于不同监督强度分类的语义分割综述:A Breif Survey on Semantic Segmentation with Deep Learning

简介: 引言:语义分割是计算机视觉中一项具有挑战性的任务。近年来,深度学习技术的应用大大提高了语义分割的性能。人们提出了大量的新方法。本文旨在对基于深度学习的语义分割方法的研究进展进行简要综述。全文将该领域的研究按其监督程度进行了分类,即完全监督方法、弱监督方法和半监督方法。文章还讨论了当前研究的共同挑战,并提出了该领域的几个有价值的发展研究点。本综述旨在让读者了解深度学习时代语义分割研究的进展和面临的挑战。

1ed6212c96314963ae8fca745c781e5f.png


引言:语义分割是计算机视觉中一项具有挑战性的任务。近年来,深度学习技术的应用大大提高了语义分割的性能。人们提出了大量的新方法。本文旨在对基于深度学习的语义分割方法的研究进展进行简要综述。全文将该领域的研究按其监督程度进行了分类,即完全监督方法、弱监督方法和半监督方法。文章还讨论了当前研究的共同挑战,并提出了该领域的几个有价值的发展研究点。本综述旨在让读者了解深度学习时代语义分割研究的进展和面临的挑战。


论文链接https://www.sciencedirect.com/science/article/pii/S0925231220305476


如何读论文?


第一步,看标题+摘要+结论+图表(了解论文在干什么)


第二步,从头到尾读到最后(了解论文的各个部分)


第三步,精读,理解创新点、思路、动机


语义分割介绍


d9eb957137a5447c682f851d83fdbe5d.png


图(a)是原始输入图像


语义分割-图(b):通过给定一张图片,语义分割能给每一个像素分配相应的标签/类别


图片分类-图©: 图片分类能告诉我们,什么物体存在于这张图片中


目标检测-图(d): 不仅仅需要知道图片中需要存在什么物体,还应该知道他们的坐标


实例分割-图(e): 与语义分割相似,区别是检测每一个物体作为一个独立的类别,相同的类别有不同的车,例如图片中的车,不同的车有着不同的颜色


全景分割-图(f): 类似于语义分割+实例分割的结合体,不仅要识别出每一个物体,也需要识别出背景


常见的主干网络


网络 提出时间 贡献
AlexNet 2012 引发了深度学习的浪潮,首次将模型训练应用于GPU中
VGG 2014 大量使用3x3或5x5的卷积核构建更深层的网络
ResNet 2016 解决了梯度消失和梯度爆炸等问题,使得构建深层网络成为可能
MobileNetV3 2019 使用dw卷积,倒残差结构,加入自注意力机制,在精度损失较小的情况下,使模型更轻量化
ViT 2020 首次将自然语言处理的方法应用到视觉任务中来,取得了较大的精度提升


🚀从不同监督强度介绍分割方法


全监督


1.基于语义的方法


context:翻译为上下文,我所理解的上下文,就是图像中的每一个像素点不可能是孤立的,一个像素一定和周围像素是有一定的关系的,大量像素的互相联系才产生了图像中的各种物体,所以上下文特征就指像素以及周边像素的某种联系。


5af06842df1365f21e47d6687f3626af.png


在图像需要全局信息的问题中,都能很好的应用膨胀卷积,膨胀卷积保持参数个数不变的情况下增大了卷积核的感受野,让每个卷积输出都包含较大范围的信息


e7b0c593dbb0418aadc7acda80422563.gif


使用膨胀卷积前后,分割效果对比:


af67d7c22c0a4cd7a154035db690acef.png


2.特征增强法


  • 在深层提取的特征具有更强的语义感知能力,但由于池化和步幅卷积,失去了空间细节。


  • 来自浅层的特征更注重细节,如强边缘。在这种情况下,这两种类型的特征的适当合作有可能提高语义分割的性能。


利用语义感知能力+空间细节能力提高性能


fe6acdaeb4cac6c3da6eec6f5c1a5f64.png


3.反卷积法


image-20221020152609622.png


下图展示了转置卷积中不同s和p的情况


s=1, p=0, k=3 s=2, p=0, k=3 s=2, p=1, k=3

dbb10ea62b89456ca567eb69fd31d18b.gif          94191375edb942a087c54173a1dd4e75.gif               dc6050f7df5042f886054f16d8e522d1.gif

下列是一些基于反卷积的分割方法:


358642fcc9803ea3d6233baafd5172ba.png


4.RNN法


利用局部或者全局的上下文依赖关系,使用RNN去检索上下文信息,以此作为分割的一部分依据


43d93557fbda67a7f0404b03fe709c4e.png


5.对抗生成网络(Gan)法


图形分割过程中,运用判别器对分割对象的局部属性、全局结构特点进行深入学习,以此获取不同像素间的有效空间关系,GAN用于扩展训练数据,提升训练效果。


  • 首先对对抗网络进行预训练,
  • 然后使用对抗性损失来微调分割网络,如下图所示。左边的分割网络将 RGB 图像作为输入,并产生每个像素的类别预测。
  • 右边的对抗网络将标签图作为输入并生成类标签(1代表真实标注,0代表合成标签)


a07c091974aca5d72205138327c0dedc.jpg


e920ceffe1ff20467ec821eb496b3fc7.png


6.RGBD法


利用激光雷达、双目相机等工具,生成深度图象,用于辅助语义分割


引入深度信息后,其提供的额外结构信息能够有效辅助复杂和困难场景下的分割。比如,与室外场景相比,由于语义类别繁杂、遮挡严重、目标外观差异较大等原因,室内场景的分割任务要更难实现。此时,在结合深度信息的情况下,能够有效降低分割的难度。


f0f73ce2ee7d97f811de0050e1858b76.png


7.实时法


3cac4f671ca119a0a8a09f0faecce1cd.png


  • 限制输入尺寸
  • 修改膨胀率
  • 🔥修改卷积方式


efda032c754a4972657e6d94018e7216.png


弱监督


根据弱监督信号的形式,常见的弱监督语义分割可分为以下四类:


  • 图像级标注:仅标注图像中相关物体所属的类别,是最简单的标注;
  • 物体点标注:标注各个物体上某一点,以及相应类别;
  • 物体框标注:标注各个物体所在的矩形框,以及相应类别;
  • 物体划线标注:在各个物体上划一条线,以及相应类别


f58ba3ba18e6a8dc8f3974fe2ec94f7b.jpg


1.只提供分类标签


监督信息:这是一张包含xxx的图片?


优点:标注过程相对简单,不需要使用像素标注,样本获取相对容易,整体工作量相对较小


缺点:图像级标注的方法显得有些简单粗陋,很难取得良好的、符合预期的分割效果


标注结果如下:


66e4d58e54eff1918ead9b8b9cebbe5e.png


基于图像级标注的弱监督语义分割大多采用多模块串联的形式进行


52bc1447b2d6f4a89e9851a990886b48.png


  • 首先,利用图像级标注的图像类别标签,通过单标签或多标签分类的方式,训练出一个分类模型
  • 然后,该分类模型通过计算图像中相应类别的类别特征响应图CAM来当作分割伪标签的种子区域
  • 接着,使用优化算法(如 CRF、AffinityNet等)优化和扩张种子区域,获得最终的像素级的分割伪标签
  • 最后,使用图像数据集和分割伪标签训练传统的分割算法(如 Deeplab 系列)


2.粗糙涂鸦分割标注


监督信息:包含涂鸦线条和涂鸦点的图像


基本原理:首先基于涂鸦点和涂鸦线条对图像进行标注处理,然后基于标注处理后的图片进行训练


标注结果如下:


7eaab05da82add905417e01103154199.png


半监督


1.域自适应法


目的:域适应的问题背景是两个同类的数据集,由于光照、角度等不同,存在域差异(分布不同),来自不同域的图片可能在外观上有很大的不同,但是他们的分割输出是结构化的,共享很多的相似性,比如空间布局和局部上下文。


增强模型的迁移能力!


20181102075903189.png


2.小样本学习


可以理解为需要模型具有很强的迁移能力,只需要少量的样本就可以完成新类别的识别


目前在基于小样本学习的语义分割领域中,最广泛采用的技术路线图是构建新颖的结构,以巧妙地利用尽可能多的额外有用信息。


当下的挑战、未来的方向


挑战


  • 精确度和速度的平衡
  • 依赖高质量的训练数据
  • 不同数据中模型难以迁移


未来方向


  • 实时的语义分割
  • 无监督分割
  • 有遮挡物体的分割
  • 实例/全景分割

完成新类别的识别

相关文章
|
算法 数据库 计算机视觉
Dataset之COCO数据集:COCO数据集的简介、下载、使用方法之详细攻略
Dataset之COCO数据集:COCO数据集的简介、下载、使用方法之详细攻略
|
Linux 网络安全 Python
linux后台运行命令screen的使用
linux后台运行命令screen的使用
801 2
linux后台运行命令screen的使用
|
11月前
|
存储 安全 Linux
【开源指南】用二叉树实现高性能共享内存管理
本文介绍了一种使用C++实现的共享内存管理方案,通过借鉴Android property的设计思路,采用二叉树结构存储键值对,提高了数据检索效率。该方案包括设置和获取接口,支持多进程/线程安全,并提供了一个简单的测试示例验证其有效性。
435 100
|
并行计算 数据挖掘 PyTorch
【YOLOv8改进 - 特征融合】DySample :超轻量级且高效的动态上采样器
【YOLOv8改进 - 特征融合】DySample :超轻量级且高效的动态上采样器
【YOLOv8改进 - 特征融合】DySample :超轻量级且高效的动态上采样器
|
11月前
|
机器学习/深度学习 JSON 算法
语义分割笔记(二):DeepLab V3对图像进行分割(自定义数据集从零到一进行训练、验证和测试)
本文介绍了DeepLab V3在语义分割中的应用,包括数据集准备、模型训练、测试和评估,提供了代码和资源链接。
2161 0
语义分割笔记(二):DeepLab V3对图像进行分割(自定义数据集从零到一进行训练、验证和测试)
|
10月前
|
存储 人工智能 数据可视化
高效率,低成本!且看阿里云AI大模型如何帮助企业提升客服质量和销售转化率
在数字化时代,企业面临海量客户对话数据处理的挑战。阿里云推出的“AI大模型助力客户对话分析”解决方案,通过先进的AI技术和智能化分析,帮助企业精准识别客户意图、发现服务质量问题,并生成详尽的分析报告和可视化数据。该方案采用按需付费模式,有效降低企业运营成本,提升客服质量和销售转化率。
高效率,低成本!且看阿里云AI大模型如何帮助企业提升客服质量和销售转化率
|
11月前
|
数据采集 移动开发 数据可视化
模型预测笔记(一):数据清洗分析及可视化、模型搭建、模型训练和预测代码一体化和对应结果展示(可作为baseline)
这篇文章介绍了数据清洗、分析、可视化、模型搭建、训练和预测的全过程,包括缺失值处理、异常值处理、特征选择、数据归一化等关键步骤,并展示了模型融合技术。
1345 1
模型预测笔记(一):数据清洗分析及可视化、模型搭建、模型训练和预测代码一体化和对应结果展示(可作为baseline)
|
11月前
|
机器学习/深度学习 编解码 算法
【小样本图像分割-4】nnU-Net: Self-adapting Framework for U-Net-Based Medical Image Segmentation
《nnU-Net: 自适应框架用于基于U-Net的医学图像分割》是一篇2018年的论文,发表在Nature上。该研究提出了一种自适应的医学图像分割框架nnU-Net,能够自动调整模型的超参数以适应不同的数据集。通过2D和3D U-Net及级联U-Net的组合,nnU-Net在10个医学分割数据集上取得了卓越的性能,无需手动调整。该方法强调数据增强、预处理和训练策略等技巧,为医学图像分割提供了一个强大的解决方案。
395 0
【小样本图像分割-4】nnU-Net: Self-adapting Framework for U-Net-Based Medical Image Segmentation
|
网络协议 算法 程序员
提高网络稳定性的关键:TCP滑动窗口与拥塞控制解析
**TCP可靠传输与拥塞控制概要:** 小米讲解TCP如何确保数据可靠性。TCP通过分割数据、编号段、校验和、流量控制(滑动窗口)和拥塞控制(慢开始、拥塞避免、快重传、快恢复)保证数据安全传输。拥塞控制动态调整窗口大小,防止网络过载,提升效率。当连续收到3个相同ACK时执行快重传,快恢复避免剧烈波动。关注“软件求生”获取更多技术内容。
224 4
提高网络稳定性的关键:TCP滑动窗口与拥塞控制解析
|
机器学习/深度学习 数据可视化 算法框架/工具
【深度学习】Generative Adversarial Networks ,GAN生成对抗网络分类
文章概述了生成对抗网络(GANs)的不同变体,并对几种经典GAN模型进行了简介,包括它们的结构特点和应用场景。此外,文章还提供了一个GitHub项目链接,该项目汇总了使用Keras实现的各种GAN模型的代码。
305 0

热门文章

最新文章