技术分享 | 半监督学习介绍

简介: 技术分享

半监督学习介绍


/ 背景 /


遥感图像的语义分割在城市规划、变化检测和地理信息系统建设中具有重要意义。在过去的几年中,一些研究者利用SIFT信息、纹理信息等特征对超像素进行分类。在多尺度上选取合适的超像素对遥感图像进行分割。在超像素方法的基础上,许多方法可以对遥感图像的不同区域进行分割。然而,由于超像素区域具有相同的标签,很难获得满意的分割结果。

近年来,相关的深度学习方法在语义图像分割方面取得了很大的进展,如FCN、UNet、DeepLab等。在深度学习的基础上,许多遥感图像分割方法也得到了发展。它们可以得到更精确的分割结果。

image.png

不幸的是,标记大量的样本是非常昂贵和耗时的,特别是在密集的预测问题,如语义分割。因为我们需要标记每个像素,标记成本是图像级标注难度的60倍以上。最近的研究表明,使用大量未标记数据和少量标记数据的半监督学习(SSL)对分类非常有益。这些方法可以分为一致性方法,伪标签方法,表征学习。一些工作试图将SSL应用于语义分割。naive-student使用一个大模型来生成带有未标记视频序列的伪标签,并应用迭代训练来进一步改进。它们只考虑具有原始输入images的伪标签,没有扰动。最近在CCT中的一项工作考虑对图像添加扰动以进行语义分割,但它们在不同的子解码器中转发具有不同扰动的图像,并加强子解码器与主解码器之间的一致性。因此,这种方法不可避免地会增加内存消耗,难以应用于高分辨率数据。也有一些作品关注生成方法。AdvSemiSeg和S4Gan中的工作都采用了一般对抗网络,并训练了对未标记数据有鉴别损失和对标记数据有监督损失的模型。


/ 我们怎么做 /


我们首先探索了基于self training的半监督语义分割方法。最近,语义分割取得了重大进展。然而,监督语义分割的成功通常依赖于大量的标记数据,这是耗时且成本高昂的。受图像分类的半监督学习方法的成功启发,我们提出了一种简单而有效的语义分割半监督学习框架。我们证明了问题出在细节上:一组简单的设计和训练技术可以显著提高半监督语义分割的性能。先前的工作未能在伪标签学习中有效地使用强增强,因为强增强导致的分布不均等损害了批归一化统计。我们设计了一种新的批处理规范化,即特定于分布的批处理标准化(DSBN)来解决这个问题,并表明了强增强对语义分割的重要性。此外,我们设计了自校正损耗,这在抗噪声方面是有效的。我们进行了一系列消融研究,以显示每个组件的有效性。我们的方法在Cityscapes和Pascal VOC数据集的半监督设置中实现了最先进的结果。

image.png

我们继续探索基于一致性的半监督算法。当前最先进的半监督语义分割方法探索了一致性规则化的潜力。在训练期间约束教师和学生网络之间的相似性。图像上的数据增强通常在训练期间应用于学生网络,并使用具有不同初始化的多个网络。典型的网络扰动方法CPS将同一图像送到两个不同的初始化网络中,并使用从一个分支生成的伪标签来监督另一个分支。注意,这两个分支在训练过程中使用反向传播而不使用移动平均进行优化。因此,模型“忘记”了重要的历史信息。为了进一步提高半监督语义分割模型的性能,我们提出了一种新的互知识提取框架。基于具有不同初始化参数的两个共同训练分支,我们进一步使用两个辅助均值教师模型来记录训练过程中的信息,并提供额外的监督。从一个教师网络生成的伪标签监督另一个学生,反之亦然。弱增强被应用于教师的输入图像,以增加对预测的信心。此外,学生的输入图像也得到了增强,以使样本多样化。受先前应用于图像分类的隐式语义数据挖掘的启发,我们进一步增强了学生的特征以进行分割。来自教师网络的伪标签往往更可靠,而学生网络可以在更多样和更具挑战性的样本上进行训练。

image.png

/ 未来展望 /


现在的半监督学习在使用时,对于无标签数据的选择上是有先验条件的,我们期望在今后的研究中突破这些先验条件,做一个更加统一的架构。


参考文献:

  1. Yuan J, Liu Y, Shen C, et al. A Simple Baseline for Semi-supervised Semantic Segmentation with Strong Data Augmentation[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 8229-8238
  2. Yuan J, Ge J, Qian Q, et al. Semi-supervised Semantic Segmentation with Mutual Knowledge Distillation[J]. arXiv preprint arXiv:2208.11499, 2022.


作者信息:袁建龙,阿里巴巴达摩院 Al Earth 团队技术专家,主要研究方向包含 dense prediction , Imperfect data research , label / data efficient learning 等,曾在计算机视觉领域深耕数年,发表过多篇计算机视觉顶级会议期刊。

相关文章
|
2月前
|
机器学习/深度学习 人工智能 缓存
万字综述,讲一讲这两年大模型这整个领域到底发展了哪些方面
本文深入探讨了自2023年GPT-4发布以来,大型语言模型(LLM)领域的发展趋势及其技术演进路径。
万字综述,讲一讲这两年大模型这整个领域到底发展了哪些方面
|
人工智能
【Mixup】探索数据增强技术:深入了解Mixup操作
【Mixup】探索数据增强技术:深入了解Mixup操作
1127 0
|
机器学习/深度学习 算法 Python
【DYConv】CVPR2020 | 即插即用的动态卷积模块助力你涨点
【DYConv】CVPR2020 | 即插即用的动态卷积模块助力你涨点
1584 1
【DYConv】CVPR2020 | 即插即用的动态卷积模块助力你涨点
|
存储 XML JSON
【软件设计师备考 专题 】深入理解代码标准和文件格式标准
【软件设计师备考 专题 】深入理解代码标准和文件格式标准
232 0
|
7月前
|
计算机视觉
RT-DETR改进策略【Neck】| PRCV 2023,SBA(Selective Boundary Aggregation):特征融合模块,描绘物体轮廓重新校准物体位置,解决边界模糊问题
RT-DETR改进策略【Neck】| PRCV 2023,SBA(Selective Boundary Aggregation):特征融合模块,描绘物体轮廓重新校准物体位置,解决边界模糊问题
479 20
RT-DETR改进策略【Neck】| PRCV 2023,SBA(Selective Boundary Aggregation):特征融合模块,描绘物体轮廓重新校准物体位置,解决边界模糊问题
|
8月前
|
安全 网络协议 Linux
结合 `nc` 工具利用笑脸漏洞(Smile Bug)攻击 Metasploitable2 Linux
本文介绍如何使用 `nc`(Netcat)工具结合笑脸漏洞(Smiley Bug)攻击 Metasploitable2 Linux 靶机。首先概述了 `nc` 的基本功能和高级用法,包括建立连接、监听端口、文件传输等操作。接着详细描述了笑脸漏洞的原理及其在网络攻防中的应用,展示了通过 `nc` 发送恶意输入检测漏洞的方法。最后结合 Python 脚本实现更复杂的攻击场景,并强调了合法性和环境隔离的重要性。
172 13
|
8月前
|
机器学习/深度学习 自然语言处理 搜索推荐
自注意力机制全解析:从原理到计算细节,一文尽览!
自注意力机制(Self-Attention)最早可追溯至20世纪70年代的神经网络研究,但直到2017年Google Brain团队提出Transformer架构后才广泛应用于深度学习。它通过计算序列内部元素间的相关性,捕捉复杂依赖关系,并支持并行化训练,显著提升了处理长文本和序列数据的能力。相比传统的RNN、LSTM和GRU,自注意力机制在自然语言处理(NLP)、计算机视觉、语音识别及推荐系统等领域展现出卓越性能。其核心步骤包括生成查询(Q)、键(K)和值(V)向量,计算缩放点积注意力得分,应用Softmax归一化,以及加权求和生成输出。自注意力机制提高了模型的表达能力,带来了更精准的服务。
|
存储 编解码 数据安全/隐私保护
ISPRS Vaihingen 数据集解析
ISPRS Vaihingen 数据集解析
1871 0
ISPRS Vaihingen 数据集解析
|
11月前
|
机器学习/深度学习 人工智能 自动驾驶
深入理解深度学习中的卷积神经网络(CNN)
【10月更文挑战第18天】深入理解深度学习中的卷积神经网络(CNN)
376 0
|
机器学习/深度学习 人工智能 达摩院
52个AIGC视频生成算法模型介绍(上)
52个AIGC视频生成算法模型介绍(上)
1189 3