技术分享 | 半监督学习介绍

简介: 技术分享

半监督学习介绍


/ 背景 /


遥感图像的语义分割在城市规划、变化检测和地理信息系统建设中具有重要意义。在过去的几年中,一些研究者利用SIFT信息、纹理信息等特征对超像素进行分类。在多尺度上选取合适的超像素对遥感图像进行分割。在超像素方法的基础上,许多方法可以对遥感图像的不同区域进行分割。然而,由于超像素区域具有相同的标签,很难获得满意的分割结果。

近年来,相关的深度学习方法在语义图像分割方面取得了很大的进展,如FCN、UNet、DeepLab等。在深度学习的基础上,许多遥感图像分割方法也得到了发展。它们可以得到更精确的分割结果。

image.png

不幸的是,标记大量的样本是非常昂贵和耗时的,特别是在密集的预测问题,如语义分割。因为我们需要标记每个像素,标记成本是图像级标注难度的60倍以上。最近的研究表明,使用大量未标记数据和少量标记数据的半监督学习(SSL)对分类非常有益。这些方法可以分为一致性方法,伪标签方法,表征学习。一些工作试图将SSL应用于语义分割。naive-student使用一个大模型来生成带有未标记视频序列的伪标签,并应用迭代训练来进一步改进。它们只考虑具有原始输入images的伪标签,没有扰动。最近在CCT中的一项工作考虑对图像添加扰动以进行语义分割,但它们在不同的子解码器中转发具有不同扰动的图像,并加强子解码器与主解码器之间的一致性。因此,这种方法不可避免地会增加内存消耗,难以应用于高分辨率数据。也有一些作品关注生成方法。AdvSemiSeg和S4Gan中的工作都采用了一般对抗网络,并训练了对未标记数据有鉴别损失和对标记数据有监督损失的模型。


/ 我们怎么做 /


我们首先探索了基于self training的半监督语义分割方法。最近,语义分割取得了重大进展。然而,监督语义分割的成功通常依赖于大量的标记数据,这是耗时且成本高昂的。受图像分类的半监督学习方法的成功启发,我们提出了一种简单而有效的语义分割半监督学习框架。我们证明了问题出在细节上:一组简单的设计和训练技术可以显著提高半监督语义分割的性能。先前的工作未能在伪标签学习中有效地使用强增强,因为强增强导致的分布不均等损害了批归一化统计。我们设计了一种新的批处理规范化,即特定于分布的批处理标准化(DSBN)来解决这个问题,并表明了强增强对语义分割的重要性。此外,我们设计了自校正损耗,这在抗噪声方面是有效的。我们进行了一系列消融研究,以显示每个组件的有效性。我们的方法在Cityscapes和Pascal VOC数据集的半监督设置中实现了最先进的结果。

image.png

我们继续探索基于一致性的半监督算法。当前最先进的半监督语义分割方法探索了一致性规则化的潜力。在训练期间约束教师和学生网络之间的相似性。图像上的数据增强通常在训练期间应用于学生网络,并使用具有不同初始化的多个网络。典型的网络扰动方法CPS将同一图像送到两个不同的初始化网络中,并使用从一个分支生成的伪标签来监督另一个分支。注意,这两个分支在训练过程中使用反向传播而不使用移动平均进行优化。因此,模型“忘记”了重要的历史信息。为了进一步提高半监督语义分割模型的性能,我们提出了一种新的互知识提取框架。基于具有不同初始化参数的两个共同训练分支,我们进一步使用两个辅助均值教师模型来记录训练过程中的信息,并提供额外的监督。从一个教师网络生成的伪标签监督另一个学生,反之亦然。弱增强被应用于教师的输入图像,以增加对预测的信心。此外,学生的输入图像也得到了增强,以使样本多样化。受先前应用于图像分类的隐式语义数据挖掘的启发,我们进一步增强了学生的特征以进行分割。来自教师网络的伪标签往往更可靠,而学生网络可以在更多样和更具挑战性的样本上进行训练。

image.png

/ 未来展望 /


现在的半监督学习在使用时,对于无标签数据的选择上是有先验条件的,我们期望在今后的研究中突破这些先验条件,做一个更加统一的架构。


参考文献:

  1. Yuan J, Liu Y, Shen C, et al. A Simple Baseline for Semi-supervised Semantic Segmentation with Strong Data Augmentation[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 8229-8238
  2. Yuan J, Ge J, Qian Q, et al. Semi-supervised Semantic Segmentation with Mutual Knowledge Distillation[J]. arXiv preprint arXiv:2208.11499, 2022.


作者信息:袁建龙,阿里巴巴达摩院 Al Earth 团队技术专家,主要研究方向包含 dense prediction , Imperfect data research , label / data efficient learning 等,曾在计算机视觉领域深耕数年,发表过多篇计算机视觉顶级会议期刊。

相关文章
|
6月前
|
机器学习/深度学习 人工智能 缓存
万字综述,讲一讲这两年大模型这整个领域到底发展了哪些方面
本文深入探讨了自2023年GPT-4发布以来,大型语言模型(LLM)领域的发展趋势及其技术演进路径。
万字综述,讲一讲这两年大模型这整个领域到底发展了哪些方面
|
6月前
|
运维 算法 机器人
阿里云AnalyticDB具身智能方案:破解机器人仿真数据、算力与运维之困
本文将介绍阿里云瑶池旗下的云原生数据仓库AnalyticDB MySQL推出的全托管云上仿真解决方案,方案采用云原生架构,为开发者提供从开发环境、仿真计算到数据管理的全链路支持。
|
4月前
|
安全 前端开发 开发者
“你还活着吗?” “我没死,只是网卡了!”——来自分布式世界的“生死契约”
Lease机制是分布式系统核心协调技术,通过带时限的授权确保一致性与可靠性,广泛用于领导者选举、状态判定等场景。授权者承诺在Lease有效期内不变更权限,接收方需在到期后重新申请。基于Lease可避免“双主”问题,提升容错能力。ETCD等协调服务内置Lease支持,允许多key绑定同一Lease,降低刷新开销,提升性能。
152 2
|
24天前
|
人工智能 自然语言处理 搜索推荐
构建AI智能体:四十六、Codebuddy MCP 实践:用高德地图搭建旅游攻略系统
本文提出了一种基于MCP协议与高德地图API的智能旅游攻略系统,旨在解决传统旅游信息碎片化、时效性差等问题。系统通过整合多源数据,实现动态路线规划、个性化推荐等功能,支持自然语言交互和多模态展示。技术层面,MCP协议作为核心枢纽,标准化了工具调用和错误处理;高德地图API则提供地理智能、时空分析等能力。系统可生成包含景点、美食、住宿等信息的完整攻略,并支持临时发布共享。实践表明,该系统能有效降低用户规划成本,为旅游行业数字化转型提供参考。
202 13
|
11月前
|
计算机视觉
RT-DETR改进策略【Neck】| PRCV 2023,SBA(Selective Boundary Aggregation):特征融合模块,描绘物体轮廓重新校准物体位置,解决边界模糊问题
RT-DETR改进策略【Neck】| PRCV 2023,SBA(Selective Boundary Aggregation):特征融合模块,描绘物体轮廓重新校准物体位置,解决边界模糊问题
643 20
RT-DETR改进策略【Neck】| PRCV 2023,SBA(Selective Boundary Aggregation):特征融合模块,描绘物体轮廓重新校准物体位置,解决边界模糊问题
|
7月前
|
存储 Linux 内存技术
linux系统查看硬盘序列号
本文介绍在Linux系统中查看硬盘信息的三种方法:1) 使用`hdparm`工具,通过`sudo hdparm -i /dev/sda`获取硬盘序列号和型号;2) 使用`smartctl`工具,不仅可查序列号和型号,还能了解硬盘健康状态;3) 使用`lshw`命令显示存储设备拓扑信息。此外,提供通用技巧如用`lsblk`确认磁盘标识,及注意事项,例如管理员权限和云主机可能隐藏物理序列号等。
|
12月前
|
安全 网络协议 Linux
结合 `nc` 工具利用笑脸漏洞(Smile Bug)攻击 Metasploitable2 Linux
本文介绍如何使用 `nc`(Netcat)工具结合笑脸漏洞(Smiley Bug)攻击 Metasploitable2 Linux 靶机。首先概述了 `nc` 的基本功能和高级用法,包括建立连接、监听端口、文件传输等操作。接着详细描述了笑脸漏洞的原理及其在网络攻防中的应用,展示了通过 `nc` 发送恶意输入检测漏洞的方法。最后结合 Python 脚本实现更复杂的攻击场景,并强调了合法性和环境隔离的重要性。
443 13
|
存储 编解码 数据安全/隐私保护
ISPRS Vaihingen 数据集解析
ISPRS Vaihingen 数据集解析
2253 0
ISPRS Vaihingen 数据集解析
|
存储 调度 云计算
云计算:技术解析与实践应用
云计算:技术解析与实践应用
582 0
|
机器学习/深度学习 存储 计算机视觉
【YOLOv8改进】BRA(bi-level routing attention ):双层路由注意力(论文笔记+引入代码)
**BiFormer和HCANet摘要** BiFormer是CVPR2023提出的一种新型视觉Transformer,采用双层路由注意力机制实现动态稀疏注意力,优化计算效率和内存使用,适用于图像分类、目标检测和语义分割任务。代码可在GitHub获取。另一方面,HCANet是针对高光谱图像去噪的深度学习模型,融合CNN和Transformer,强化全局和局部特征建模,通过多尺度前馈网络提升去噪效果。HCANet在HSI数据集上表现优秀,其代码同样开放源代码。