原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA)
论文标题:Mix-Teaching: A Simple, Unified and Effective Semi-Supervised Learning Framework for Monocular 3D Object Detection
论文链接:https://arxiv.org/pdf/2207.04448.pdf
论文代码:https://github.com/yanglei18/Mix-Teaching
后台回复【MixTea】获取论文和代码!
后台回复【ECCV2022】获取ECCV2022所有自动驾驶方向论文!
1摘要
单目3D目标检测是自动驾驶必不可少的感知任务。然而,对大规模有标签数据的高度依赖使得模型优化过程成本高昂且耗时。为了减少对人工标注的过度依赖,我们提出了Mix-Teaching,这是一种有效的半监督学习框架,可以在训练阶段同时使用标注和无标注的图像。Mix-Teaching首先通过自我学习训练为无标签图像生成伪标签。然后通过将实例级图像块粘贴到空白背景或有标签图像中,在具有更密集和更精确标签的混合图像上训练学生模型。这是第一个打破图像级别限制,将来自多帧的高质量伪标签放入一张图像中进行半监督训练的方法。此外,由于分类置信度和定位质量之间的不一致,仅使用基于置信度的标准很难从大量带噪声的预测结果中得到高质量的伪标签。为此,我们进一步引入了一个基于不确定性的过滤器,以帮助为上述混合操作选择可靠的伪框。据我们所知,这是第一个用于单目3D目标检测的统一半监督学习框架。Mix-Teaching在KITTI 数据集上的各种标签比率下,都能提高MonoFlex 和 GUPNet的性能。例如,当仅使用10%的有标签数据时,我们的方法在验证集上相对于GUPNet基线实现了大约+6.34%AP@0.7的提升。此外,利用完整有标签训练集和KITTI额外的48K原始图像,它可以进一步提高MonoFlex在AP@0.7上的汽车检测提升+4.65%,达到18.54%AP@0.7,在KITTI测试排行榜上所有基于单目的方法中排名第一。
2简述
单目3D目标检测是使用单张图像来预测周边目标的类别和3D目标框的任务。单目3D目标检测在自动驾驶及机器人技术中有独特的优势和潜力,成为学术和工业界的研究热点。很多新的目标检测方法取得了较大的精度提高,但却高度依赖有标签数据,人工和时间成本都很高。
现在常用的利用无标签数据的方法分为两种:伪标签和一致性规则。伪标签是通过自学习训练或Mean Teacher方法给无标签数据打上伪标签,然后在做过数据增强(保留原始伪标签)的相同图像上训练学生模型,让学生模型从伪标签数据中学习到信息。一致性规则则是增加一致性loss来约束模型在不同扰动下能够稳定预测,从而提高模型的泛化能力。
单目3D目标检测在KITTI上只有15%AP@0.7左右,而2D及基于激光雷达的3D目标检测指标已经达到或超过了85%~96%AP@0.7。这也就意味着用伪标签方法得到的伪标签本身就不可靠,用了反而会造成负面影响,漏检和误检都会很多。
为了优化这个低召回伪标签的问题,我们提出了Mix-Teaching,一种适用于大部分单目3D目标检测的通用半监督学习框架。
3贡献
Mix-Teaching中,首先通过自我学习训练来预测无标签数据的伪标签。然后将无标签样本分成具有高质量伪标签的图像块集合和不包含目标的背景图像集合。然后,学生模型在混合图像上进行训练,这些混合图像是通过将上述实例图像块粘贴到背景图像或粘贴到到通过强数据增强的有标注图像中而得到的。这样生成的合成图像就都是高质量的伪标签了,避免了一些漏标注的问题。最后,经过多阶段的训练,逐步将信息从有标签数据传递给无标签数据。
由于单目3D目标检测模型精度差,误标注问题严重,针对此问题,作者不再只通过置信度来过滤较差的伪标签,而是提出了一种基于不确定性的过滤器,该方法使用结构相同但参数不同的模型来估计每个目标的不确定性,如果同一目标的预测集的不确定性越高,该集中的预测数越少,它们间的定位误差也就越大。作者利用置信度和不确定性过滤器来过滤那些低质量的噪声伪标签,证实是有效的,而且由于去除这些噪声伪标签只在每个训练阶段的开始,所以效率也不会太低。
本文总结下来主要有三点贡献:
- 阐述了半监督学习方法在单目3D目标检测应用中的主要困难,并且为什么现有的SSL算法无法处理它们,基于此我们提出了Mix-Teaching。
- 为了减少模型过拟合噪声伪标签问题,提出了一种基于不确定性的过滤器,可以有效去除噪声伪标签。
- KITTI上实验证明了Mix-Teaching框架的有效性,作为SSL用于单目3D目标检测的首次研究,可作为进一步研究的基线框架。
4方法
首先我们的目标是利用无标签和有标签的数据训练得到的模型,性能要优于只用有标签数据训练的模型。训练策略是使用多阶段策略,先用全部有标签数据训练一个教师模型,然后再对无标签数据打伪标签,接着用有标签和伪标签数据训练一个带噪学生模型,这个学生模型将是下一个阶段的教师模型。
Mix-Teaching 框架
Mix-Teaching框架如下图所示。这是一种可以轻松应用于大多数单目 3D 目标检测器的通用方法。我们的混合教学主要由两个阶段组成:面向数据库的伪标签和混合数据的噪声学生模型。
- 面向数据库的伪标签。将所有的伪标签和纯背景图像收集起来。教师模型前向生成伪标签,再通过基于置信度和基于不确定性的过滤器进行过滤,创建一个由实例级图像块及其相应的高质量伪标签组成的实例图像块数据库。我们从数据中选择所有不包含任何预测结果的纯背景图像并创建背景数据库。
- 混合数据的噪声学生模型。基于上述两个数据库和有标签图像,创建了包含更密集和具有更精确标签的混合图像,用于半监督训练。对此有两种通用策略:一种方法是将实例图像块数据库中的图像块粘贴到有标签图像上。另一种方法是在来自背景数据库的图像上粘贴实例图像块。在此过程中,实例图像块是基于原图像上的2D框坐标粘贴到目标图像的。避免过度重叠及其它可能的不合理粘贴,作者做了一个边界框碰撞测试,来去除这些无效的粘贴。
为了缓解过拟合噪声伪标签问题,作者使用了一些强数据增强:
- 边界裁切,在粘贴前,以一定比例(0-0.3)对图像块进行水平或垂直的边界裁切;
- 颜色填充,在粘贴前,以一定比例(0-0.3)对图像块进行水平或垂直的边界颜色填充;
- Mixup,以一个随机比率(0.6-1.0)对前景图像块和背景图像进行加权平均。
数据增强方法可视化如下图所示:
整体的损失函数可以用监督loss和无监督loss表示,并以一个超参数来平衡两者。loss主要包括分类和回归loss,无监督混合图像中再加上纯背景图的loss。
基于不确定性的过滤器
作者发现,如上图所示,分类置信度和候选框定位精度存在巨大的偏差,相当一部分预测结果的分类置信度很高,但与真值的IoU-3D的值很低。这样只用置信度去选择伪标签就会造成引入一些噪声伪标签,给半监督训练带来很大的噪声伪标签过拟合风险。
为了缓解上述问题,我们进一步提出了一种基于不确定性的过滤器,在该过滤器中,我们根据N个模型(同结构不同参数)对同一个目标的预测差异来推断定位不确定性。对于图像上的特定目标,将有M个预测结果。我们主要从两个角度定义定位不确定性:
(1)与该目标关联的预测数M;(2) 这些预测框之间的差异。预测数M反映了N个模型中漏检的水平。候选框的差异揭示了模型预测的随机性。
计算不确定性的步骤:
- N个模型的所有预测结果都存储在列表B中。
- 声明三个列表G,H和U,G用于存储框的集合。每个集合代表来自N个模型的特定目标的预测。H中是每个集合中置信度得分最高的框。U保存H中每个框的定位不确定性。
- 遍历列表B中的所有框,找到属于当前集合C的匹配框。匹配条件定义为在条件 IoU-3D大于thr下与集合C 的初始框bm有较大重叠的框。所有匹配的框将从列表B移至集合C。然后更新当前集合C到列表G。
- 如果在列表B中仍然有未处理的框,选择在列表B中有最大分数的框bm,移动到列表H。用框bm初始化一个新的C集合,返回执行步骤3。
- 当B中的所有框都被处理后,用下面的公式计算列表G中框集合C的不确定性。结果被添加到列表U。
不确定性值域为0到1。当值为0时,表示在N个模型(M=N)中不存在漏检,并且所有N个候选框完全一致。当值为1时,表示所有模型都未能检测到该目标。如下图所示,我们可视化了IoU-3D与定位不确定性之间的关系。与分类得分相比,这个不确定性指标可以更好地衡量定位精度。与需要针对特定目标检测器进行相关分支设计的3D置信度或IoU-3D相比,我们的基于不确定性的过滤器是模型无关的,并且可以应用于多种类型的基于图像的3D目标检测器,这才是更通用的半监督学习框架。
5实验结果
KITTI上与MonoFlex、GUPNet的对比:
与KITTI上的其它SOTA方法对比:
小目标上的表现:
一些消融实验:
背景数据集、目标框级别的数据增强、基于不确定性的过滤器都有助于模型效果的提升。对不同置信度阈值和不确定性阈值也做了实验对比。
可视化结果展示