本文中,北航、讯飞的研究者们构建了首个 X 光场景下的小样本检测数据集 ——X-ray FSOD 数据集。同时又提出了微弱特征增强网络,为小样本检测带来新的思考。
小样本检测任务(few-shot detection)旨在解决真实工业场景中样本获取困难情况下模型泛化能力差的痛点,尝试通过少量的训练样本获得具有泛化能力的模型。小样本检测任务一直是学术界研究的焦点,传统的方法主要聚焦于自然光数据,在常见的 COCO 数据集上进行评估。由于自然光数据样本通常具有颜色鲜艳、目标清晰等特点,即便样本数量有限,卷积神经网络依然可以提取到较为可靠的辨识度特征。
在真实的工业场景下,例如 X 光安检场景,由于一些危险品类别的出现频率较低,导致样本获取十分困难,是一个典型的小样本检测问题。然而,由于 X 光成像的特殊性,样本普遍具有色彩单调、目标模糊等特点,这些因素使得真实工业场景下的小样本检测任务面临新的困境,即低辨识度导致卷积神经网络提取到的微弱特征难以支撑决策。目前,真实工业场景下的小样本检测任务很少被研究者们关注到。
近日,计算机多媒体顶级会议 ACM Multimedia 2022 接收论文结果已经正式公布,会议接收了一篇由北京航空航天大学、科大讯飞研究院共同完成的工作。这项工作以 X 光安检场景为例,针对一些危险品类别出现频率较低导致样本难以获取的现实情况,构建了 X-ray FSOD 数据集,为 X 光下小样本检测任务提供模型检测能力评估基准。
研究者在构建评估基准的基础上提出了微弱特征增强网络,利用原型学习和特征调和的思想缓解微弱特征带来的性能损失,为小样本检测带来新的思考。
一、X 光下小样本检测评估基准(X-ray FSOD 数据集)
评估基准的构建对于一项任务的研究是必不可少的。本文针对 X 光安检场景下的小样本检测任务,提出了首个工业场景下的小样本检测任务评估基准,X-ray FSOD 数据集。
在构建基准的过程中,本文遵循了经典的小样本检测数据集 Pascal VOC 的设置(类别总数为 20,其中 15 类为基类,5 类为新类),从现有公开的数据集中选择了 14 个类别,其中 5 个类来自 OPIXray 数据集(ACM MM2020),5 个类来自 HiXray 数据集(ICCV 2021),剩余 4 个类来自 EDS 数据集(CVPR 2022),并新贡献了额外的 6 个类别,组建了一个总计 20 个类别的 X 光安检场景下的标准小样本检测任务评估基准。
X-ray FSOD 数据集中各个类别在自然光和 X 光下的对照图如图 1 所示。
图 1 X-ray FSOD 数据集中不同类别的自然光和 X 光样例示意图.
二、微弱特征增强网络
由于遮挡严重、颜色匮乏等原因,X 光下的小样本检测任务面临着目标特征非常微弱的问题。由于判别信息微弱,传统的小样本检测方法在该场景下很难达到令人满意的效果。
受原型学习聚合辨识度信息的启发,本文提出的微弱特征增强网络。微弱特征增强网络包含两个核心模块,即原型感知模块(PA)和特征调和模块(FR)。
原型感知模块对待检测目标周围的关键区域进行聚合,进而提取目标本身的可依据特征,并建立类别原型库以生成每个类别的可依据特征。
特征调和模块自适应调整不同类别相对应原型的影响程度,将原型感知模块提取出的辨识度信息选择性地融合至特定对象本身的特征中。
原型感知模块(PA)
原型感知模块的主要任务是通过聚合生成类别原型,建立全局原型库的方式,来提取出不同类别的可依据特征。首先,该模块将属于不同目标的候选框特征根据与目标真实标注框的 IoU 值加权聚合,形成目标的特征原型,公式如下:
随后,该模块将属于相同类别的目标特征原型聚合。紧接着,利用得到的类别原型集合建立并更新全局原型库中对应类别的原型,公式如下:
为了进一步增强不同类别之间提取出可依据特征的区别,研究者们对全局原型库设计了损失函数,计算每两个类别特征原型之间余弦相似度的平均值,通过最小化损失函数可以让不同类别原型的特征向量趋于正交,公式如下:
特征调和模块(FR)
特征调和模块(FR)所做的是将原型库中存储的类别原型特征与候选框特征进行不同程度融合,从而增强主干网络提取出的表示特征。
调和过程首先需要确定的是由主干网络生成的候选框特征需要融合全局原型库中对应的哪一种类别特征原型。研究者们采取的类别选取方式为:在训练阶段,将候选框特征所属目标的类别标签作为融合类别;在测试阶段,计算候选框特征 f_R 与全局原型库中每个类别特征原型之间的余弦相似度并比较,将相似度最高的类别原型作为融合类别。
类别特征原型的融合方式采用了两种方式,第一种是朴素融合方式,公式如下:
而由于 X 光场景下不同类别的信息丢失程度不同,因此不同类别对类别原型中包含的可依据特征的需求程度也不同,因此仅仅用朴素的融合方式很难达到令人满意的效果,该模块设计了卷积的融合方式,公式如下:
三、实验
实验部分首先在 VOC 轮廓数据集上证明了微弱特征会导致少样本目标检测模型的性能下降(微弱特征影响实验);其次在真实弱特征场景(X-ray FSOD 数据集)、模拟弱特征(VOC 轮廓数据集)以及传统场景(Pascal VOC 数据集)下进行了对比试验,充分说明了模型的有效性;最后进行分离实验。
实验对比的模型包括 TFA(ICML 2020)、FSCE (CVPR 2021)、DeFRCN (ICCV 2021)、DCNet (CVPR 2021) 等 SOTA 方法。
1. 微弱特征影响实验
表 1:微弱特征带来的性能下降
2. 对比试验
(1)X-ray FSOD 数据集
表 2:在 X-ray FSOD 上新类 mAP50 精度的对比结果
(2)VOC 轮廓数据集
表 3:在 VOC 轮廓数据集上新类 mAP50 精度的对比结果
(3)Pascal VOC 数据集
表 3:在 Pascal VOC 数据集上新类 mAP50 精度的对比结果
分离实验
表 4:分离实验结果
四、总结
本文中,研究者们指出 X 光场景下的小样本检测任务往往面临着由于遮挡严重、颜色匮乏等原因导致的目标特征非常微弱的困境。因此,传统的小样本检测方法在这些场景下存在严重性能下降的问题。
为了给上述重要问题的研究提供支持,来自北航、讯飞的研究人员构建了首个 X 光场景下的小样本检测数据集 ——X-ray FSOD 数据集。同时,提出了微弱特征增强网络,通过聚合目标周围的关键区域来提取目标本身的可依据特征,并建立类别原型库以生成每个类别的可依据特征,再将提取出的类别可依据特征融合至特定对象本身的特征中。
研究者们在 X 光场景下的 X-ray FSOD 数据集与常见场景下的 Pascal VOC 数据集上做了大量的实验,并证明了提出的 WEN 模型优于其他小样本检测模型。
五、参考文献
[1]Renshuai Tao, Hainan Li, Tianbo Wang, Yanlu Wei, Yifu Ding, Bowei Jin, Hongping Zhi, Xianglong Liu, Aishan Liu. Exploring Endogenous Shift for Cross-domain Detection: A Large-scale Benchmark and Perturbation Suppression Network. IEEE CVPR 2022.[2]Renshuai Tao, Yanlu Wei, Xiangjian Jiang, Hainan Li, Haotong Qin, Jiakai Wang, Yuqing Ma, Libo Zhang, Xianglong Liu. Towards Real-world X-ray Security Inspection: A High-Quality Benchmark And Lateral Inhibition Module For Prohibited Items Detection. IEEE ICCV 2021.[3]Renshuai Tao, Tianbo Wang, Ziyang Wu, Cong Liu, Aishan Liu, Xianglong Liu. Few-shot X-ray Prohibited Item Detection: A Benchmark and Weak-feature Enhancement Network. ACM MM 2022.[4]Yanlu Wei, Renshuai Tao, Zhangjie Wu, Yuqing Ma, Libo Zhang, Xianglong Liu. Occluded Prohibited Items Detection: An X-ray Security Inspection Benchmark and De-occlusion Attention Module. ACM Multimedia 2020.