首个X光下的小样本检测基准和弱特征增强网络,北航、讯飞新研究入选ACM MM 2022

简介: 首个X光下的小样本检测基准和弱特征增强网络,北航、讯飞新研究入选ACM MM 2022

本文中,北航、讯飞的研究者们构建了首个 X 光场景下的小样本检测数据集 ——X-ray FSOD 数据集。同时又提出了微弱特征增强网络,为小样本检测带来新的思考。


小样本检测任务(few-shot detection)旨在解决真实工业场景中样本获取困难情况下模型泛化能力差的痛点,尝试通过少量的训练样本获得具有泛化能力的模型。小样本检测任务一直是学术界研究的焦点,传统的方法主要聚焦于自然光数据,在常见的 COCO 数据集上进行评估。由于自然光数据样本通常具有颜色鲜艳、目标清晰等特点,即便样本数量有限,卷积神经网络依然可以提取到较为可靠的辨识度特征。

在真实的工业场景下,例如 X 光安检场景,由于一些危险品类别的出现频率较低,导致样本获取十分困难,是一个典型的小样本检测问题。然而,由于 X 光成像的特殊性,样本普遍具有色彩单调、目标模糊等特点,这些因素使得真实工业场景下的小样本检测任务面临新的困境,即低辨识度导致卷积神经网络提取到的微弱特征难以支撑决策。目前,真实工业场景下的小样本检测任务很少被研究者们关注到

近日,计算机多媒体顶级会议 ACM Multimedia 2022 接收论文结果已经正式公布,会议接收了一篇由北京航空航天大学、科大讯飞研究院共同完成的工作。这项工作以 X 光安检场景为例,针对一些危险品类别出现频率较低导致样本难以获取的现实情况,构建了 X-ray FSOD 数据集,为 X 光下小样本检测任务提供模型检测能力评估基准

研究者在构建评估基准的基础上提出了微弱特征增强网络,利用原型学习和特征调和的思想缓解微弱特征带来的性能损失,为小样本检测带来新的思考。



一、X 光下小样本检测评估基准(X-ray FSOD 数据集)

评估基准的构建对于一项任务的研究是必不可少的。本文针对 X 光安检场景下的小样本检测任务,提出了首个工业场景下的小样本检测任务评估基准,X-ray FSOD 数据集。

在构建基准的过程中,本文遵循了经典的小样本检测数据集 Pascal VOC 的设置(类别总数为 20,其中 15 类为基类,5 类为新类),从现有公开的数据集中选择了 14 个类别,其中 5 个类来自 OPIXray 数据集(ACM MM2020),5 个类来自 HiXray 数据集(ICCV 2021),剩余 4 个类来自 EDS 数据集(CVPR 2022),并新贡献了额外的 6 个类别,组建了一个总计 20 个类别的 X 光安检场景下的标准小样本检测任务评估基准

X-ray FSOD 数据集中各个类别在自然光和 X 光下的对照图如图 1 所示。

图 1 X-ray FSOD 数据集中不同类别的自然光和 X 光样例示意图.

二、微弱特征增强网络

由于遮挡严重、颜色匮乏等原因,X 光下的小样本检测任务面临着目标特征非常微弱的问题。由于判别信息微弱,传统的小样本检测方法在该场景下很难达到令人满意的效果。

受原型学习聚合辨识度信息的启发,本文提出的微弱特征增强网络。微弱特征增强网络包含两个核心模块,即原型感知模块(PA)和特征调和模块(FR)

原型感知模块对待检测目标周围的关键区域进行聚合,进而提取目标本身的可依据特征,并建立类别原型库以生成每个类别的可依据特征。

特征调和模块自适应调整不同类别相对应原型的影响程度,将原型感知模块提取出的辨识度信息选择性地融合至特定对象本身的特征中。

原型感知模块(PA)

原型感知模块的主要任务是通过聚合生成类别原型,建立全局原型库的方式,来提取出不同类别的可依据特征。首先,该模块将属于不同目标的候选框特征根据与目标真实标注框的 IoU 值加权聚合,形成目标的特征原型,公式如下:


随后,该模块将属于相同类别的目标特征原型聚合。紧接着,利用得到的类别原型集合建立并更新全局原型库中对应类别的原型,公式如下:


为了进一步增强不同类别之间提取出可依据特征的区别,研究者们对全局原型库设计了损失函数,计算每两个类别特征原型之间余弦相似度的平均值,通过最小化损失函数可以让不同类别原型的特征向量趋于正交,公式如下:


特征调和模块(FR)

特征调和模块(FR)所做的是将原型库中存储的类别原型特征与候选框特征进行不同程度融合,从而增强主干网络提取出的表示特征

调和过程首先需要确定的是由主干网络生成的候选框特征需要融合全局原型库中对应的哪一种类别特征原型。研究者们采取的类别选取方式为:在训练阶段,将候选框特征所属目标的类别标签作为融合类别;在测试阶段,计算候选框特征 f_R 与全局原型库中每个类别特征原型之间的余弦相似度并比较,将相似度最高的类别原型作为融合类别。

类别特征原型的融合方式采用了两种方式,第一种是朴素融合方式,公式如下:


而由于 X 光场景下不同类别的信息丢失程度不同,因此不同类别对类别原型中包含的可依据特征的需求程度也不同,因此仅仅用朴素的融合方式很难达到令人满意的效果,该模块设计了卷积的融合方式,公式如下:

三、实验

实验部分首先在 VOC 轮廓数据集上证明了微弱特征会导致少样本目标检测模型的性能下降(微弱特征影响实验);其次在真实弱特征场景(X-ray FSOD 数据集)、模拟弱特征(VOC 轮廓数据集)以及传统场景(Pascal VOC 数据集)下进行了对比试验,充分说明了模型的有效性;最后进行分离实验。

实验对比的模型包括 TFA(ICML 2020)、FSCE (CVPR 2021)、DeFRCN (ICCV 2021)、DCNet (CVPR 2021) 等 SOTA 方法。

1. 微弱特征影响实验

表 1:微弱特征带来的性能下降


2. 对比试验

(1)X-ray FSOD 数据集

表 2:在 X-ray FSOD 上新类 mAP50 精度的对比结果


(2)VOC 轮廓数据集

表 3:在 VOC 轮廓数据集上新类 mAP50 精度的对比结果

(3)Pascal VOC 数据集

表 3:在 Pascal VOC 数据集上新类 mAP50 精度的对比结果

分离实验

表 4:分离实验结果

四、总结

本文中,研究者们指出 X 光场景下的小样本检测任务往往面临着由于遮挡严重、颜色匮乏等原因导致的目标特征非常微弱的困境。因此,传统的小样本检测方法在这些场景下存在严重性能下降的问题。

为了给上述重要问题的研究提供支持,来自北航、讯飞的研究人员构建了首个 X 光场景下的小样本检测数据集 ——X-ray FSOD 数据集。同时,提出了微弱特征增强网络,通过聚合目标周围的关键区域来提取目标本身的可依据特征,并建立类别原型库以生成每个类别的可依据特征,再将提取出的类别可依据特征融合至特定对象本身的特征中。

研究者们在 X 光场景下的 X-ray FSOD 数据集与常见场景下的 Pascal VOC 数据集上做了大量的实验,并证明了提出的 WEN 模型优于其他小样本检测模型。

五、参考文献

[1]Renshuai Tao, Hainan Li, Tianbo Wang, Yanlu Wei, Yifu Ding, Bowei Jin, Hongping Zhi, Xianglong Liu, Aishan Liu. Exploring Endogenous Shift for Cross-domain Detection: A Large-scale Benchmark and Perturbation Suppression Network. IEEE CVPR 2022.[2]Renshuai Tao, Yanlu Wei, Xiangjian Jiang, Hainan Li, Haotong Qin, Jiakai Wang, Yuqing Ma, Libo Zhang, Xianglong Liu. Towards Real-world X-ray Security Inspection: A High-Quality Benchmark And Lateral Inhibition Module For Prohibited Items Detection. IEEE ICCV 2021.[3]Renshuai Tao, Tianbo Wang, Ziyang Wu, Cong Liu, Aishan Liu, Xianglong Liu. Few-shot X-ray Prohibited Item Detection: A Benchmark and Weak-feature Enhancement Network. ACM MM 2022.[4]Yanlu Wei, Renshuai Tao, Zhangjie Wu, Yuqing Ma, Libo Zhang, Xianglong Liu. Occluded Prohibited Items Detection: An X-ray Security Inspection Benchmark and De-occlusion Attention Module. ACM Multimedia 2020.

相关文章
|
8天前
|
机器学习/深度学习 网络架构
揭示Transformer重要缺陷!北大提出傅里叶分析神经网络FAN,填补周期性特征建模缺陷
近年来,神经网络在MLP和Transformer等模型上取得显著进展,但在处理周期性特征时存在缺陷。北京大学提出傅里叶分析网络(FAN),基于傅里叶分析建模周期性现象。FAN具有更少的参数、更好的周期性建模能力和广泛的应用范围,在符号公式表示、时间序列预测和语言建模等任务中表现出色。实验表明,FAN能更好地理解周期性特征,超越现有模型。论文链接:https://arxiv.org/pdf/2410.02675.pdf
88 68
|
22天前
|
机器学习/深度学习 算法 PyTorch
基于图神经网络的大语言模型检索增强生成框架研究:面向知识图谱推理的优化与扩展
本文探讨了图神经网络(GNN)与大型语言模型(LLM)结合在知识图谱问答中的应用。研究首先基于G-Retriever构建了探索性模型,然后深入分析了GNN-RAG架构,通过敏感性研究和架构改进,显著提升了模型的推理能力和答案质量。实验结果表明,改进后的模型在多个评估指标上取得了显著提升,特别是在精确率和召回率方面。最后,文章提出了反思机制和教师网络的概念,进一步增强了模型的推理能力。
50 4
基于图神经网络的大语言模型检索增强生成框架研究:面向知识图谱推理的优化与扩展
|
21天前
|
运维 监控 安全
公司监控软件:SAS 数据分析引擎驱动网络异常精准检测
在数字化商业环境中,企业网络系统面临复杂威胁。SAS 数据分析引擎凭借高效处理能力,成为网络异常检测的关键技术。通过统计分析、时间序列分析等方法,SAS 帮助企业及时发现并处理异常流量,确保网络安全和业务连续性。
49 11
|
2月前
|
机器学习/深度学习
NeurIPS 2024:标签噪声下图神经网络有了首个综合基准库,还开源
NoisyGL是首个针对标签噪声下图神经网络(GLN)的综合基准库,由浙江大学和阿里巴巴集团的研究人员开发。该基准库旨在解决现有GLN研究中因数据集选择、划分及预处理技术差异导致的缺乏统一标准问题,提供了一个公平、用户友好的平台,支持多维分析,有助于深入理解GLN方法在处理标签噪声时的表现。通过17种代表性方法在8个常用数据集上的广泛实验,NoisyGL揭示了多个关键发现,推动了GLN领域的进步。尽管如此,NoisyGL目前主要适用于同质图,对异质图的支持有限。
44 7
|
2月前
|
机器学习/深度学习 计算机视觉 网络架构
【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目DWRSeg是一种高效的实时语义分割网络,通过将多尺度特征提取分为区域残差化和语义残差化两步,提高了特征提取效率。它引入了Dilation-wise Residual (DWR) 和 Simple Inverted Residual (SIR) 模块,优化了不同网络阶段的感受野。在Cityscapes和CamVid数据集上的实验表明,DWRSeg在准确性和推理速度之间取得了最佳平衡,达到了72.7%的mIoU,每秒319.5帧。代码和模型已公开。
【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
|
2月前
|
安全 Linux 网络安全
nmap 是一款强大的开源网络扫描工具,能检测目标的开放端口、服务类型和操作系统等信息
nmap 是一款强大的开源网络扫描工具,能检测目标的开放端口、服务类型和操作系统等信息。本文分三部分介绍 nmap:基本原理、使用方法及技巧、实际应用及案例分析。通过学习 nmap,您可以更好地了解网络拓扑和安全状况,提升网络安全管理和渗透测试能力。
190 5
|
2月前
|
机器学习/深度学习 搜索推荐 安全
深度学习之社交网络中的社区检测
在社交网络分析中,社区检测是一项核心任务,旨在将网络中的节点(用户)划分为具有高内部连接密度且相对独立的子群。基于深度学习的社区检测方法,通过捕获复杂的网络结构信息和节点特征,在传统方法基础上实现了更准确、更具鲁棒性的社区划分。
85 7
|
3月前
|
机器学习/深度学习 计算机视觉 网络架构
【YOLO11改进 - C3k2融合】C3k2融合YOLO-MS的MSBlock : 分层特征融合策略,轻量化网络结构
【YOLO11改进 - C3k2融合】C3k2融合YOLO-MS的MSBlock : 分层特征融合策略,轻量化网络结构
|
2月前
|
机器学习/深度学习 计算机视觉 网络架构
【YOLO11改进 - C3k2融合】C3k2融合DWRSeg二次创新C3k2_DWRSeg:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
【YOLO11改进 - C3k2融合】C3k2融合DWRSDWRSeg是一种高效的实时语义分割网络,通过将多尺度特征提取方法分解为区域残差化和语义残差化两步,提高了多尺度信息获取的效率。网络设计了Dilation-wise Residual (DWR) 和 Simple Inverted Residual (SIR) 模块,分别用于高阶段和低阶段,以充分利用不同感受野的特征图。实验结果表明,DWRSeg在Cityscapes和CamVid数据集上表现出色,以每秒319.5帧的速度在NVIDIA GeForce GTX 1080 Ti上达到72.7%的mIoU,超越了现有方法。代码和模型已公开。
|
4月前
|
机器学习/深度学习 安全 网络安全
利用机器学习优化网络安全威胁检测
【9月更文挑战第20天】在数字时代,网络安全成为企业和个人面临的重大挑战。传统的安全措施往往无法有效应对日益复杂的网络攻击手段。本文将探讨如何通过机器学习技术来提升威胁检测的效率和准确性,旨在为读者提供一种创新的视角,以理解和实施机器学习在网络安全中的应用,从而更好地保护数据和系统免受侵害。

热门文章

最新文章