CVPR 2022|跨域检测新任务,北航、讯飞提出内生偏移自适应基准和噪声抑制网络

简介: 一篇由北京航空航天大学、科大讯飞研究院共同完成的研究入选 CVPR 2022。


一篇由北京航空航天大学、科大讯飞研究院共同完成的研究入选 CVPR 2022。


跨域检测任务有很多亟待解决的问题,也一直是学术界研究的焦点。目前的跨域检测方法主要研究外部环境引起的域间偏移,这种偏移通常是可以被肉眼感知的,例如晴天和雾天下的城市(著名的Cityscapes跨域数据集)。然而,在真实场景下,例如医学影像、X光安检场景等,还存在着另一种形式的域间偏移——内生偏移,这种偏移是由于内部因素引起的,例如成像原理、硬件参数、机器老化程度等,这种偏移通常很难被肉眼觉察。内生偏移能引起性能的剧烈下降,但是很少被研究者们关注到。


近日,计算机视觉顶级会议CVPR 2022接收论文结果已经正式公布,会议接收了一篇由北京航空航天大学、科大讯飞研究院共同完成的工作,论文题目为《Exploring Endogenous Shift for Cross-domain Detection: A Large-scale Benchmark and Perturbation Suppression Network》(之后公布论文链接)。这项工作以X光安检场景为例,首先从域间偏移产生原因入手,分析由机器硬件参数等原因造成的域间内生偏移和常见的天气等外部原因造成的域间内生偏移的异同点。此外,该工作还构建了内生偏移自适应能力评估基准,并提出了噪声抑制网络,为跨域检测带来新的思考。

图片.pngimage.gif



目前的跨域检测方法主要研究外部环境引起的域间偏移,这种偏移通常是可以被肉眼感知的,例如晴天和雾天下的城市(著名的 Cityscapes 跨域数据集)。然而,在真实场景下,例如医学影像、X 光安检场景等,还存在着另一种形式的域间偏移——内生偏移,这种偏移是由于内部因素引起的,例如成像原理、硬件参数、机器老化程度等,这种偏移通常很难被肉眼觉察。内生偏移能引起性能的剧烈下降,但是很少被研究者们关注到。


在本文中,研究者们以 X 光安检场景为例,首先从域间偏移产生原因入手,结合常见的自然场景变化,分析外生和内生域间偏移的异同点。然后展示研究者们构建的内生偏移自适应能力评估基准,以及噪声抑制网络,探索目标检测模型在复杂环境下由于感知设备变化导致的脆弱性问题,寻找不同类别物体的领域无关特征的最佳表征。


内生偏移自适应能力评估基准(EDS 数据集)


评估基准的构建对研究是必要的。现有跨域检测任务的数据集主要聚焦明显的域间偏移,而由机器硬件参数引起的难以察觉的域间偏移问题研究却缺乏专业数据集的支持。在本文中,研究者们选择了典型的 X 光安检场景——不同的 X 光机器由于设备的硬件参数和老化程度不同,在成像时存在内生偏移,导致危险品检测模型在不同的 X 光机器之间迁移时性能下降。在表 1 中,研究者们从不同场景、领域数量和支持的实验组数分别把 EDS 数据集和跨域检测任务下各种类型的数据集进行了对比。

图片.png

表 1 EDS 数据集和传统跨域检测数据集对比


可以看出,EDS 在域的数量和支持实验的组数上都要高于传统的跨域检测数据集。并且,迄今为止目前还没有专业的高质量的数据集针对由机器硬件参数引起的难以察觉的域间偏移问题研究,因此,本数据集的提出是非常及时且必要的。


EDS 数据集包含了来自 3 台不同 X 光机器的 14219 张图片, 其中 10 类物品, 共计 31655 个目标实例,均由专业标注人员进行标注。图 1 展示了 10 类物品实物图和不同 X 光机器下的成像图,图 2 展示了 EDS 数据集中物品类别数量分布图。可以看出 EDS 数据集中物品类别数量分布较为均匀,每类物品目标数量均不少于 1000 个。

图片.pngimage.gif

图 1 EDS 数据集中物品实物图和不同 X 光机器下的成像图

图片.pngimage.gif

图 2 EDS 数据集中物品类别数量分布图


噪声抑制网络


为了克服内生偏移带来的跨域检测的性能损失,研究者们提出了噪声抑制网络。该网络从局部和全局两个角度,分别对类别相关(因类别不同而不同,主要指局部的实例区域)和类别无关(不随类别变化而变化,主要指全局的背景区域)两种不同类型的噪声进行抑制。这两种不同类型的噪声如图 3 所示。


图片.pngimage.gif

图 3 两种不同类型的噪声(a 为类别相关噪声,b 为类别无关噪声)


噪声抑制网络的框架图如图 4 所示,它包括两个重要的子模块,分别是局部原型对齐和全局对抗同化。局部原型对齐模块主要针对类别相关噪声,全局对抗同化主要针对类别无关噪声。以下分别展开叙述。

图片.pngimage.gif

图 4 噪声抑制网络的结构图


局部原型对齐


类别相关的噪声因类别不同而不同,主要指局部的实例区域。因此,研究者们对每一个类别的不同目标物体进行聚合操作,得到每个类别的原型。第一步,先对 RPN 网络提出的一个目标的所有 proposal 进行聚合,公式如下:

image.gif图片.png


第二步,对每个类别的不同目标进行聚合,公式如下:

image.gif图片.png


在不断的迭代过程中,不断更新类别原型库,公式如下:

image.gif图片.png


最终,对两个域的特征原型进行对齐操作,公式如下:

图片.pngimage.gif


全局对抗同化


类别无关噪声不随类别变化而变化,主要指全局的大面积的背景区域。因此,局部的特征对齐显然不适用于这种噪声。研究者们采用对抗学习的方法,通过网络的自动学习,将全局噪声抑制到最低程度。首先,研究者们将骨干网络输出的特征输送到分类器 1 中,然后利用 GRL 的梯度取反,引导骨干网络学习到类别无关的特征,公式如下:

image.gif图片.png


然后,由于全局噪声不仅存在于空白区域,还存在于目标区域(目标区域是全局和局部的噪声累加),研究者们将聚合的类别原型特征也进行对抗学习,公式如下:

图片.pngimage.gif


网络训练


网络总的损失函数可表示为:

图片.pngimage.gif


整个网络的训练流程如下:

图片.pngimage.gif


实验


实验设置


实验分别在内生偏移的场景(EDS 数据集)、外生偏移的场景(Cityscapes 数据集)和模拟噪声场景(在 Cityscapes 数据集上添加对抗噪声)和分离实验上进行了充分的验证。比较的模型包括已经开源的 CFA(CVPR 2020),CST(ECCV 2020),SWDA(CVPR 2019)等 SOTA 方法。


内生偏移的场景(EDS 数据集)

图片.pngimage.gif

表 2 在 EDS 数据集上所有类别的平均精度

图片.pngimage.gif

表 3 在 EDS 数据集上不同类别的平均精度


外生偏移的场景(Cityscapes 数据集)

image.gif图片.png

表 4 在 Cityscapes→Foggy-Cityscapes 数据集上的表现


模拟噪声场景(Cityscapes 数据集上添加对抗噪声)


该研究在 Cityscapes 数据集上添加了两种对抗噪声来模拟这种肉眼难以观测的噪声(具体细节可查看原文),形成模拟数据集 1 和模拟数据集 2。然后研究者在 Cityscapes 数据集→模拟数据集 1、模拟数据集 1→模拟数据集 2、模拟数据集 2→模拟数据集 1 上分别进行了实验,实验结果如表 5 和 6 所示。

image.gif图片.png

表 5 Cityscapes 数据集→模拟数据集 1 的实验结果

图片.pngimage.gif

表 6 模拟数据集 1→模拟数据集 2 和模拟数据集 2→模拟数据集 1 的实验结果


分离实验

图片.pngimage.gif

表 7 分离实验


总结


在本文中,来自北航、讯飞的研究人员首先构建了内生偏移自适应能力评估基准——EDS 数据集,该基准以 X 光安检场景为例,选取了 10 类常见的物品,分别在 3 台不同的 X 光机下形成不同的域。随后,研究人员提出的噪声抑制模型从局部和全局两个角度,分别对类别相关(因类别不同而不同,主要指局部的实例区域)和类别无关(不随类别变化而变化,主要指全局的背景区域)两种不同类型的噪声进行抑制。研究人员在该内生偏移的场景(EDS 数据集)、外生偏移的场景(Cityscapes 数据集)和模拟噪声场景(在 Cityscapes 数据集上添加对抗噪声)等场景下分别进行了大量的实验,全面客观地评估了所提出的噪声抑制模型对域间偏移的抑制能力。这项工作为跨域检测研究者们带来了新的思考。


团队相关工作


与传统视觉任务的训练样本不同,在真实开放的视觉场景下,诸如危险品安检、医学影像分析等,样本中广泛存在着环境变化、视角欠佳、目标干扰、取样困难等诸多难题。探索解决开放场景下的视觉任务难题有助于推动计算机视觉相关技术的发展,使得人工智能更好地服务人类社会。北京航空航天大学研究团队以典型的复杂视觉场景——“X光下的违禁品检测”为例,研究了场景变化多[1]、目标面积小[2]、样本内容缺[3]和样本数量少等典型难题,归纳总结了特征信号微弱和特征信号偏移两个关键挑战。并针对上述挑战开展了一系列研究,为复杂场景下的模型学习带来新的思考。


作者介绍

图片.png

image.gif


个人主页:https://rstao95.github.io/


陶仁帅,北京航空航天大学计算机学院博士研究生,师从李未院士和刘祥龙教授,主要研究方向为计算机视觉之复杂场景下的目标识别,具体工作包括去遮挡检测、不同尺度目标检测、域自适应检测、小样本检测等。已发表 CVPR、ICCV、ACM Multimedia、TMM、IJCAI 等顶级会议、期刊 10 篇(一作 / 通讯 6 篇),担任 CVPR、ECCV、ACM Multimedia、Pattern Recognition 等众多 CCF-A 类会议、期刊的审稿人,曾获博士研究生国家奖学金、北航探索奖学金等荣誉。


参考文献


[1]Renshuai Tao, Hainan Li, Tianbo Wang, Yanlu Wei, Yifu Ding, Bowei Jin, Hongping Zhi, Xianglong Liu, Aishan Liu. Exploring Endogenous Shift for Cross-domain Detection: A Large-scale Benchmark and Perturbation Suppression Network. IEEE CVPR 2022.[2]Renshuai Tao, Yanlu Wei, Xiangjian Jiang, Hainan Li, Haotong Qin, Jiakai Wang, Yuqing Ma, Libo Zhang, Xianglong Liu. Towards Real-world X-ray Security Inspection: A High-Quality Benchmark And Lateral Inhibition Module For Prohibited Items Detection. IEEE ICCV 2021.[3]Yanlu Wei*, Renshuai Tao* (equal contribution), Zhangjie Wu, Yuqing Ma, Libo Zhang, Xianglong Liu. Occluded Prohibited Items Detection: An X-ray Security Inspection Benchmark and De-occlusion Attention Module. ACM Multimedia 2020.

相关文章
|
2月前
|
JSON 监控 API
在线网络PING接口检测服务器连通状态免费API教程
接口盒子提供免费PING检测API,可测试域名或IP的连通性与响应速度,支持指定地域节点,适用于服务器运维和网络监控。
|
2月前
|
监控 算法 安全
基于 C# 基数树算法的网络屏幕监控敏感词检测技术研究
随着数字化办公和网络交互迅猛发展,网络屏幕监控成为信息安全的关键。基数树(Trie Tree)凭借高效的字符串处理能力,在敏感词检测中表现出色。结合C#语言,可构建高时效、高准确率的敏感词识别模块,提升网络安全防护能力。
69 2
|
7月前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于GRU网络的MQAM调制信号检测算法matlab仿真,对比LSTM
本研究基于MATLAB 2022a,使用GRU网络对QAM调制信号进行检测。QAM是一种高效调制技术,广泛应用于现代通信系统。传统方法在复杂环境下性能下降,而GRU通过门控机制有效提取时间序列特征,实现16QAM、32QAM、64QAM、128QAM的准确检测。仿真结果显示,GRU在低SNR下表现优异,且训练速度快,参数少。核心程序包括模型预测、误检率和漏检率计算,并绘制准确率图。
177 65
基于GRU网络的MQAM调制信号检测算法matlab仿真,对比LSTM
|
3月前
|
机器学习/深度学习 算法 5G
基于DNN深度神经网络的OFDM+QPSK信号检测与误码率matlab仿真
本内容展示了基于深度神经网络(DNN)的OFDM-QPSK信号检测算法在Matlab2022a中的仿真效果。通过构建包含多层全连接层和ReLU激活函数的DNN模型,结合信号预处理与特征提取,实现了复杂通信环境下的高效信号检测。仿真结果对比了传统LS、MMSE方法与DNN方法在不同信噪比(SNR)条件下的误码率(BER)和符号错误率(SER),验证了DNN方法的优越性能。核心程序涵盖了QPSK调制、导频插入、OFDM发射、信道传输及DNN预测等关键步骤,为现代通信系统提供了可靠的技术支持。
52 0
|
5月前
|
SQL 数据采集 人工智能
“服务器老被黑?那是你没上AI哨兵!”——聊聊基于AI的网络攻击检测那些事儿
“服务器老被黑?那是你没上AI哨兵!”——聊聊基于AI的网络攻击检测那些事儿
216 12
|
5月前
|
人工智能 搜索推荐 开发者
GPT-4o测评准确率竟不到1%!BrowseComp:OpenAI开源AI代理评测新基准,1266道高难度网络检索问题
OpenAI最新开源的BrowseComp基准包含1266个高难度网络检索问题,覆盖影视、科技、艺术等九大领域,其最新Deep Research模型以51.5%准确率展现复杂信息整合能力,为AI代理的浏览能力评估建立新标准。
274 4
GPT-4o测评准确率竟不到1%!BrowseComp:OpenAI开源AI代理评测新基准,1266道高难度网络检索问题
|
5月前
|
机器学习/深度学习 人工智能 运维
AI“捕风捉影”:深度学习如何让网络事件检测更智能?
AI“捕风捉影”:深度学习如何让网络事件检测更智能?
121 8
|
6月前
|
机器学习/深度学习 存储 算法
基于MobileNet深度学习网络的活体人脸识别检测算法matlab仿真
本内容主要介绍一种基于MobileNet深度学习网络的活体人脸识别检测技术及MQAM调制类型识别方法。完整程序运行效果无水印,需使用Matlab2022a版本。核心代码包含详细中文注释与操作视频。理论概述中提到,传统人脸识别易受非活体攻击影响,而MobileNet通过轻量化的深度可分离卷积结构,在保证准确性的同时提升检测效率。活体人脸与非活体在纹理和光照上存在显著差异,MobileNet可有效提取人脸高级特征,为无线通信领域提供先进的调制类型识别方案。
|
7月前
|
机器学习/深度学习 自然语言处理 计算机视觉
RT-DETR改进策略【Backbone/主干网络】| CVPR 2024 替换骨干网络为 RMT,增强空间信息的感知能力
RT-DETR改进策略【Backbone/主干网络】| CVPR 2024 替换骨干网络为 RMT,增强空间信息的感知能力
295 13
RT-DETR改进策略【Backbone/主干网络】| CVPR 2024 替换骨干网络为 RMT,增强空间信息的感知能力
|
7月前
|
机器学习/深度学习 计算机视觉
RT-DETR改进策略【Backbone/主干网络】| 替换骨干网络为2023-CVPR LSKNet (附网络详解和完整配置步骤)
RT-DETR改进策略【Backbone/主干网络】| 替换骨干网络为2023-CVPR LSKNet (附网络详解和完整配置步骤)
189 13
RT-DETR改进策略【Backbone/主干网络】| 替换骨干网络为2023-CVPR LSKNet (附网络详解和完整配置步骤)

热门文章

最新文章