CVPR 2022|跨域检测新任务,北航、讯飞提出内生偏移自适应基准和噪声抑制网络

简介: 一篇由北京航空航天大学、科大讯飞研究院共同完成的研究入选 CVPR 2022。


一篇由北京航空航天大学、科大讯飞研究院共同完成的研究入选 CVPR 2022。


跨域检测任务有很多亟待解决的问题,也一直是学术界研究的焦点。目前的跨域检测方法主要研究外部环境引起的域间偏移,这种偏移通常是可以被肉眼感知的,例如晴天和雾天下的城市(著名的Cityscapes跨域数据集)。然而,在真实场景下,例如医学影像、X光安检场景等,还存在着另一种形式的域间偏移——内生偏移,这种偏移是由于内部因素引起的,例如成像原理、硬件参数、机器老化程度等,这种偏移通常很难被肉眼觉察。内生偏移能引起性能的剧烈下降,但是很少被研究者们关注到。


近日,计算机视觉顶级会议CVPR 2022接收论文结果已经正式公布,会议接收了一篇由北京航空航天大学、科大讯飞研究院共同完成的工作,论文题目为《Exploring Endogenous Shift for Cross-domain Detection: A Large-scale Benchmark and Perturbation Suppression Network》(之后公布论文链接)。这项工作以X光安检场景为例,首先从域间偏移产生原因入手,分析由机器硬件参数等原因造成的域间内生偏移和常见的天气等外部原因造成的域间内生偏移的异同点。此外,该工作还构建了内生偏移自适应能力评估基准,并提出了噪声抑制网络,为跨域检测带来新的思考。

图片.pngimage.gif



目前的跨域检测方法主要研究外部环境引起的域间偏移,这种偏移通常是可以被肉眼感知的,例如晴天和雾天下的城市(著名的 Cityscapes 跨域数据集)。然而,在真实场景下,例如医学影像、X 光安检场景等,还存在着另一种形式的域间偏移——内生偏移,这种偏移是由于内部因素引起的,例如成像原理、硬件参数、机器老化程度等,这种偏移通常很难被肉眼觉察。内生偏移能引起性能的剧烈下降,但是很少被研究者们关注到。


在本文中,研究者们以 X 光安检场景为例,首先从域间偏移产生原因入手,结合常见的自然场景变化,分析外生和内生域间偏移的异同点。然后展示研究者们构建的内生偏移自适应能力评估基准,以及噪声抑制网络,探索目标检测模型在复杂环境下由于感知设备变化导致的脆弱性问题,寻找不同类别物体的领域无关特征的最佳表征。


内生偏移自适应能力评估基准(EDS 数据集)


评估基准的构建对研究是必要的。现有跨域检测任务的数据集主要聚焦明显的域间偏移,而由机器硬件参数引起的难以察觉的域间偏移问题研究却缺乏专业数据集的支持。在本文中,研究者们选择了典型的 X 光安检场景——不同的 X 光机器由于设备的硬件参数和老化程度不同,在成像时存在内生偏移,导致危险品检测模型在不同的 X 光机器之间迁移时性能下降。在表 1 中,研究者们从不同场景、领域数量和支持的实验组数分别把 EDS 数据集和跨域检测任务下各种类型的数据集进行了对比。

图片.png

表 1 EDS 数据集和传统跨域检测数据集对比


可以看出,EDS 在域的数量和支持实验的组数上都要高于传统的跨域检测数据集。并且,迄今为止目前还没有专业的高质量的数据集针对由机器硬件参数引起的难以察觉的域间偏移问题研究,因此,本数据集的提出是非常及时且必要的。


EDS 数据集包含了来自 3 台不同 X 光机器的 14219 张图片, 其中 10 类物品, 共计 31655 个目标实例,均由专业标注人员进行标注。图 1 展示了 10 类物品实物图和不同 X 光机器下的成像图,图 2 展示了 EDS 数据集中物品类别数量分布图。可以看出 EDS 数据集中物品类别数量分布较为均匀,每类物品目标数量均不少于 1000 个。

图片.pngimage.gif

图 1 EDS 数据集中物品实物图和不同 X 光机器下的成像图

图片.pngimage.gif

图 2 EDS 数据集中物品类别数量分布图


噪声抑制网络


为了克服内生偏移带来的跨域检测的性能损失,研究者们提出了噪声抑制网络。该网络从局部和全局两个角度,分别对类别相关(因类别不同而不同,主要指局部的实例区域)和类别无关(不随类别变化而变化,主要指全局的背景区域)两种不同类型的噪声进行抑制。这两种不同类型的噪声如图 3 所示。


图片.pngimage.gif

图 3 两种不同类型的噪声(a 为类别相关噪声,b 为类别无关噪声)


噪声抑制网络的框架图如图 4 所示,它包括两个重要的子模块,分别是局部原型对齐和全局对抗同化。局部原型对齐模块主要针对类别相关噪声,全局对抗同化主要针对类别无关噪声。以下分别展开叙述。

图片.pngimage.gif

图 4 噪声抑制网络的结构图


局部原型对齐


类别相关的噪声因类别不同而不同,主要指局部的实例区域。因此,研究者们对每一个类别的不同目标物体进行聚合操作,得到每个类别的原型。第一步,先对 RPN 网络提出的一个目标的所有 proposal 进行聚合,公式如下:

image.gif图片.png


第二步,对每个类别的不同目标进行聚合,公式如下:

image.gif图片.png


在不断的迭代过程中,不断更新类别原型库,公式如下:

image.gif图片.png


最终,对两个域的特征原型进行对齐操作,公式如下:

图片.pngimage.gif


全局对抗同化


类别无关噪声不随类别变化而变化,主要指全局的大面积的背景区域。因此,局部的特征对齐显然不适用于这种噪声。研究者们采用对抗学习的方法,通过网络的自动学习,将全局噪声抑制到最低程度。首先,研究者们将骨干网络输出的特征输送到分类器 1 中,然后利用 GRL 的梯度取反,引导骨干网络学习到类别无关的特征,公式如下:

image.gif图片.png


然后,由于全局噪声不仅存在于空白区域,还存在于目标区域(目标区域是全局和局部的噪声累加),研究者们将聚合的类别原型特征也进行对抗学习,公式如下:

图片.pngimage.gif


网络训练


网络总的损失函数可表示为:

图片.pngimage.gif


整个网络的训练流程如下:

图片.pngimage.gif


实验


实验设置


实验分别在内生偏移的场景(EDS 数据集)、外生偏移的场景(Cityscapes 数据集)和模拟噪声场景(在 Cityscapes 数据集上添加对抗噪声)和分离实验上进行了充分的验证。比较的模型包括已经开源的 CFA(CVPR 2020),CST(ECCV 2020),SWDA(CVPR 2019)等 SOTA 方法。


内生偏移的场景(EDS 数据集)

图片.pngimage.gif

表 2 在 EDS 数据集上所有类别的平均精度

图片.pngimage.gif

表 3 在 EDS 数据集上不同类别的平均精度


外生偏移的场景(Cityscapes 数据集)

image.gif图片.png

表 4 在 Cityscapes→Foggy-Cityscapes 数据集上的表现


模拟噪声场景(Cityscapes 数据集上添加对抗噪声)


该研究在 Cityscapes 数据集上添加了两种对抗噪声来模拟这种肉眼难以观测的噪声(具体细节可查看原文),形成模拟数据集 1 和模拟数据集 2。然后研究者在 Cityscapes 数据集→模拟数据集 1、模拟数据集 1→模拟数据集 2、模拟数据集 2→模拟数据集 1 上分别进行了实验,实验结果如表 5 和 6 所示。

image.gif图片.png

表 5 Cityscapes 数据集→模拟数据集 1 的实验结果

图片.pngimage.gif

表 6 模拟数据集 1→模拟数据集 2 和模拟数据集 2→模拟数据集 1 的实验结果


分离实验

图片.pngimage.gif

表 7 分离实验


总结


在本文中,来自北航、讯飞的研究人员首先构建了内生偏移自适应能力评估基准——EDS 数据集,该基准以 X 光安检场景为例,选取了 10 类常见的物品,分别在 3 台不同的 X 光机下形成不同的域。随后,研究人员提出的噪声抑制模型从局部和全局两个角度,分别对类别相关(因类别不同而不同,主要指局部的实例区域)和类别无关(不随类别变化而变化,主要指全局的背景区域)两种不同类型的噪声进行抑制。研究人员在该内生偏移的场景(EDS 数据集)、外生偏移的场景(Cityscapes 数据集)和模拟噪声场景(在 Cityscapes 数据集上添加对抗噪声)等场景下分别进行了大量的实验,全面客观地评估了所提出的噪声抑制模型对域间偏移的抑制能力。这项工作为跨域检测研究者们带来了新的思考。


团队相关工作


与传统视觉任务的训练样本不同,在真实开放的视觉场景下,诸如危险品安检、医学影像分析等,样本中广泛存在着环境变化、视角欠佳、目标干扰、取样困难等诸多难题。探索解决开放场景下的视觉任务难题有助于推动计算机视觉相关技术的发展,使得人工智能更好地服务人类社会。北京航空航天大学研究团队以典型的复杂视觉场景——“X光下的违禁品检测”为例,研究了场景变化多[1]、目标面积小[2]、样本内容缺[3]和样本数量少等典型难题,归纳总结了特征信号微弱和特征信号偏移两个关键挑战。并针对上述挑战开展了一系列研究,为复杂场景下的模型学习带来新的思考。


作者介绍

图片.png

image.gif


个人主页:https://rstao95.github.io/


陶仁帅,北京航空航天大学计算机学院博士研究生,师从李未院士和刘祥龙教授,主要研究方向为计算机视觉之复杂场景下的目标识别,具体工作包括去遮挡检测、不同尺度目标检测、域自适应检测、小样本检测等。已发表 CVPR、ICCV、ACM Multimedia、TMM、IJCAI 等顶级会议、期刊 10 篇(一作 / 通讯 6 篇),担任 CVPR、ECCV、ACM Multimedia、Pattern Recognition 等众多 CCF-A 类会议、期刊的审稿人,曾获博士研究生国家奖学金、北航探索奖学金等荣誉。


参考文献


[1]Renshuai Tao, Hainan Li, Tianbo Wang, Yanlu Wei, Yifu Ding, Bowei Jin, Hongping Zhi, Xianglong Liu, Aishan Liu. Exploring Endogenous Shift for Cross-domain Detection: A Large-scale Benchmark and Perturbation Suppression Network. IEEE CVPR 2022.[2]Renshuai Tao, Yanlu Wei, Xiangjian Jiang, Hainan Li, Haotong Qin, Jiakai Wang, Yuqing Ma, Libo Zhang, Xianglong Liu. Towards Real-world X-ray Security Inspection: A High-Quality Benchmark And Lateral Inhibition Module For Prohibited Items Detection. IEEE ICCV 2021.[3]Yanlu Wei*, Renshuai Tao* (equal contribution), Zhangjie Wu, Yuqing Ma, Libo Zhang, Xianglong Liu. Occluded Prohibited Items Detection: An X-ray Security Inspection Benchmark and De-occlusion Attention Module. ACM Multimedia 2020.

相关文章
|
8天前
|
监控 安全 Linux
在 Linux 系统中,网络管理是重要任务。本文介绍了常用的网络命令及其适用场景
在 Linux 系统中,网络管理是重要任务。本文介绍了常用的网络命令及其适用场景,包括 ping(测试连通性)、traceroute(跟踪路由路径)、netstat(显示网络连接信息)、nmap(网络扫描)、ifconfig 和 ip(网络接口配置)。掌握这些命令有助于高效诊断和解决网络问题,保障网络稳定运行。
26 2
|
20天前
|
机器学习/深度学习 计算机视觉 网络架构
【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目DWRSeg是一种高效的实时语义分割网络,通过将多尺度特征提取分为区域残差化和语义残差化两步,提高了特征提取效率。它引入了Dilation-wise Residual (DWR) 和 Simple Inverted Residual (SIR) 模块,优化了不同网络阶段的感受野。在Cityscapes和CamVid数据集上的实验表明,DWRSeg在准确性和推理速度之间取得了最佳平衡,达到了72.7%的mIoU,每秒319.5帧。代码和模型已公开。
【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
|
8天前
|
安全 Linux 网络安全
nmap 是一款强大的开源网络扫描工具,能检测目标的开放端口、服务类型和操作系统等信息
nmap 是一款强大的开源网络扫描工具,能检测目标的开放端口、服务类型和操作系统等信息。本文分三部分介绍 nmap:基本原理、使用方法及技巧、实际应用及案例分析。通过学习 nmap,您可以更好地了解网络拓扑和安全状况,提升网络安全管理和渗透测试能力。
43 5
|
24天前
|
机器学习/深度学习 搜索推荐 安全
深度学习之社交网络中的社区检测
在社交网络分析中,社区检测是一项核心任务,旨在将网络中的节点(用户)划分为具有高内部连接密度且相对独立的子群。基于深度学习的社区检测方法,通过捕获复杂的网络结构信息和节点特征,在传统方法基础上实现了更准确、更具鲁棒性的社区划分。
43 7
|
1月前
|
机器学习/深度学习 存储 自然语言处理
从理论到实践:如何使用长短期记忆网络(LSTM)改善自然语言处理任务
【10月更文挑战第7天】随着深度学习技术的发展,循环神经网络(RNNs)及其变体,特别是长短期记忆网络(LSTMs),已经成为处理序列数据的强大工具。在自然语言处理(NLP)领域,LSTM因其能够捕捉文本中的长期依赖关系而变得尤为重要。本文将介绍LSTM的基本原理,并通过具体的代码示例来展示如何在实际的NLP任务中应用LSTM。
74 4
|
1月前
|
机器学习/深度学习 数据采集 算法
目标分类笔记(一): 利用包含多个网络多种训练策略的框架来完成多目标分类任务(从数据准备到训练测试部署的完整流程)
这篇博客文章介绍了如何使用包含多个网络和多种训练策略的框架来完成多目标分类任务,涵盖了从数据准备到训练、测试和部署的完整流程,并提供了相关代码和配置文件。
51 0
目标分类笔记(一): 利用包含多个网络多种训练策略的框架来完成多目标分类任务(从数据准备到训练测试部署的完整流程)
|
20天前
|
机器学习/深度学习 计算机视觉 网络架构
【YOLO11改进 - C3k2融合】C3k2融合DWRSeg二次创新C3k2_DWRSeg:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
【YOLO11改进 - C3k2融合】C3k2融合DWRSDWRSeg是一种高效的实时语义分割网络,通过将多尺度特征提取方法分解为区域残差化和语义残差化两步,提高了多尺度信息获取的效率。网络设计了Dilation-wise Residual (DWR) 和 Simple Inverted Residual (SIR) 模块,分别用于高阶段和低阶段,以充分利用不同感受野的特征图。实验结果表明,DWRSeg在Cityscapes和CamVid数据集上表现出色,以每秒319.5帧的速度在NVIDIA GeForce GTX 1080 Ti上达到72.7%的mIoU,超越了现有方法。代码和模型已公开。
|
2月前
|
机器学习/深度学习 安全 网络安全
利用机器学习优化网络安全威胁检测
【9月更文挑战第20天】在数字时代,网络安全成为企业和个人面临的重大挑战。传统的安全措施往往无法有效应对日益复杂的网络攻击手段。本文将探讨如何通过机器学习技术来提升威胁检测的效率和准确性,旨在为读者提供一种创新的视角,以理解和实施机器学习在网络安全中的应用,从而更好地保护数据和系统免受侵害。
|
2月前
|
机器学习/深度学习 数据采集 网络安全
使用Python实现深度学习模型:智能网络安全威胁检测
使用Python实现深度学习模型:智能网络安全威胁检测
216 5
|
1月前
|
运维 安全 网络协议
Python 网络编程:端口检测与IP解析
本文介绍了使用Python进行网络编程的两个重要技能:检查端口状态和根据IP地址解析主机名。通过`socket`库实现端口扫描和主机名解析的功能,并提供了详细的示例代码。文章最后还展示了如何整合这两部分代码,实现一个简单的命令行端口扫描器,适用于网络故障排查和安全审计。

热门文章

最新文章

下一篇
无影云桌面