CVPR 2022|跨域检测新任务,北航、讯飞提出内生偏移自适应基准和噪声抑制网络

简介: 一篇由北京航空航天大学、科大讯飞研究院共同完成的研究入选 CVPR 2022。


一篇由北京航空航天大学、科大讯飞研究院共同完成的研究入选 CVPR 2022。


跨域检测任务有很多亟待解决的问题,也一直是学术界研究的焦点。目前的跨域检测方法主要研究外部环境引起的域间偏移,这种偏移通常是可以被肉眼感知的,例如晴天和雾天下的城市(著名的Cityscapes跨域数据集)。然而,在真实场景下,例如医学影像、X光安检场景等,还存在着另一种形式的域间偏移——内生偏移,这种偏移是由于内部因素引起的,例如成像原理、硬件参数、机器老化程度等,这种偏移通常很难被肉眼觉察。内生偏移能引起性能的剧烈下降,但是很少被研究者们关注到。


近日,计算机视觉顶级会议CVPR 2022接收论文结果已经正式公布,会议接收了一篇由北京航空航天大学、科大讯飞研究院共同完成的工作,论文题目为《Exploring Endogenous Shift for Cross-domain Detection: A Large-scale Benchmark and Perturbation Suppression Network》(之后公布论文链接)。这项工作以X光安检场景为例,首先从域间偏移产生原因入手,分析由机器硬件参数等原因造成的域间内生偏移和常见的天气等外部原因造成的域间内生偏移的异同点。此外,该工作还构建了内生偏移自适应能力评估基准,并提出了噪声抑制网络,为跨域检测带来新的思考。

图片.pngimage.gif



目前的跨域检测方法主要研究外部环境引起的域间偏移,这种偏移通常是可以被肉眼感知的,例如晴天和雾天下的城市(著名的 Cityscapes 跨域数据集)。然而,在真实场景下,例如医学影像、X 光安检场景等,还存在着另一种形式的域间偏移——内生偏移,这种偏移是由于内部因素引起的,例如成像原理、硬件参数、机器老化程度等,这种偏移通常很难被肉眼觉察。内生偏移能引起性能的剧烈下降,但是很少被研究者们关注到。


在本文中,研究者们以 X 光安检场景为例,首先从域间偏移产生原因入手,结合常见的自然场景变化,分析外生和内生域间偏移的异同点。然后展示研究者们构建的内生偏移自适应能力评估基准,以及噪声抑制网络,探索目标检测模型在复杂环境下由于感知设备变化导致的脆弱性问题,寻找不同类别物体的领域无关特征的最佳表征。


内生偏移自适应能力评估基准(EDS 数据集)


评估基准的构建对研究是必要的。现有跨域检测任务的数据集主要聚焦明显的域间偏移,而由机器硬件参数引起的难以察觉的域间偏移问题研究却缺乏专业数据集的支持。在本文中,研究者们选择了典型的 X 光安检场景——不同的 X 光机器由于设备的硬件参数和老化程度不同,在成像时存在内生偏移,导致危险品检测模型在不同的 X 光机器之间迁移时性能下降。在表 1 中,研究者们从不同场景、领域数量和支持的实验组数分别把 EDS 数据集和跨域检测任务下各种类型的数据集进行了对比。

图片.png

表 1 EDS 数据集和传统跨域检测数据集对比


可以看出,EDS 在域的数量和支持实验的组数上都要高于传统的跨域检测数据集。并且,迄今为止目前还没有专业的高质量的数据集针对由机器硬件参数引起的难以察觉的域间偏移问题研究,因此,本数据集的提出是非常及时且必要的。


EDS 数据集包含了来自 3 台不同 X 光机器的 14219 张图片, 其中 10 类物品, 共计 31655 个目标实例,均由专业标注人员进行标注。图 1 展示了 10 类物品实物图和不同 X 光机器下的成像图,图 2 展示了 EDS 数据集中物品类别数量分布图。可以看出 EDS 数据集中物品类别数量分布较为均匀,每类物品目标数量均不少于 1000 个。

图片.pngimage.gif

图 1 EDS 数据集中物品实物图和不同 X 光机器下的成像图

图片.pngimage.gif

图 2 EDS 数据集中物品类别数量分布图


噪声抑制网络


为了克服内生偏移带来的跨域检测的性能损失,研究者们提出了噪声抑制网络。该网络从局部和全局两个角度,分别对类别相关(因类别不同而不同,主要指局部的实例区域)和类别无关(不随类别变化而变化,主要指全局的背景区域)两种不同类型的噪声进行抑制。这两种不同类型的噪声如图 3 所示。


图片.pngimage.gif

图 3 两种不同类型的噪声(a 为类别相关噪声,b 为类别无关噪声)


噪声抑制网络的框架图如图 4 所示,它包括两个重要的子模块,分别是局部原型对齐和全局对抗同化。局部原型对齐模块主要针对类别相关噪声,全局对抗同化主要针对类别无关噪声。以下分别展开叙述。

图片.pngimage.gif

图 4 噪声抑制网络的结构图


局部原型对齐


类别相关的噪声因类别不同而不同,主要指局部的实例区域。因此,研究者们对每一个类别的不同目标物体进行聚合操作,得到每个类别的原型。第一步,先对 RPN 网络提出的一个目标的所有 proposal 进行聚合,公式如下:

image.gif图片.png


第二步,对每个类别的不同目标进行聚合,公式如下:

image.gif图片.png


在不断的迭代过程中,不断更新类别原型库,公式如下:

image.gif图片.png


最终,对两个域的特征原型进行对齐操作,公式如下:

图片.pngimage.gif


全局对抗同化


类别无关噪声不随类别变化而变化,主要指全局的大面积的背景区域。因此,局部的特征对齐显然不适用于这种噪声。研究者们采用对抗学习的方法,通过网络的自动学习,将全局噪声抑制到最低程度。首先,研究者们将骨干网络输出的特征输送到分类器 1 中,然后利用 GRL 的梯度取反,引导骨干网络学习到类别无关的特征,公式如下:

image.gif图片.png


然后,由于全局噪声不仅存在于空白区域,还存在于目标区域(目标区域是全局和局部的噪声累加),研究者们将聚合的类别原型特征也进行对抗学习,公式如下:

图片.pngimage.gif


网络训练


网络总的损失函数可表示为:

图片.pngimage.gif


整个网络的训练流程如下:

图片.pngimage.gif


实验


实验设置


实验分别在内生偏移的场景(EDS 数据集)、外生偏移的场景(Cityscapes 数据集)和模拟噪声场景(在 Cityscapes 数据集上添加对抗噪声)和分离实验上进行了充分的验证。比较的模型包括已经开源的 CFA(CVPR 2020),CST(ECCV 2020),SWDA(CVPR 2019)等 SOTA 方法。


内生偏移的场景(EDS 数据集)

图片.pngimage.gif

表 2 在 EDS 数据集上所有类别的平均精度

图片.pngimage.gif

表 3 在 EDS 数据集上不同类别的平均精度


外生偏移的场景(Cityscapes 数据集)

image.gif图片.png

表 4 在 Cityscapes→Foggy-Cityscapes 数据集上的表现


模拟噪声场景(Cityscapes 数据集上添加对抗噪声)


该研究在 Cityscapes 数据集上添加了两种对抗噪声来模拟这种肉眼难以观测的噪声(具体细节可查看原文),形成模拟数据集 1 和模拟数据集 2。然后研究者在 Cityscapes 数据集→模拟数据集 1、模拟数据集 1→模拟数据集 2、模拟数据集 2→模拟数据集 1 上分别进行了实验,实验结果如表 5 和 6 所示。

image.gif图片.png

表 5 Cityscapes 数据集→模拟数据集 1 的实验结果

图片.pngimage.gif

表 6 模拟数据集 1→模拟数据集 2 和模拟数据集 2→模拟数据集 1 的实验结果


分离实验

图片.pngimage.gif

表 7 分离实验


总结


在本文中,来自北航、讯飞的研究人员首先构建了内生偏移自适应能力评估基准——EDS 数据集,该基准以 X 光安检场景为例,选取了 10 类常见的物品,分别在 3 台不同的 X 光机下形成不同的域。随后,研究人员提出的噪声抑制模型从局部和全局两个角度,分别对类别相关(因类别不同而不同,主要指局部的实例区域)和类别无关(不随类别变化而变化,主要指全局的背景区域)两种不同类型的噪声进行抑制。研究人员在该内生偏移的场景(EDS 数据集)、外生偏移的场景(Cityscapes 数据集)和模拟噪声场景(在 Cityscapes 数据集上添加对抗噪声)等场景下分别进行了大量的实验,全面客观地评估了所提出的噪声抑制模型对域间偏移的抑制能力。这项工作为跨域检测研究者们带来了新的思考。


团队相关工作


与传统视觉任务的训练样本不同,在真实开放的视觉场景下,诸如危险品安检、医学影像分析等,样本中广泛存在着环境变化、视角欠佳、目标干扰、取样困难等诸多难题。探索解决开放场景下的视觉任务难题有助于推动计算机视觉相关技术的发展,使得人工智能更好地服务人类社会。北京航空航天大学研究团队以典型的复杂视觉场景——“X光下的违禁品检测”为例,研究了场景变化多[1]、目标面积小[2]、样本内容缺[3]和样本数量少等典型难题,归纳总结了特征信号微弱和特征信号偏移两个关键挑战。并针对上述挑战开展了一系列研究,为复杂场景下的模型学习带来新的思考。


作者介绍

图片.png

image.gif


个人主页:https://rstao95.github.io/


陶仁帅,北京航空航天大学计算机学院博士研究生,师从李未院士和刘祥龙教授,主要研究方向为计算机视觉之复杂场景下的目标识别,具体工作包括去遮挡检测、不同尺度目标检测、域自适应检测、小样本检测等。已发表 CVPR、ICCV、ACM Multimedia、TMM、IJCAI 等顶级会议、期刊 10 篇(一作 / 通讯 6 篇),担任 CVPR、ECCV、ACM Multimedia、Pattern Recognition 等众多 CCF-A 类会议、期刊的审稿人,曾获博士研究生国家奖学金、北航探索奖学金等荣誉。


参考文献


[1]Renshuai Tao, Hainan Li, Tianbo Wang, Yanlu Wei, Yifu Ding, Bowei Jin, Hongping Zhi, Xianglong Liu, Aishan Liu. Exploring Endogenous Shift for Cross-domain Detection: A Large-scale Benchmark and Perturbation Suppression Network. IEEE CVPR 2022.[2]Renshuai Tao, Yanlu Wei, Xiangjian Jiang, Hainan Li, Haotong Qin, Jiakai Wang, Yuqing Ma, Libo Zhang, Xianglong Liu. Towards Real-world X-ray Security Inspection: A High-Quality Benchmark And Lateral Inhibition Module For Prohibited Items Detection. IEEE ICCV 2021.[3]Yanlu Wei*, Renshuai Tao* (equal contribution), Zhangjie Wu, Yuqing Ma, Libo Zhang, Xianglong Liu. Occluded Prohibited Items Detection: An X-ray Security Inspection Benchmark and De-occlusion Attention Module. ACM Multimedia 2020.

相关文章
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习中的自适应神经网络
【6月更文挑战第24天】在深度学习的浪潮中,自适应神经网络以其独特的灵活性和高效性引起了研究者的广泛关注。本文将深入探讨自适应神经网络的设计原理、优化算法以及在不同领域的应用案例,揭示其在处理复杂数据模式时的优势与挑战。
|
17天前
|
机器学习/深度学习
【从零开始学习深度学习】21. 卷积神经网络(CNN)之二维卷积层原理介绍、如何用卷积层检测物体边缘
【从零开始学习深度学习】21. 卷积神经网络(CNN)之二维卷积层原理介绍、如何用卷积层检测物体边缘
|
23天前
|
网络协议 C语言 网络架构
计算机网络——数据链路层-点对点协议(组成部分、PPP帧格式、透明传输、差错检测、工作状态)
计算机网络——数据链路层-点对点协议(组成部分、PPP帧格式、透明传输、差错检测、工作状态)
62 7
|
2天前
|
文字识别 开发工具 Android开发
视觉智能开放平台操作报错合集之使用人脸属性检测接口,出现报错:图片无法下载,请检查链接是否可访问和本地网络情况,该如何解决
在使用视觉智能开放平台时,可能会遇到各种错误和问题。虽然具体的错误代码和消息会因平台而异,但以下是一些常见错误类型及其可能的原因和解决策略的概述,包括但不限于:1. 认证错误、2. 请求参数错误、3. 资源超限、4. 图像质量问题、5. 服务不可用、6. 模型不支持的场景、7. 网络连接问题,这有助于快速定位和解决问题。
|
4天前
|
机器学习/深度学习 算法
基于RBF神经网络的自适应控制器simulink建模与仿真
使用MATLAB2022a,开发了一个基于RBF神经网络的自适应控制器Simulink S函数,进行了控制仿真。核心程序展示了RBF网络的权重和参数调整。测试结果显示了控制效果。RBF网络是一种三层前馈网络,利用高斯函数处理非线性系统。自适应控制器通过在线调整参数应对系统变化。网络学习分为自组织和有导师两个阶段,通过误差信号调整权重,确保系统稳定性。
|
1月前
|
存储 人工智能 应用服务中间件
Web应用是一种通过互联网浏览器和网络技术在互联网上执行任务的计算机程序
【5月更文挑战第30天】Web应用是一种通过互联网浏览器和网络技术在互联网上执行任务的计算机程序
32 2
|
1月前
|
人工智能 自然语言处理 安全
构建未来:AI驱动的自适应网络安全防御系统提升软件测试效率:自动化与持续集成的实践之路
【5月更文挑战第30天】 在数字化时代,网络安全已成为维护信息完整性、保障用户隐私和企业持续运营的关键。传统的安全防御手段,如防火墙和入侵检测系统,面对日益复杂的网络攻击已显得力不从心。本文提出了一种基于人工智能(AI)技术的自适应网络安全防御系统,该系统能够实时分析网络流量,自动识别潜在威胁,并动态调整防御策略以应对未知攻击。通过深度学习算法和自然语言处理技术的结合,系统不仅能够提高检测速度和准确性,还能自主学习和适应新型攻击模式,从而显著提升网络安全防御的效率和智能化水平。 【5月更文挑战第30天】 在快速迭代的软件开发周期中,传统的手动测试方法已不再适应现代高效交付的要求。本文探讨了如
|
16天前
|
Linux
【Linux】检测网络请求路径 traceroute
【Linux】检测网络请求路径 traceroute
15 0
|
18天前
|
机器学习/深度学习 监控 算法
基于yolov2深度学习网络的昆虫检测算法matlab仿真,并输出昆虫数量和大小判决
YOLOv2算法应用于昆虫检测,提供实时高效的方法识别和定位图像中的昆虫,提升检测精度。核心是统一检测网络,预测边界框和类别概率。通过预测框尺寸估算昆虫大小,适用于农业监控、生态研究等领域。在matlab2022A上运行,经过关键升级,如采用更优网络结构和损失函数,保证速度与精度。持续优化可增强对不同昆虫的检测能力。![image.png](https://ucc.alicdn.com/pic/developer-ecology/3tnl7rfrqv6tw_e760ff6682a3420cb4e24d1e48b10a2e.png)
|
23天前
|
算法
计算机网络——数据链路层-差错检测(奇偶校验、循环冗余校验CRC)
计算机网络——数据链路层-差错检测(奇偶校验、循环冗余校验CRC)
25 0

热门文章

最新文章