论文精度笔记(一):《ZERO-SHOT DETECTION WITH TRANSFERABLE OBJECT PROPOSAL MECHANISM》

简介: 本论文提出了一种零样本检测方法,通过引入可转移的对象候选机制来关联类别间的共现关系,并使用所有类的置信度分布进行对象置信度预测,以提高对未见类别物体的检测性能。

论文题目

ZERO-SHOT DETECTION WITH TRANSFERABLE OBJECT PROPOSAL MECHANISM 》这是论文的链接:链接
这是2019年IEEE的论文

《具有可转移对象候选机制的零样本检测》本人自译,转载译本需经许可!!!!!

Yilan Shaoy, Yanan Liz, Donghui Wangyz

浙江大学人工智能研究所,杭州浙江大学人工智能研究所

摘要

零样本检测目的是为了定位和识别图片或者视频中看不到的物体,以解决缺乏标签的训练数据的问题。尽管大多数现有的零样本方法都将重点放在对象分类上,但挑战来自于对象候选和检测器的类别预测以此克服领域偏移。在本文中,我们首先设计一个实验,以验证对象候选步骤的传递能力对检测召回的影响,并进一步引入一种可转移的机制来关联类别之间的共现。我们使用所有类的置信度分布来进行对象置信度预测。实验结果表明,即使采用简单的线性分类方法,我们的方法也优于PASCAL VOC和MSCOCO数据集上的其他零样本检测器。

索引词-零样本识别,对象检测,对象候选,置信度分布,语义知识

1.介绍

零样本识别尝试通过使用分类标签的语义知识来识别新类的对象[1,2,3]。然而,零样本旨在同时定位和识别自然图像中新类别的对象,这似乎更具有挑战性,并且在舍去中越来越受欢迎[4,5,6].

传统的对象检测方法通常倾向于记住训练对象的模式,而在解析图像时将其他区域作为背景.我们认为看不见的对象很有可能在推断阶段被忽略,除非它们在外观上看起来与对象相似。为了验证我们的猜想,1.我们首先在本节中研究常规探测器捕获新物体的传递能力,2.实验表明,传统方法在候选对象上表现不佳,令人失望的召回率证明了这一点。因此,看不见的物体的候选是ZSD中最关键的问题之一。几乎没有应用对检测器的ZSR方法没有什么意义,因为不能通过任何分类算法解决丢失目标实例的问题。

在最后一年,研究人员注意到ZSD问题,并尝试使用不同的策略来解决它.他们中的大多数[4,5]主要将注意力集中在识别上,但很少讨论对象建议问题。相比之下,[6]学习背景类并尝试通过使用辅助数据对语义标签空间进行密集采样来分离看不见的对象。它是有效的,但仍会消耗数据,因为背景必须覆盖尽可能多的视觉知识才能获得预期的结果。另外,有限的数据集不足以使这些方法完全理解背景概念。

在这项工作中,我们引入了一个新奇的ZSD方法,主要用于看不见的候选对象,通过图一说明,原则上,ZSD模型在对象建议和类别预测中都必须是可移植的。首先,在测试时将看不见的物体与背景区分开来,我们会在所有类别上生成一个置信度分布,而不是单个置信度分数,此分布反映了观察到的类和其他类之间的关系。比如说,共现,这对于推断未见类的实例的存在是必不可少的。与此同时, 我们通过视觉语义映射来预测相应的语义嵌入。通过将其与类标签的预定义语义知识进行比较,我们将其归类为具有最大相似性的类,为了证明ZSD方法的有效性,我们在两个基准上对其进行了评估,大量的实验结果表明,不仅对象建议对于ZSD具有重要意义,而且在相同的设置下,所提出的方法可以大大优于最新的ZSD方法。

总而言之,这篇论文的贡献主要分为三个方面,1.我们验证关于物体候选中探测器转移能力的假设;2.我们提出了一种基于YOLO模型[9]的有效方法,为了去检测看不见的物体;3.大量实验表明,我们的模型获得了最先进的性能。

在这里插入图片描述

图一:提出模型的图示。它可以同时生成置信度分布,位置和对象类别。与其他方法不同,它基于网格特征生成了对象候选的置信度分布,并预测了语义嵌入,以便与预定义的类嵌入进行比较以实现零样本识别。

2.目标候选分析

在这个部分,我们在PASCAL VOC上进行了两组实验,以验证常规对象检测器是否可以检测到看不见的对象,其中15类被视为可见类,其余5类为看不见的类。每个测试图像仅包含单个类的对象。无论类别如何,检测器都需要在测试图像中找到目标,并以高置信度输出其边界框,在本文中,我们将其称为零样本定位(ZSO)。

为了解决ZSO问题,我们略微修改了常规YOLO模型,以忽略类预测模块,并使用召回率来衡量其性能。低召回率意味着无法发现看不见的物体。我们保持置信度大于0.2的预测边界框,并认为IoU> 0.5(联合的交集)及其地面真实边界框是正确的预测.

在第一个实验的训练过程中可见或不可见,我们选择5个类别(表示为A),包括汽车,狗,马,沙发和火车,以测试常规探测器在训练过程中可见和不可见时在这五个类别上各自地表现。相应的召回情况如图2(a)所示。我们看到,将这些类从训练数据集中删除后,明显减少了,这在引言中验证了我们的猜想。然而,狗的召回率仍然很高,可能是因为探测器将它们当作猫。

在第二个实验中,不同的训练-测试划分,我们想进一步研究数据集分割对ZSD的影响。我们从PASCAL VOC中选择其他三个测试集,每个测试集包含五个看不见的类。它们是:(B)猫,牛,狗,马和绵羊; (C)自行车,公共汽车,汽车,摩托车和火车; (D)椅子,餐桌,盆栽,沙发和电视显示器。不同于第一次实验的测试集,在训练数据集中有超类,这些测试集在训练期间看不到或很少看到其他类似的类别。我们报告平均召回率见图2(b)。我们观察到传统的检测器很难为看不见的物体提出边界框。当训练和测试类之间的语义相关性较低时,即划分为D,结果变得更糟糕。

这些实验表明,对象候选在很大程度上取决于从训练数据集中学到的知识。未能将看不见的对象与背景分离的原因之一是检测器对所看到的内容过于僵化,无法在类之间建立同现。可见和不可见类的相关性越差,性能越差。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8x5XJPVZ-1614417178016)(image-20210226205523793.png)]
图二:调出PASCAL VOC数据集中的方向。(a)表示在训练期间可见和不可见的5个测试类的框召回率。 (b)是零样本检测中4个不同数据集拆分的平均召回率。 A代表(a)中采用的划分,而B,C和D仅分别包含来自哺乳动物,车辆和室内物体的类别。

3.方法

在深度学习技术的驱动下,对象检测的研究在两阶段研究中取得了快速进展,即两阶段模型[10、11、12、13]和一阶段模型[9、14、15]。我们提出了一个单阶段的ZSD模型,该模型旨在使检测器不仅在分类方面而且在对象候选方面都具有转移能力。

3.1基本模型

为了简便起见,我们在YOLO的最新版本(即YOLOv3 [16])上建立了模型。与以前的版本[9,17]相比,YOLOv3通过带有残差块的特征[18]的DarkNet-53提取,并进行多尺度预测以检测不同大小的物体,使用[19]中的类似方法融合不同分辨率的特征图。

对于定位,我们继承了预测头和YOLOv3的总共9个锚点先验,每个尺度使用3个锚点。较小的锚点将以更细的粒度分配给比例尺,以进行较小的对象检测。我们从原始输出中得到框预测(^xi; ^yi; ^ wi;^hi),前两个值表示相对于网格位置的相对位置,后两个值表示锚点大小。定位损失定义为:

在这里插入图片描述
在这里插入图片描述

3.2零样本目标候选

传统的物体检测方法往往会记住正常情况下有限类别的出现,但在新颖类别的物体上却无法实现,因为他们不能在训练期间从学到的信息中得出推论,对类别不敏感的估计置信度可能会忽略类之间的联系。相反,我们的模型关联了不同的类别,并预测了所有对象类别的置信度分布以对框进行评分。

在这里插入图片描述在这里插入图片描述
在这里插入图片描述

3.3零样本分类预测

在这里插入图片描述

3.4训练和推理

在训练阶段,我们首先使用灰色像素将图像填充为正方形,然后通过双线性插值将其缩放为固定大小。我们随机使用缩放,裁剪,水平翻转,轻微旋转和颜色抖动来增强数据。我们执行Keras提出的模型,除最后一层外,所有卷积层均被带有α=0.1的Leaky ReLU激活,为了提高训练效率,当验证错误停留在平稳状态,我们调用Keras内置回调以自动降低学习率并提前停止。我们使用L2正则化来避免过度拟合。在所有激活层之后也采用批量归一化。

网络的骨干网是使用预先训练的DarkNet-53参数初始化的。我们首先冻结骨干,并以固定的学习速率10(-3)训练20个时期的预测头,以期实现快速收敛。然后,我们释放所有图层并最多更新60个周期的参数。我们的学习率从10(-4)开始,如果验证损失停留在平稳状态,则称为Keras的学习率降低和提早停止机制。在整个培训过程中,我们使用Adam优化器并在具有12G图形内存的单个GPU上将批处理大小设置为8。

在推断阶段,所提出的模型主要使用置信度超过0.1的预测边界框。在收集剩余的框以去除多余的预测之后,采用按类别的非最大抑制[23],其中IoU阈值设置为0.45。

4.实验结果

​ 我们使用平均精度(mAP)在PASCALl VOC和MSCOCO数据集上测量模型,并在相同设置下与其他ZSD方法进行比较。

4.1PASCAL VOC数据集的结果

在本实验中,我们从PASCAL VOC的20个类别中选择16个类别进行训练,其余4个类别进行测试[4],并从aPascal生成64维属性注释作为语义知识[24]。

ZSO的结果显示在表1中,为了测试零样本对象候选模块的效果。使用置信度分布后,召回率从62.3%增加到68.2%,显然,我们的方法有益于从背景中找到看不见的物体。

ZSD结果在表2中列出。我们的模型获得了59.6%的mAP,超过HRE的54.2%。使用更简单的ZSR策略,对象候选方法仍然保证我们模型的性能。

可以看出,汽车的平均精度明显低于其他未见等级,我们认为这可能是由于两个原因造成的。首先,在街景中,汽车经常以小尺寸密集地出现。很难找到它们全部或将它们与复杂的背景完全分开。其次,汽车的视觉特征和属性向量与火车的视觉特征和属性向量非常接近,从而导致汽车的那部分被错误地归类为火车。

在这里插入图片描述
表1:在ZSO实验上通过PASCAL VOC数据集得出的召回率。我们比较了置信度分布(CD)和没有置信度分布(CD)的ZSO模型的性能。 AR是简称为看不见的类别的平均召回率。

在这里插入图片描述

表2:ZSD结果在PASCAL VOC数据集上。 HRE表示混合区域嵌入,这是一种新提出的ZSD方法。

4.2MSCOCO数据集上的结果

在此实验中,我们在具有80个类别的大规模MSCOCO数据集上进行了测试,包括PASCAL VOC中的所有20个类别。我们将ZSD方法与[6]进行比较,并利用300维GloVe嵌入来表示类,如本文所建议。

[6]中的竞争对手使用边缘框[25]提取可能的区域,并尝试使用大量辅助数据将对象区域与背景分离。 SB利用一个固定的矢量来表示背景。 LAB通过对潜在类别的图像进行采样来学习背景类别。 DSES使用其他训练数据来更好地分离看不见的物体。相比之下,我们的方法简单直观,如表3所示。从这些结果中,我们观察到我们的模型仅使用MSCOCO数据进行训练时,在100%的mAP下获得39.2%的回忆率,而在[6]中则优于该方法。另外,在刚发布在arXiv的[26]相同设置下,我们的结果优于19.54%的召回率@ 100和6.99%的mAP。

在这里插入图片描述
表3: MSCOCO数据集上的结果。 S,U和O分别表示可见,不可见和其他(构成背景)类别。 MSCOCO看到和未看到的类别数量分别为48和17。

5.结论

在本文中,我们首先在分类的基础上重点介绍了对象候选的传递机制,并设计了一个实验来验证其必要性。我们针对ZSD问题引入了一种实用的检测模型,该模型收到了可喜的结果,尤其是召回看不见的物体。此外,我们的类别预测模型相对简单。我们认为,用于预测语义向量的首选方法可以进一步提高ZSD的预测性能。

目录
相关文章
|
1天前
|
存储 缓存 关系型数据库
MySQL事务日志-Redo Log工作原理分析
事务的隔离性和原子性分别通过锁和事务日志实现,而持久性则依赖于事务日志中的`Redo Log`。在MySQL中,`Redo Log`确保已提交事务的数据能持久保存,即使系统崩溃也能通过重做日志恢复数据。其工作原理是记录数据在内存中的更改,待事务提交时写入磁盘。此外,`Redo Log`采用简单的物理日志格式和高效的顺序IO,确保快速提交。通过不同的落盘策略,可在性能和安全性之间做出权衡。
1517 4
|
28天前
|
弹性计算 人工智能 架构师
阿里云携手Altair共拓云上工业仿真新机遇
2024年9月12日,「2024 Altair 技术大会杭州站」成功召开,阿里云弹性计算产品运营与生态负责人何川,与Altair中国技术总监赵阳在会上联合发布了最新的“云上CAE一体机”。
阿里云携手Altair共拓云上工业仿真新机遇
|
5天前
|
人工智能 Rust Java
10月更文挑战赛火热启动,坚持热爱坚持创作!
开发者社区10月更文挑战,寻找热爱技术内容创作的你,欢迎来创作!
481 17
|
1天前
|
存储 SQL 关系型数据库
彻底搞懂InnoDB的MVCC多版本并发控制
本文详细介绍了InnoDB存储引擎中的两种并发控制方法:MVCC(多版本并发控制)和LBCC(基于锁的并发控制)。MVCC通过记录版本信息和使用快照读取机制,实现了高并发下的读写操作,而LBCC则通过加锁机制控制并发访问。文章深入探讨了MVCC的工作原理,包括插入、删除、修改流程及查询过程中的快照读取机制。通过多个案例演示了不同隔离级别下MVCC的具体表现,并解释了事务ID的分配和管理方式。最后,对比了四种隔离级别的性能特点,帮助读者理解如何根据具体需求选择合适的隔离级别以优化数据库性能。
179 1
|
8天前
|
JSON 自然语言处理 数据管理
阿里云百炼产品月刊【2024年9月】
阿里云百炼产品月刊【2024年9月】,涵盖本月产品和功能发布、活动,应用实践等内容,帮助您快速了解阿里云百炼产品的最新动态。
阿里云百炼产品月刊【2024年9月】
|
21天前
|
存储 关系型数据库 分布式数据库
GraphRAG:基于PolarDB+通义千问+LangChain的知识图谱+大模型最佳实践
本文介绍了如何使用PolarDB、通义千问和LangChain搭建GraphRAG系统,结合知识图谱和向量检索提升问答质量。通过实例展示了单独使用向量检索和图检索的局限性,并通过图+向量联合搜索增强了问答准确性。PolarDB支持AGE图引擎和pgvector插件,实现图数据和向量数据的统一存储与检索,提升了RAG系统的性能和效果。
|
8天前
|
Linux 虚拟化 开发者
一键将CentOs的yum源更换为国内阿里yum源
一键将CentOs的yum源更换为国内阿里yum源
442 4
|
7天前
|
存储 人工智能 搜索推荐
数据治理,是时候打破刻板印象了
瓴羊智能数据建设与治理产品Datapin全面升级,可演进扩展的数据架构体系为企业数据治理预留发展空间,推出敏捷版用以解决企业数据量不大但需构建数据的场景问题,基于大模型打造的DataAgent更是为企业用好数据资产提供了便利。
313 2
|
23天前
|
人工智能 IDE 程序员
期盼已久!通义灵码 AI 程序员开启邀测,全流程开发仅用几分钟
在云栖大会上,阿里云云原生应用平台负责人丁宇宣布,「通义灵码」完成全面升级,并正式发布 AI 程序员。
|
25天前
|
机器学习/深度学习 算法 大数据
【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析
2024“华为杯”数学建模竞赛,对ABCDEF每个题进行详细的分析,涵盖风电场功率优化、WLAN网络吞吐量、磁性元件损耗建模、地理环境问题、高速公路应急车道启用和X射线脉冲星建模等多领域问题,解析了问题类型、专业和技能的需要。
2607 22
【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析