论文精度笔记(一):《ZERO-SHOT DETECTION WITH TRANSFERABLE OBJECT PROPOSAL MECHANISM》

简介: 本论文提出了一种零样本检测方法,通过引入可转移的对象候选机制来关联类别间的共现关系,并使用所有类的置信度分布进行对象置信度预测,以提高对未见类别物体的检测性能。

论文题目

ZERO-SHOT DETECTION WITH TRANSFERABLE OBJECT PROPOSAL MECHANISM 》这是论文的链接:链接
这是2019年IEEE的论文

《具有可转移对象候选机制的零样本检测》本人自译,转载译本需经许可!!!!!

Yilan Shaoy, Yanan Liz, Donghui Wangyz

浙江大学人工智能研究所,杭州浙江大学人工智能研究所

摘要

零样本检测目的是为了定位和识别图片或者视频中看不到的物体,以解决缺乏标签的训练数据的问题。尽管大多数现有的零样本方法都将重点放在对象分类上,但挑战来自于对象候选和检测器的类别预测以此克服领域偏移。在本文中,我们首先设计一个实验,以验证对象候选步骤的传递能力对检测召回的影响,并进一步引入一种可转移的机制来关联类别之间的共现。我们使用所有类的置信度分布来进行对象置信度预测。实验结果表明,即使采用简单的线性分类方法,我们的方法也优于PASCAL VOC和MSCOCO数据集上的其他零样本检测器。

索引词-零样本识别,对象检测,对象候选,置信度分布,语义知识

1.介绍

零样本识别尝试通过使用分类标签的语义知识来识别新类的对象[1,2,3]。然而,零样本旨在同时定位和识别自然图像中新类别的对象,这似乎更具有挑战性,并且在舍去中越来越受欢迎[4,5,6].

传统的对象检测方法通常倾向于记住训练对象的模式,而在解析图像时将其他区域作为背景.我们认为看不见的对象很有可能在推断阶段被忽略,除非它们在外观上看起来与对象相似。为了验证我们的猜想,1.我们首先在本节中研究常规探测器捕获新物体的传递能力,2.实验表明,传统方法在候选对象上表现不佳,令人失望的召回率证明了这一点。因此,看不见的物体的候选是ZSD中最关键的问题之一。几乎没有应用对检测器的ZSR方法没有什么意义,因为不能通过任何分类算法解决丢失目标实例的问题。

在最后一年,研究人员注意到ZSD问题,并尝试使用不同的策略来解决它.他们中的大多数[4,5]主要将注意力集中在识别上,但很少讨论对象建议问题。相比之下,[6]学习背景类并尝试通过使用辅助数据对语义标签空间进行密集采样来分离看不见的对象。它是有效的,但仍会消耗数据,因为背景必须覆盖尽可能多的视觉知识才能获得预期的结果。另外,有限的数据集不足以使这些方法完全理解背景概念。

在这项工作中,我们引入了一个新奇的ZSD方法,主要用于看不见的候选对象,通过图一说明,原则上,ZSD模型在对象建议和类别预测中都必须是可移植的。首先,在测试时将看不见的物体与背景区分开来,我们会在所有类别上生成一个置信度分布,而不是单个置信度分数,此分布反映了观察到的类和其他类之间的关系。比如说,共现,这对于推断未见类的实例的存在是必不可少的。与此同时, 我们通过视觉语义映射来预测相应的语义嵌入。通过将其与类标签的预定义语义知识进行比较,我们将其归类为具有最大相似性的类,为了证明ZSD方法的有效性,我们在两个基准上对其进行了评估,大量的实验结果表明,不仅对象建议对于ZSD具有重要意义,而且在相同的设置下,所提出的方法可以大大优于最新的ZSD方法。

总而言之,这篇论文的贡献主要分为三个方面,1.我们验证关于物体候选中探测器转移能力的假设;2.我们提出了一种基于YOLO模型[9]的有效方法,为了去检测看不见的物体;3.大量实验表明,我们的模型获得了最先进的性能。

在这里插入图片描述

图一:提出模型的图示。它可以同时生成置信度分布,位置和对象类别。与其他方法不同,它基于网格特征生成了对象候选的置信度分布,并预测了语义嵌入,以便与预定义的类嵌入进行比较以实现零样本识别。

2.目标候选分析

在这个部分,我们在PASCAL VOC上进行了两组实验,以验证常规对象检测器是否可以检测到看不见的对象,其中15类被视为可见类,其余5类为看不见的类。每个测试图像仅包含单个类的对象。无论类别如何,检测器都需要在测试图像中找到目标,并以高置信度输出其边界框,在本文中,我们将其称为零样本定位(ZSO)。

为了解决ZSO问题,我们略微修改了常规YOLO模型,以忽略类预测模块,并使用召回率来衡量其性能。低召回率意味着无法发现看不见的物体。我们保持置信度大于0.2的预测边界框,并认为IoU> 0.5(联合的交集)及其地面真实边界框是正确的预测.

在第一个实验的训练过程中可见或不可见,我们选择5个类别(表示为A),包括汽车,狗,马,沙发和火车,以测试常规探测器在训练过程中可见和不可见时在这五个类别上各自地表现。相应的召回情况如图2(a)所示。我们看到,将这些类从训练数据集中删除后,明显减少了,这在引言中验证了我们的猜想。然而,狗的召回率仍然很高,可能是因为探测器将它们当作猫。

在第二个实验中,不同的训练-测试划分,我们想进一步研究数据集分割对ZSD的影响。我们从PASCAL VOC中选择其他三个测试集,每个测试集包含五个看不见的类。它们是:(B)猫,牛,狗,马和绵羊; (C)自行车,公共汽车,汽车,摩托车和火车; (D)椅子,餐桌,盆栽,沙发和电视显示器。不同于第一次实验的测试集,在训练数据集中有超类,这些测试集在训练期间看不到或很少看到其他类似的类别。我们报告平均召回率见图2(b)。我们观察到传统的检测器很难为看不见的物体提出边界框。当训练和测试类之间的语义相关性较低时,即划分为D,结果变得更糟糕。

这些实验表明,对象候选在很大程度上取决于从训练数据集中学到的知识。未能将看不见的对象与背景分离的原因之一是检测器对所看到的内容过于僵化,无法在类之间建立同现。可见和不可见类的相关性越差,性能越差。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8x5XJPVZ-1614417178016)(image-20210226205523793.png)]
图二:调出PASCAL VOC数据集中的方向。(a)表示在训练期间可见和不可见的5个测试类的框召回率。 (b)是零样本检测中4个不同数据集拆分的平均召回率。 A代表(a)中采用的划分,而B,C和D仅分别包含来自哺乳动物,车辆和室内物体的类别。

3.方法

在深度学习技术的驱动下,对象检测的研究在两阶段研究中取得了快速进展,即两阶段模型[10、11、12、13]和一阶段模型[9、14、15]。我们提出了一个单阶段的ZSD模型,该模型旨在使检测器不仅在分类方面而且在对象候选方面都具有转移能力。

3.1基本模型

为了简便起见,我们在YOLO的最新版本(即YOLOv3 [16])上建立了模型。与以前的版本[9,17]相比,YOLOv3通过带有残差块的特征[18]的DarkNet-53提取,并进行多尺度预测以检测不同大小的物体,使用[19]中的类似方法融合不同分辨率的特征图。

对于定位,我们继承了预测头和YOLOv3的总共9个锚点先验,每个尺度使用3个锚点。较小的锚点将以更细的粒度分配给比例尺,以进行较小的对象检测。我们从原始输出中得到框预测(^xi; ^yi; ^ wi;^hi),前两个值表示相对于网格位置的相对位置,后两个值表示锚点大小。定位损失定义为:

在这里插入图片描述
在这里插入图片描述

3.2零样本目标候选

传统的物体检测方法往往会记住正常情况下有限类别的出现,但在新颖类别的物体上却无法实现,因为他们不能在训练期间从学到的信息中得出推论,对类别不敏感的估计置信度可能会忽略类之间的联系。相反,我们的模型关联了不同的类别,并预测了所有对象类别的置信度分布以对框进行评分。

在这里插入图片描述在这里插入图片描述
在这里插入图片描述

3.3零样本分类预测

在这里插入图片描述

3.4训练和推理

在训练阶段,我们首先使用灰色像素将图像填充为正方形,然后通过双线性插值将其缩放为固定大小。我们随机使用缩放,裁剪,水平翻转,轻微旋转和颜色抖动来增强数据。我们执行Keras提出的模型,除最后一层外,所有卷积层均被带有α=0.1的Leaky ReLU激活,为了提高训练效率,当验证错误停留在平稳状态,我们调用Keras内置回调以自动降低学习率并提前停止。我们使用L2正则化来避免过度拟合。在所有激活层之后也采用批量归一化。

网络的骨干网是使用预先训练的DarkNet-53参数初始化的。我们首先冻结骨干,并以固定的学习速率10(-3)训练20个时期的预测头,以期实现快速收敛。然后,我们释放所有图层并最多更新60个周期的参数。我们的学习率从10(-4)开始,如果验证损失停留在平稳状态,则称为Keras的学习率降低和提早停止机制。在整个培训过程中,我们使用Adam优化器并在具有12G图形内存的单个GPU上将批处理大小设置为8。

在推断阶段,所提出的模型主要使用置信度超过0.1的预测边界框。在收集剩余的框以去除多余的预测之后,采用按类别的非最大抑制[23],其中IoU阈值设置为0.45。

4.实验结果

​ 我们使用平均精度(mAP)在PASCALl VOC和MSCOCO数据集上测量模型,并在相同设置下与其他ZSD方法进行比较。

4.1PASCAL VOC数据集的结果

在本实验中,我们从PASCAL VOC的20个类别中选择16个类别进行训练,其余4个类别进行测试[4],并从aPascal生成64维属性注释作为语义知识[24]。

ZSO的结果显示在表1中,为了测试零样本对象候选模块的效果。使用置信度分布后,召回率从62.3%增加到68.2%,显然,我们的方法有益于从背景中找到看不见的物体。

ZSD结果在表2中列出。我们的模型获得了59.6%的mAP,超过HRE的54.2%。使用更简单的ZSR策略,对象候选方法仍然保证我们模型的性能。

可以看出,汽车的平均精度明显低于其他未见等级,我们认为这可能是由于两个原因造成的。首先,在街景中,汽车经常以小尺寸密集地出现。很难找到它们全部或将它们与复杂的背景完全分开。其次,汽车的视觉特征和属性向量与火车的视觉特征和属性向量非常接近,从而导致汽车的那部分被错误地归类为火车。

在这里插入图片描述
表1:在ZSO实验上通过PASCAL VOC数据集得出的召回率。我们比较了置信度分布(CD)和没有置信度分布(CD)的ZSO模型的性能。 AR是简称为看不见的类别的平均召回率。

在这里插入图片描述

表2:ZSD结果在PASCAL VOC数据集上。 HRE表示混合区域嵌入,这是一种新提出的ZSD方法。

4.2MSCOCO数据集上的结果

在此实验中,我们在具有80个类别的大规模MSCOCO数据集上进行了测试,包括PASCAL VOC中的所有20个类别。我们将ZSD方法与[6]进行比较,并利用300维GloVe嵌入来表示类,如本文所建议。

[6]中的竞争对手使用边缘框[25]提取可能的区域,并尝试使用大量辅助数据将对象区域与背景分离。 SB利用一个固定的矢量来表示背景。 LAB通过对潜在类别的图像进行采样来学习背景类别。 DSES使用其他训练数据来更好地分离看不见的物体。相比之下,我们的方法简单直观,如表3所示。从这些结果中,我们观察到我们的模型仅使用MSCOCO数据进行训练时,在100%的mAP下获得39.2%的回忆率,而在[6]中则优于该方法。另外,在刚发布在arXiv的[26]相同设置下,我们的结果优于19.54%的召回率@ 100和6.99%的mAP。

在这里插入图片描述
表3: MSCOCO数据集上的结果。 S,U和O分别表示可见,不可见和其他(构成背景)类别。 MSCOCO看到和未看到的类别数量分别为48和17。

5.结论

在本文中,我们首先在分类的基础上重点介绍了对象候选的传递机制,并设计了一个实验来验证其必要性。我们针对ZSD问题引入了一种实用的检测模型,该模型收到了可喜的结果,尤其是召回看不见的物体。此外,我们的类别预测模型相对简单。我们认为,用于预测语义向量的首选方法可以进一步提高ZSD的预测性能。

目录
相关文章
|
2月前
|
机器学习/深度学习 Web App开发 编解码
论文精度笔记(四):《Sparse R-CNN: End-to-End Object Detection with Learnable Proposals》
Sparse R-CNN是一种端到端的目标检测方法,它通过使用一组可学习的稀疏提议框来避免传统目标检测中的密集候选框设计和多对一标签分配问题,同时省去了NMS后处理步骤,提高了检测效率。
51 0
论文精度笔记(四):《Sparse R-CNN: End-to-End Object Detection with Learnable Proposals》
|
2月前
|
机器学习/深度学习 Web App开发 人工智能
轻量级网络论文精度笔(一):《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》
《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》这篇论文提出了一种基于YOLOv3-Tiny的轻量级目标检测模型Micro-YOLO,通过渐进式通道剪枝和轻量级卷积层,显著减少了参数数量和计算成本,同时保持了较高的检测性能。
43 2
轻量级网络论文精度笔(一):《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》
|
2月前
|
编解码 人工智能 文件存储
轻量级网络论文精度笔记(二):《YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object ..》
YOLOv7是一种新的实时目标检测器,通过引入可训练的免费技术包和优化的网络架构,显著提高了检测精度,同时减少了参数和计算量。该研究还提出了新的模型重参数化和标签分配策略,有效提升了模型性能。实验结果显示,YOLOv7在速度和准确性上超越了其他目标检测器。
54 0
轻量级网络论文精度笔记(二):《YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object ..》
|
前端开发
前端学习笔记202306学习笔记第四十天-Es6-object.assign的使用1
前端学习笔记202306学习笔记第四十天-Es6-object.assign的使用1
56 0
前端学习笔记202306学习笔记第四十天-Es6-object.assign的使用1
|
7月前
|
JavaScript 前端开发 Java
编程笔记 html5&css&js 073 JavaScript Object数据类型
编程笔记 html5&css&js 073 JavaScript Object数据类型
|
前端开发
前端学习笔记202306学习笔记第四十天-Es6-object.assign的使用2
前端学习笔记202306学习笔记第四十天-Es6-object.assign的使用2
49 0
|
前端开发
前端学习笔记202306学习笔记第四十天-Es6-object.assign的使用4深度拷贝
前端学习笔记202306学习笔记第四十天-Es6-object.assign的使用4深度拷贝
45 0
|
前端开发
前端学习笔记202306学习笔记第四十天-Es6-object.assign的使用3
前端学习笔记202306学习笔记第四十天-Es6-object.assign的使用3
38 0
|
1月前
|
存储 Java 程序员
Java基础的灵魂——Object类方法详解(社招面试不踩坑)
本文介绍了Java中`Object`类的几个重要方法,包括`toString`、`equals`、`hashCode`、`finalize`、`clone`、`getClass`、`notify`和`wait`。这些方法是面试中的常考点,掌握它们有助于理解Java对象的行为和实现多线程编程。作者通过具体示例和应用场景,详细解析了每个方法的作用和重写技巧,帮助读者更好地应对面试和技术开发。
114 4
|
2月前
|
Java
Java Object 类详解
在 Java 中,`Object` 类是所有类的根类,每个 Java 类都直接或间接继承自 `Object`。作为所有类的超类,`Object` 定义了若干基本方法,如 `equals`、`hashCode`、`toString` 等,这些方法在所有对象中均可使用。通过重写这些方法,可以实现基于内容的比较、生成有意义的字符串表示以及确保哈希码的一致性。此外,`Object` 还提供了 `clone`、`getClass`、`notify`、`notifyAll` 和 `wait` 等方法,支持对象克隆、反射机制及线程同步。理解和重写这些方法有助于提升 Java 代码的可读性和可维护性。
100 20