一文尽览 | 开放世界目标检测的近期工作及简析!(基于Captioning/CLIP/伪标签/Prompt)(下)

简介: 人类通过自然监督,即探索视觉世界和倾听他人描述情况,学会了毫不费力地识别和定位物体。我们人类对视觉模式的终身学习,并将其与口语词汇联系起来,从而形成了丰富的视觉和语义词汇,不仅可以用于检测物体,还可以用于其他任务,如描述物体和推理其属性和可见性。人类的这种学习模式为我们实现开放世界的目标检测提供了一个可以学习的角度。

3.基于伪标签的方法



Towards Open Vocabulary Object Detection without Human-provided Bounding Boxes (2021CVPR)


提出问题:无论是zero-shot还是open vocabulary的目标检测方法,在训练过程中仍然需要在基本对象类别上标注边界框。基本类别集覆盖的范围越广,检测器对新对象的性能越好。因此,检测器要在新对象上表现良好,就无法避免人为的边界框注释成本。当我们想要检测新类别的任意对象时,我们能否避免这种手动的边界框标签,并训练一个更通用的对象检测器,而不需要人工提供的实例级注释?本文给出了肯定的回答。

640.png


整个框架的输入同样是image-captioning的pair。我们使用图像和文本编码器来提取图像及其相应标题的visual和textual embeddings。然后通过图像与文本的交叉注意交互获得表征能力较强的representation。我们在预定义的对象词汇表中保留感兴趣的对象。对于embedding的caption中的每个感兴趣的对象(例如上图中的球拍),我们使用Grad-CAM将其激活图activation map 可视化到图像中。这张图显示了图像区域对target word最终表示的贡献。最后, 通过选择与activation map 重叠最大的 object proposal 作为 pseudo bouding box label.

640.png


图像由特征提取器处理,然后是区域的proposal网络。然后,通过在区域建议上应用Rol pooling/Rol和alignment来计算基于区域的特征,并获得相应的可视化嵌入。在训练过程中鼓励同一对象的视觉和文本的embedding的相似性。

匹配的loss自然是交叉熵的形式:

640.png

640.png


性能同样达到了30.8,而base AP是46.1,相较于前任方法具有较为明显的提升。

640.png


对广泛数据集的泛化能力对于开放词汇表对象检测器也很重要,因为这使得检测器可以直接作为一种开箱即用的方法使用。表2显示了检测器对不同数据集的泛化性能,其中我们的方法和基线都没有使用这些数据集进行训练。Objects365和LVIS拥有大量不同的对象类别,因此对这些数据集的评估结果将更有代表性地展示泛化能力。结果表明,我们的方法(没有微调)已经表现出比Zareian等人更好的性能。(使用finetune)在Objects365和LVIS上。


Grounded Language-Image Pre-training (CVPR 2022 oral)


提出原因:在概念上,object detection 与 phrase grounding 具有很大的相似性,它们都寻求对对象进行定位 (即学习到并能检测这种对象的类别),并将其与语义概念对齐。而本文建立region-text pair的过程是不需要任何人工标注的,所以从scalable角度来看是比较有意义的。

640.png


这份工作非常有意思。其目标非常宏大,就是将detection重构为phrase grounding,实现统一检测和分类的统一。


由于detection可以同时接受图像和文本输入。例如将COCO中的80个类别作为文本输入。、通过大量的图像-文本数据扩展visual concept。而同时使用detection和grounding数据集,可以使得预训练的grounding可以为无包围框标注的图像-文本对数据生成伪标签。通过GLIP进行迁移学习:一个模型完成多个任务。能做detection也能做grounding。整体框架非常简单,跟clip差不多。->其中图像表征O不再是全图,而是检测器生成的proposal,文本特征则为一个个短语。GLIP只是将检测模型中的分类头预测的classifiacation score替换为CLIP中的alignment score.


具体到论文的方法。对于模型的输入,GLIP 开天辟地地对目标检测任务进行了重新定义,作者认为,目标检测实际上可以重新定义,可以是做吧任何一张训练中的image,其上出现的所有样本的标签在分散之后拼接成一句话,从而把目标检测任务重新转换为短语定位任务。通过这种方式,所有的目标检测数据集都可转化为短语定位数据集。然后,通过对文字和图片分别进行编码,并对这些word-region pair进行对比学习,从而获得了对齐后的文字与图片各自的特征。然后引入“深度融合”(deep fusion)的概念:区别于前期融合(early fusion)和后期融合(late fusion),深度融合对两个模态的特征向量计算交叉注意力(cross attention),从而让模型可以在较浅的模型阶段就开始进行跨模态的特征学习。

640.png


作者首先完成了zero-shot的迁移学习。然后又对使用标准设置的fine-tuning预训练模型的经典范式进行了评测。作者加入了一个额外的baseline:在 Objects365[6]上预训练的 DyHead。由于Objects365 完全包含了COCO 80个类别。因此,作者以“零样本”的方式评估在 Objects365 上训练的 Dy-Head:在inference期间, Dy-Head不是从 365 个类别进行预测,而是被限制为仅从 COCO 80 个类别进行预测。总体而言,GLIP模型实现了强大的零样本和监督性能。零样本GLIP模型达到甚至超过了监督模型的性能。最好的GLIP-T达到46.7 AP,超越Faster RCNN;GLIP-L 达到 49.8 AP,超过 DyHead-T。在监督设置下,最好的GLIP-T比标准Dy-Head(55.2 vs 49.7)带来 5.5 AP 的改进。借助 Swin-Large 主干,GLIP-L 在 COCO 上超过了当前的SoTA,在2017val上达到 60.8 AP,test-dev性能达到61.5AP。相对之前的SoTA模型(如EMA),GLIP没有一些诸如mix-up和soft-NMS这些后处理的额外操作。


4.基于Prompt的方法



Learning to prompt for open-vocabulary object detection with vision-language model (CVPR 2022)


提出原因:在之前提到的ViLD的实现中,它们将基类的文本描述(称为prompt)提供给CLIP的文本编码器,以生成类文本的embedding。然后利用嵌入对目标建议进行分类,并监督检测器的训练。要执行开放集对象检测,基类文本嵌入将被基类和新类的embedding所取代。prompt设计,也称为prompt工程,在这个过程中至关重要,因为我们观察到其中的微小变化将最终对检测性能产生明显的积极或消极影响。设计合适的提示需要专业的领域知识和精心的文字调整。为了避免这种高端且相当费力的需求,另一种方法是使用连续表示自动学习提示符的上下文,我们将其命名为prompt的表征学习。本文就是完成这一步骤。


在图像中,visual embedding of positive proposals与对应的类嵌入之间定义了postive的loss;而负损失定义在visual embedding of negative proposals和所有类别嵌入之间。采用不同的定制正的proposal集合(a < IoU(GT, Pos P) < B)学习不同的提示表示,并最终进行整合。


概率计算表现为:


640.png

640.png


在本文中,论文提出了一种名为检测提示 (detection prompt, DetPro) 的新方法来学习提示表示,在使用预训练视觉语言模型 (OVOD-VLM) 的开放词汇对象检测设置中。最近有一些工作专注于即时表示学习,例如 CoOp,其目标是基于预训练的视觉语言模型提高图像分类的准确性。直接将 CoOP 应用到 OVOD-VLM 中是不现实的:因为图像分类只需要识别输入图像的正确标签,而目标检测需要检测器区分前景和背景,并将前景中的区域提案分类为不同的对象类别。因此,我们引入了一种新的检测提示(DetPro)来自动学习 OVOD-LVM 中基于正面和负面的prompts representation。Prompt learning in object detection 面临两个关键问题:1)negative proposals 尽管对目标检测非常重要,但不对应于特定的对象类,因此不能轻易地包含到 prompt learning 过程中。2)不同于图像分类中的物体 由于图像居中且大,积极建议中的对象通常与不同级别的上下文相关联,因此无法为这些建议学习一个提示上下文充足的。为了解决这些问题,论文引入了


  • 包含negative proposal的背景解释方案,优化了embedding,使得negative proposal远离所有其他类的embedding;
  • 提出了a context grading scheme with tailored positive proposals,它根据不同的积极建议集相应地定制提示表示学习 到不同的上下文级别。


书壤土,其实非常简单,就是在Image和Text的head后加入两个映射层,使得模型更加灵活。

640.png



相较于无比强大的ViLD,DetPro在检测和分割上都展现出来了一定的优势。


5.直接拓展标签的方法



Detecting Twenty-thousand Classes using Image-level Supervision (ECCV 2022)


提出原因:现有的大多数弱监督检测技术[13,22,36,59,67]都使用弱标记数据来监督检测的定位和分类子问题。由于图像分类数据没有框标签,这些方法开发了基于模型预测的各种标签到框分配技术,以获得监督。不幸的是,这种基于预测的分配需要良好的初始检测,这导致了一个鸡与蛋的问题——我们需要一个好的检测器来进行良好的标签分配,但我们需要很多box来训练一个好的检测器。首先观察到存在明显的长尾效应,所以需要基于文本的label来拓展性能,才能让模型具有较好的泛化性能,能处理open world的各种复杂情景。所以能从有限的类别中拓展到更多的类别,对于目标检测器的泛化能力提升非常有意义。


640.png

本文做的是large-vocabulary detection方向的研究,与general detection和weakly-supervised detection的区别在于,其训练集中包含一部分有检测标注的数据和一部分只有image-level标注的数据,其测试集中包含novel class。我们的方法在使用分类数据时,通过单独监督分类子问题,完全绕过了基于预测的标签分配过程。这也使我们的方法能够学习新类的检测器,这将是不可能预测和分配的。

640.png


本文提出的方法也采用了经典的两阶段范式,在第一阶段采用直接提取RPN的方法,第二阶段对做细化的具体类别进行assign和识别。而实质上的检测是在第一阶段就可以完成的,而我们的目标是使得分类的分支具备检测出novel class的能力。因此本文提出了基于image-supervised loss 的Detic。如果对于一个特定类别,其训练数据存在检测的标注,则按照正常的两阶段的端到端模型进行训练。而当训练数据只有类别标签的时候,而没有具体的RPN标注,则按照最大似然的理论,则可以把RPN中面积最大的那个检测框里的特征拿去学分类分支。损失函数采用了BCE的loss。那么为什么不采用交叉熵的损失函数呢?这是因为由于分类中一直会加入新的类别,所以类别数目是不确定的,利用交叉熵这个时候就显得有些不合理了,所以对每个类采用BCE。


实际上就转化为了匹配问题:

640.png


来看实验结果:


640.png

论文比较了一些基于prediction-based的方法,这些方法将图像标签分配给基于预测的proposal。self-training将 Box-Supervised 的预测分配为具有固定分数threshold(0.5) 的offline伪标签。其他基于预测的方法使用不同的损失来在线将预测分配给图像标签。有关实施细节,请参阅附录 E。对于 DLWL [44],我们实现了一个不包括自举的简化版本,并将其称为 DLWL。上表展示了论文提出的不是prediction-based的方法的结果。在两个图像全监督数据集,我们提出的更简单的所有变体 方法优于基于复杂预测的对应方法。在新类上,相较于Detic, 在ImageNet上,论文提出的基于最佳预测的方法提供了约4.2 点,带来了较为显着的增益。从实验结果来看,论文提出的方法的确做到了”Detecting Twenty-thousand Classes“


Learning Object-Language Alignments for Open-Vocabulary Object Detection


提出原因:现有的大多数开放词汇表对象检测工作(全部或部分依赖于接ground-truth数据,然而,这是不可扩展的,因为注释接地数据甚至比注释对象检测数据更昂贵。为了降低开放词汇表对象检测的注释成本,最近的一些工作转而通过裁剪图像从面向分类的模型中提取视觉区域特征。它们的性能受到预训练模型的限制,该模型被训练为全局图像-文本匹配而不是区域-单词匹配。因此本文提出新的方法完成区域和单词的匹配。

640.png


在本文中,论文提出了一个简单而有效的端到端视觉和语言框架,用于open vocabulary的目标检测,称为 VLDet,它直接从图像文本对训练对象检测器,而不依赖昂贵的基础注释或提取面向分类的视觉的模型。笔者理解论文的主要insight是,从图像-文本对中提取region-word对可以表述为一个集合的matching问题,该问题可以通过找到区域和单词之间具有最小全局匹配成本的二分匹配来有效解决。具体来说,我们将图像区域特征视为一个集合,将词嵌入视为另一个集合,并将点积相似度作为区域词对齐分数。为了找到最低成本,最优二分匹配将强制每个图像区域在图像-文本对的全局监督下与其对应的词对齐。通过用最佳区域词对齐损失代替目标检测中的分类损失,论文提出的方法可以帮助将每个图像区域与相应的词匹配并完成目标检测任务。


从图像-文本对学习对象语言对齐。由于图像文本对数据的低成本,假设图像-文本数据集涵盖了更多种类的对象,我们有动力增加检测器的词汇量。然而,目标检测需要更细粒度的区域词对进行训练。关键的挑战是如何找到区域集和单词集之间的对应关系。我们不再为每张图像生成伪的边界框和标签,而是提出将区域-词对齐问题表述为最优二部匹配问题。我们进一步将图像-文本对视为特殊的区域-单词对。我们通过将整个图像视为一个特殊区域并将来自文本编码器的整个captioning特征视为一个特殊词来提取图像的 RoI 特征。对于图像,我们将其captioning视为正样本,将同一小batch中的其他captioning视为负样本。同样的,由于采用了匹配的模式,整个框架的loss同样采用了BCE loss:

640.png


来看实验性能:640.png



上表展示了了针对open vocabulary COCO 数据集的不同方法的性能。可以看出,我们的模型在新类上表现最好,表明使用图像文本对的二分匹配损失的优越性。Base-only 方法表示使用完全监督的 COCO base-category 检测数据训练的 Faster R-CNN,CLIP 的embeddings作为分类器头。虽然 CLIP 具有对新类的泛化能力,但它只达到了 1.3 mAP。尽管 ViLD 和 RegionCLIP 使用 CLIP 提取区域proposal特征,但它们在新类别上的表现不如我们的方法,这是open vocabulary对象检测设置中的主要指标。这些蒸馏方法需要来自预训练 CLIP 模型的图像编码器和文本编码器来学习图像区域和词汇表之间的匹配。因此,它们在新类别上的表现受到预训练模型的限制,该模型是为全局图像-文本匹配而不是区域-单词匹配而训练的。

640.png


在分割上的表现同样很不错。


原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA

相关文章
|
存储 自然语言处理 API
【网安AIGC专题11.1】12 CODEIE用于NER和RE:顶刊OpenAI API调用、CodeX比chatgpt更好:提示工程设计+控制变量对比实验(格式一致性、模型忠实度、细粒度性能)(下)
【网安AIGC专题11.1】12 CODEIE用于NER和RE:顶刊OpenAI API调用、CodeX比chatgpt更好:提示工程设计+控制变量对比实验(格式一致性、模型忠实度、细粒度性能)
107 0
|
6月前
|
机器学习/深度学习 人工智能
可控图像生成最新综述!北邮开源20页249篇文献,包揽Text-to-Image Diffusion领域各种条件
【2月更文挑战第29天】北京邮电大学研究人员发表了一篇关于文本到图像扩散模型的综述论文,探讨了该技术在可控图像生成方面的最新进展。论文介绍了DDPMs基础理论,并详述了如何通过引入条件来提升生成图像的精确控制。研究者提出条件生成的三种类别,分析了核心理论机制,并创建了一个包含249篇相关文献的GitHub仓库,促进学术交流。尽管取得显著成就,但模型仍面临语义一致性、处理复杂文本描述和效率提升等挑战。论文链接:https://arxiv.org/abs/2403.04279
154 1
可控图像生成最新综述!北邮开源20页249篇文献,包揽Text-to-Image Diffusion领域各种条件
|
机器学习/深度学习 人工智能 自然语言处理
一文尽览 | 开放世界目标检测的近期工作及简析!(基于Captioning/CLIP/伪标签/Prompt)(上)
人类通过自然监督,即探索视觉世界和倾听他人描述情况,学会了毫不费力地识别和定位物体。我们人类对视觉模式的终身学习,并将其与口语词汇联系起来,从而形成了丰富的视觉和语义词汇,不仅可以用于检测物体,还可以用于其他任务,如描述物体和推理其属性和可见性。人类的这种学习模式为我们实现开放世界的目标检测提供了一个可以学习的角度。
一文尽览 | 开放世界目标检测的近期工作及简析!(基于Captioning/CLIP/伪标签/Prompt)(上)
|
机器学习/深度学习 传感器 编解码
首篇!BEV-Locator:多目端到端视觉语义定位网络(清华&轻舟智航)(下)
准确的定位能力是自动驾驶的基础。传统的视觉定位框架通过几何模型来解决语义地图匹配问题,几何模型依赖于复杂的参数调整,从而阻碍了大规模部署。本文提出了BEV定位器:一种使用多目相机图像的端到端视觉语义定位神经网络。具体地,视觉BEV(鸟瞰图)编码器提取多目图像并将其展平到BEV空间中。而语义地图特征在结构上嵌入为地图查询序列。然后,cross-model transformer将BEV特征和语义图查询关联起来。通过交叉注意力模块递归地查询自车的定位信息。最后,可以通过解码transformer输出来推断自车位姿。论文在大规模nuScenes和Qcraft数据集中评估了所提出的方法。
首篇!BEV-Locator:多目端到端视觉语义定位网络(清华&轻舟智航)(下)
|
3月前
|
数据采集 人工智能 监控
赌你一定想要!OpenDataLab首款大模型多模态标注平台Label-LLM正式开源
Label-LLM 是一款专为大模型训练设计的多模态文本对话标注工具,支持团队协作,让标注工作变得简单高效。它不仅涵盖丰富的任务类型,如回答采集、偏好收集和内容评估等,还支持多模态数据标注,包括图像、视频和音频。Label-LLM具备预标注载入功能,能大幅提升工作效率,并提供全方位的任务管理与可视化分析,确保标注质量。快来体验这款强大的标注平台吧![部署文档](https://github.com/opendatalab/LabelLLM)
636 0
赌你一定想要!OpenDataLab首款大模型多模态标注平台Label-LLM正式开源
|
6月前
|
人工智能 自然语言处理 文字识别
社区供稿 | 元象首个多模态大模型XVERSE-V开源,刷新权威大模型榜单,支持任意宽高比输入
元象公司发布了开源多模态大模型XVERSE-V,该模型在图像输入的宽高比方面具有灵活性,并在多项评测中展现出优越性能,超越了包括谷歌在内的多个知名模型。XVERSE-V采用创新方法结合全局和局部图像信息,适用于高清全景图识别、文字检测等任务,且已在Hugging Face、ModelScope和GitHub上开放下载。此外,模型在视障场景、内容创作、教育解题、百科问答和代码生成等领域有广泛应用,并在VizWiz等测试集中表现出色。元象致力于推动AI技术的普惠,支持中小企业、研究者和开发者进行研发和应用创新。
|
6月前
|
自然语言处理 安全 算法
23REPEAT方法:软工顶会ICSE ‘23 大模型在代码智能领域持续学习 代表性样本重放(选择信息丰富且多样化的示例) + 基于可塑权重巩固EWC的自适应参数正则化 【网安AIGC专题11.22】
23REPEAT方法:软工顶会ICSE ‘23 大模型在代码智能领域持续学习 代表性样本重放(选择信息丰富且多样化的示例) + 基于可塑权重巩固EWC的自适应参数正则化 【网安AIGC专题11.22】
150 0
23REPEAT方法:软工顶会ICSE ‘23 大模型在代码智能领域持续学习 代表性样本重放(选择信息丰富且多样化的示例) + 基于可塑权重巩固EWC的自适应参数正则化 【网安AIGC专题11.22】
|
机器学习/深度学习 自然语言处理 算法
【网安AIGC专题10.25】论文7:Chatgpt/CodeX引入会话式 APR 范例+利用验证反馈+LLM 长期上下文窗口:更智能的反馈机制、更有效的信息合并策略、更复杂的模型结构、鼓励生成多样性
【网安AIGC专题10.25】论文7:Chatgpt/CodeX引入会话式 APR 范例+利用验证反馈+LLM 长期上下文窗口:更智能的反馈机制、更有效的信息合并策略、更复杂的模型结构、鼓励生成多样性
142 0
|
存储 自然语言处理 API
【网安AIGC专题11.1】12 CODEIE用于NER和RE:顶刊OpenAI API调用、CodeX比chatgpt更好:提示工程设计+控制变量对比实验(格式一致性、模型忠实度、细粒度性能)(中)
【网安AIGC专题11.1】12 CODEIE用于NER和RE:顶刊OpenAI API调用、CodeX比chatgpt更好:提示工程设计+控制变量对比实验(格式一致性、模型忠实度、细粒度性能)
97 0
|
存储 缓存 自然语言处理
【网安AIGC专题11.1】12 CODEIE用于NER和RE:顶刊OpenAI API调用、CodeX比chatgpt更好:提示工程设计+控制变量对比实验(格式一致性、模型忠实度、细粒度性能)(上)
【网安AIGC专题11.1】12 CODEIE用于NER和RE:顶刊OpenAI API调用、CodeX比chatgpt更好:提示工程设计+控制变量对比实验(格式一致性、模型忠实度、细粒度性能)
149 0