【计算机视觉】Visual grounding系列

简介: Visual grounding涉及计算机视觉和自然语言处理两个模态。简要来说,输入是图片(image)和对应的物体描述(sentence\caption\description),输出是描述物体的box。

一、任务简介

Visual grounding涉及计算机视觉和自然语言处理两个模态。

简要来说,输入是图片(image)和对应的物体描述(sentence\caption\description),输出是描述物体的box。

听上去和目标检测非常类似,区别在于输入多了语言信息,在对物体进行定位时,要先对语言模态的输入进行理解,并且和视觉模态的信息进行融合,最后利用得到的特征表示进行定位预测。

Visual grounding按照是否要对语言描述中所有提及的物体进行定位,可以进一步划分为两个任务:

image.png

  • Phrase Localization

又称为Phrase Grounding,如上图,对于给定的sentence,要定位其中提到的全部物体(phrase),在数据集中对于所有的phrase都有box标注。

image.png

  • Referring Expression Comprehension(REC)

也称为Referring expression grounding。见上图,每个语言描述(这里是expression)只指示一个物体,每句话即使有上下文物体,也只对应一个指示物体的box标注。

二、Visual grounding常用数据集与评估指标

2.1 常用数据集

  • Phrase Localization:

常用的数据集即Flickr30k Entities数据集,包含31783张image,每张图会对应5个不同的caption,所以总共158915个caption,以及244035个phrase-box标注。对于每个phrase还细分为people, clothing, body parts, animals, vehicles, instruments, scene, othera八个不同的类别。

另外很多phrase localization的工作还会在ReferItGame数据集(又称RefCLEF)上进行实验,这个数据集严格来说应该属于REC任务。图片来自ImageCLEF数据集,包含130525个expression,涉及238个不同的物体种类,有96654个物体,19894张图像。其中的数据是通过一种称为refer it game的双人游戏进行标注的,如下图:

image.png

左侧的人根据region来写expression,右侧的人根据expression选择region。

  • Referring expression comprehension:

常用的有三个数据集RefCOCO, RefCOCO+, RefCOCOg。这三个数据集的区别可以通过下面的样例理解:

image.png

2.2 评估指标

  • prediction box和groud-truth box的交并比(intersection over union,IoU)大于0.5记为一次正确定位,以此来计算准确率(Accuracy)

最近的一些工作使用Recall@k指标,表示预测概率前k大的prediction box和ground-truth box的IoU大于0.5的定位准确率。

  • Pointing game,选择最终预测的attention mask中权重最大的像素位置,如果该点落在ground-truth区域内,记为一次正确定位。相比Acc指标更加宽松

三、Visual grounding主流做法

目前Visual grounding可以分为全监督(Fully-supervised)、弱监督(Weakly-supervised)、无监督(Unsupervised)三种。

image.png

  • 全监督(Fully-supervised):顾名思义,就是有object-phrase的box标注信息
  • 弱监督(Weakly-supervised):输入只有image和对应的sentence,没有sentence中的object-phrase的box标注
  • 无监督(Unsupervised):image-sentence的信息都没有。目前据我所知,只有ICCV2019的WPT[5]是无监督,非常有意思,结果也很有比较价值

全监督中,现在的做法可以分为two-stage和one-stage两种做法。

two-stage就是第一个阶段先通过RPN或者传统的算法(Edgebox、SelectiveSearch)等提取候选的proposals以及它们的features,然后在第二个阶段进行详细的推理,例如常见的做法是把视觉特征和语言特征投射到一个公共的向量空间,计算相似度,选择最相近的proposal作为预测结果。

one-stage则是基于目标检测领域的one-stage模型,例如YOLO、RetinaNet等。

弱监督由于缺少phrase和box之间的mapping,会额外设计很多损失函数,例如基于reconstruction,引入external knowledge,基于image-caption匹配设计loss的等等。

相关文章
|
2天前
|
机器学习/深度学习 编解码 资源调度
2024年3月的计算机视觉论文推荐
从去年开始,针对LLM的研究成为了大家关注的焦点。但是其实针对于计算机视觉的研究领域也在快速的发展。每周都有计算机视觉领域的创新研究,包括图像识别、视觉模型优化、生成对抗网络(gan)、图像分割、视频分析等。
46 0
|
2天前
|
机器学习/深度学习 自然语言处理 算法
2024年4月计算机视觉论文推荐
四月的计算机视觉研究涵盖多个子领域,包括扩散模型和视觉语言模型。在扩散模型中,Tango 2通过直接偏好优化改进了文本到音频生成,而Ctrl-Adapter提出了一种有效且通用的框架,用于在图像和视频扩散模型中添加多样控制。视觉语言模型的论文分析了CLIP模型在有限资源下的优化,并探讨了语言引导对低级视觉任务的鲁棒性。图像生成与编辑领域关注3D感知和高质量图像编辑,而视频理解与生成则涉及实时视频转游戏环境和文本引导的剪贴画动画。
43 0
|
2天前
|
机器学习/深度学习 编解码 人工智能
Vision Mamba:将Mamba应用于计算机视觉任务的新模型
Mamba是LLM的一种新架构,与Transformers等传统模型相比,它能够更有效地处理长序列。就像VIT一样现在已经有人将他应用到了计算机视觉领域,让我们来看看最近的这篇论文“Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Models,”
283 7
|
2天前
|
机器学习/深度学习 自然语言处理 测试技术
「视觉语言Transformers」最新2023研究综述
「视觉语言Transformers」最新2023研究综述
58 0
|
9月前
|
机器学习/深度学习 编解码 自然语言处理
【计算机视觉 | Transformer】arxiv 计算机视觉关于Transformer的学术速递(8 月 11 日论文合集)
【计算机视觉 | Transformer】arxiv 计算机视觉关于Transformer的学术速递(8 月 11 日论文合集)
|
9月前
|
机器学习/深度学习 编解码 算法
【计算机视觉 | Transformer】arxiv 计算机视觉关于Transformer的学术速递(8 月 10 日论文合集)
【计算机视觉 | Transformer】arxiv 计算机视觉关于Transformer的学术速递(8 月 10 日论文合集)
|
9月前
|
机器学习/深度学习 编解码 自然语言处理
【计算机视觉 | Transformer】arxiv 计算机视觉关于Transformer的学术速递(8 月 9 日论文合集)
【计算机视觉 | Transformer】arxiv 计算机视觉关于Transformer的学术速递(8 月 9 日论文合集)
|
9月前
|
机器学习/深度学习 图形学 计算机视觉
【计算机视觉 | Transformer】arxiv 计算机视觉关于Transformer的学术速递(8 月 14 日论文合集)
【计算机视觉 | Transformer】arxiv 计算机视觉关于Transformer的学术速递(8 月 14 日论文合集)
|
10月前
|
自然语言处理 算法 计算机视觉
【计算机视觉】DETR 系列的最新综述!
DEtection TRansformer (DETR)将检测视为集合预测问题,而不需要生成候选区和后处理步骤,从而将TRansformer引入到目标检测任务中
|
10月前
|
机器学习/深度学习 自然语言处理 Rust
Transformers自然语言处理第一章 你好Transformer
2017年,Google的研究人员发表了一篇论文,提出了一种新的用于序列建模(sequence modeling)的神经网络架构[1]。称之为Transformer,这种架构在机器翻译任务中的表现无论在翻译质量还是训练成本层面均优于循环神经网络(RNN)。
376 0
Transformers自然语言处理第一章 你好Transformer