【计算机视觉】Visual grounding系列

简介: Visual grounding涉及计算机视觉和自然语言处理两个模态。简要来说,输入是图片(image)和对应的物体描述(sentence\caption\description),输出是描述物体的box。

一、任务简介

Visual grounding涉及计算机视觉和自然语言处理两个模态。

简要来说,输入是图片(image)和对应的物体描述(sentence\caption\description),输出是描述物体的box。

听上去和目标检测非常类似,区别在于输入多了语言信息,在对物体进行定位时,要先对语言模态的输入进行理解,并且和视觉模态的信息进行融合,最后利用得到的特征表示进行定位预测。

Visual grounding按照是否要对语言描述中所有提及的物体进行定位,可以进一步划分为两个任务:

image.png

  • Phrase Localization

又称为Phrase Grounding,如上图,对于给定的sentence,要定位其中提到的全部物体(phrase),在数据集中对于所有的phrase都有box标注。

image.png

  • Referring Expression Comprehension(REC)

也称为Referring expression grounding。见上图,每个语言描述(这里是expression)只指示一个物体,每句话即使有上下文物体,也只对应一个指示物体的box标注。

二、Visual grounding常用数据集与评估指标

2.1 常用数据集

  • Phrase Localization:

常用的数据集即Flickr30k Entities数据集,包含31783张image,每张图会对应5个不同的caption,所以总共158915个caption,以及244035个phrase-box标注。对于每个phrase还细分为people, clothing, body parts, animals, vehicles, instruments, scene, othera八个不同的类别。

另外很多phrase localization的工作还会在ReferItGame数据集(又称RefCLEF)上进行实验,这个数据集严格来说应该属于REC任务。图片来自ImageCLEF数据集,包含130525个expression,涉及238个不同的物体种类,有96654个物体,19894张图像。其中的数据是通过一种称为refer it game的双人游戏进行标注的,如下图:

image.png

左侧的人根据region来写expression,右侧的人根据expression选择region。

  • Referring expression comprehension:

常用的有三个数据集RefCOCO, RefCOCO+, RefCOCOg。这三个数据集的区别可以通过下面的样例理解:

image.png

2.2 评估指标

  • prediction box和groud-truth box的交并比(intersection over union,IoU)大于0.5记为一次正确定位,以此来计算准确率(Accuracy)

最近的一些工作使用Recall@k指标,表示预测概率前k大的prediction box和ground-truth box的IoU大于0.5的定位准确率。

  • Pointing game,选择最终预测的attention mask中权重最大的像素位置,如果该点落在ground-truth区域内,记为一次正确定位。相比Acc指标更加宽松

三、Visual grounding主流做法

目前Visual grounding可以分为全监督(Fully-supervised)、弱监督(Weakly-supervised)、无监督(Unsupervised)三种。

image.png

  • 全监督(Fully-supervised):顾名思义,就是有object-phrase的box标注信息
  • 弱监督(Weakly-supervised):输入只有image和对应的sentence,没有sentence中的object-phrase的box标注
  • 无监督(Unsupervised):image-sentence的信息都没有。目前据我所知,只有ICCV2019的WPT[5]是无监督,非常有意思,结果也很有比较价值

全监督中,现在的做法可以分为two-stage和one-stage两种做法。

two-stage就是第一个阶段先通过RPN或者传统的算法(Edgebox、SelectiveSearch)等提取候选的proposals以及它们的features,然后在第二个阶段进行详细的推理,例如常见的做法是把视觉特征和语言特征投射到一个公共的向量空间,计算相似度,选择最相近的proposal作为预测结果。

one-stage则是基于目标检测领域的one-stage模型,例如YOLO、RetinaNet等。

弱监督由于缺少phrase和box之间的mapping,会额外设计很多损失函数,例如基于reconstruction,引入external knowledge,基于image-caption匹配设计loss的等等。

相关文章
|
9月前
|
数据采集 前端开发 物联网
【项目实战】通过LLaMaFactory+Qwen2-VL-2B微调一个多模态医疗大模型
本文介绍了一个基于多模态大模型的医疗图像诊断项目。项目旨在通过训练一个医疗领域的多模态大模型,提高医生处理医学图像的效率,辅助诊断和治疗。作者以家中老人的脑部CT为例,展示了如何利用MedTrinity-25M数据集训练模型,经过数据准备、环境搭建、模型训练及微调、最终验证等步骤,成功使模型能够识别CT图像并给出具体的诊断意见,与专业医生的诊断结果高度吻合。
15964 5
【项目实战】通过LLaMaFactory+Qwen2-VL-2B微调一个多模态医疗大模型
|
编解码 JSON 自然语言处理
Qwen2-VL 全链路模型体验、下载、推理、微调实战!
经过了一年的不懈努力,今天通义千问团队对 Qwen-VL 模型进行重大更新——推出 Qwen2-VL。那么Qwen2-VL 有什么新功能呢?一起来看一下吧
Qwen2-VL 全链路模型体验、下载、推理、微调实战!
|
机器学习/深度学习 人工智能 自然语言处理
【AI大模型】Transformers大模型库(三):特殊标记(special tokens)
【AI大模型】Transformers大模型库(三):特殊标记(special tokens)
337 0
|
人工智能 自然语言处理 Swift
"轻量级微调推理框架SWIFT:大模型时代的速度革命,让你秒变AI部署高手!"
【8月更文挑战第17天】随着AI技术的发展,大模型如GPT-3和BERT引领风潮,但其部署与推理速度面临挑战。为此,魔搭社区推出了SWIFT(Simple Weight-Integrated Fine-Tuning)框架,它采用轻量级微调技术,实现模型参数压缩与加速,确保大模型能在移动端和边缘设备上高效运行。SWIFT具备四大特点:创新微调方法减少训练参数;内置优化策略提高推理速度;跨平台支持便于部署;兼容主流预训练模型。通过示例可见,从加载预训练模型到模型的微调、评估及导出,SWIFT简化了工作流程,降低了大模型的应用门槛,促进了AI技术的实际应用。
1131 4
|
数据采集 自然语言处理 计算机视觉
豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性
【7月更文挑战第30天】豆包大模型团队推出Detail Image Caption评估基准,旨在提高视觉语言模型(VLM)图像标题生成任务的评测可靠性。该基准采用高质量数据集及CAPTURE评价指标,通过提取图像中的核心信息进行多阶段匹配,有效提升了评测准确性。[论文](https://arxiv.org/abs/2405.19092)
309 1
|
机器学习/深度学习 缓存 算法
LLM 大模型学习必知必会系列(十二):VLLM性能飞跃部署实践:从推理加速到高效部署的全方位优化[更多内容:XInference/FastChat等框架]
LLM 大模型学习必知必会系列(十二):VLLM性能飞跃部署实践:从推理加速到高效部署的全方位优化[更多内容:XInference/FastChat等框架]
LLM 大模型学习必知必会系列(十二):VLLM性能飞跃部署实践:从推理加速到高效部署的全方位优化[更多内容:XInference/FastChat等框架]
|
人工智能 JSON 文字识别
开源VLM新标杆 InternVL 2.0 怎么用?部署、微调尽在魔搭社区!
7月4日下午,世界人工智能大会科学前沿论坛,上海人工智能实验室OpenGVLab发布了InternVL 2.0 版本,中文名书生·万象。
|
机器学习/深度学习 自然语言处理 图形学
CVPR 2024:文本一键转3D数字人骨骼动画,阿尔伯塔大学提出MoMask框架
【5月更文挑战第12天】CVPR 2024将展出阿尔伯塔大学的MoMask框架,该框架创新性地将文本转化为3D数字人骨骼动画,推动计算机图形学和动画制作的发展。MoMask结合NLP和计算机视觉,由文本编码器解析输入文本,动作生成器则将其转化为骨骼动画。该技术提升动画制作效率,降低门槛,但面临训练数据需求大和生成动画可能有偏差的挑战。[论文链接](https://arxiv.org/abs/2312.00063)
353 2
|
机器学习/深度学习 数据可视化 计算机视觉
可视化VIT中的注意力
ViT中最主要的就是注意力机制,所以可视化注意力就成为了解ViT的重要步骤,所以我们这里介绍如何可视化ViT中的注意力
1069 0
|
计算机视觉
【计算机视觉】Grounded Language-Image Pre-training
这篇论文做的任务是phrase grounding,属于Visual grounding的一种。phrase grounding的任务是输入句子和图片,将句子中提到的物体都框出来。