【计算机视觉】多模态的理解

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
简介: 多模态指的是多种模态的信息,包括:文本、图像、视频、音频等。

一、什么是多模态?

多模态指的是多种模态的信息,包括:文本、图像、视频、音频等。

顾名思义,多模态研究的就是这些不同类型的数据的融合的问题。

目前大多数工作中,只处理图像和文本形式的数据,即把视频数据转为图像,把音频数据转为文本格式。这就涉及到图像和文本领域的内容。

二、多模态的任务

多模态研究的是视觉语言问题,其任务是关于图像和文字的分类、问答、匹配、排序、定位等问题。

例如给定一张图片,可以完成以下任务:

VQA(Visual Question Answering)视觉问答

输入:一张图片、一个自然语言描述的问题

输出:答案(单词或者短语)

Image Caption 图像字幕

输入:一张图片

输出:图片的自然语言描述(一个句子)

Referring Expression Comprehension 指代表达

输入:一张图片、一个自然语言描述的句子

输出:判断句子描述的内容(正确或错误)

Visual Dialogue 视觉对话

输入:一张图片

输出:两个角色进行多次交互、对话

VCR (Visual Commonsense Reasoning) 视觉常识推理

输入:1个问题,4个备选答案,4个理由

输出:正确答案,和理由

NLVR(Natural Language for Visual Reasoning)自然语言视觉推理

输入:2张图片,一个分布

输出:true或false

Visual Entailment 视觉蕴含

输入:图像、文本

输出:3种label的概率。(entailment、neutral、contradiction)蕴含、中性、矛盾

Image-Text Retrieval 图文检索

有3种方式。

1)以图搜文。输入图片,输出文本

2)以文搜图。输入文本,输出图片

3)以图搜图,输入图片,输出图片

三、多模态融合的方式

通过NLP的预训练模型,可以得到文本的嵌入表示;再结合图像和视觉领域的预训练模型,可以得到图像的嵌入表示;那么,如何将两者融合起来,来完成以上的各种任务呢?

常用的多模态交叉的方式有两种。

3.1 点乘或者直接追加

此种方式将文本和图像分别进行Embedding,之后将各自的向量进行追加或者点乘。

好处是简单方便,计算成本也比较低。

image.png

image.png

3.2 Transformer

其好处是利用了Transformer架构,能够更好地进行图像特征和文本特征的表示。

缺点是占用空间大,计算成本较高。

image.png

相关文章
|
6月前
|
机器学习/深度学习 存储 编解码
什么是计算机视觉?
计算机视觉(Computer Vision)是涉及任何视觉内容计算的总称 ,包括图像、视频、图标以及涉及像素的任何内容的计算。
197 3
|
5月前
|
机器学习/深度学习 人工智能 算法
计算机视觉介绍
【7月更文挑战第29天】计算机视觉介绍。
43 2
|
6月前
|
编解码 机器人 测试技术
2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等
6月还有一周就要结束了,我们今天来总结2024年6月上半月发表的最重要的论文,重点介绍了计算机视觉领域的最新研究和进展。
159 8
|
4月前
|
机器学习/深度学习 编解码 文字识别
第3章 计算机视觉基础
这篇文章是计算机视觉基础的介绍,涵盖了计算机视觉的概念、应用场景、挑战,以及常见的计算机视觉任务(如图像分类、目标检测、图像分割、OCR、视频分析和图像生成),并通过PaddleHub工具提供了快速实践的指南。
|
5月前
|
机器学习/深度学习 人工智能 固态存储
深度学习在计算机视觉中的应用:重塑视觉感知的未来
【7月更文挑战第1天】深度学习重塑计算机视觉未来:本文探讨了深度学习如何革新CV领域,核心涉及CNN、RNN和自注意力机制。应用包括目标检测(YOLO、SSD等)、图像分类(VGG、ResNet等)、人脸识别及医学影像分析。未来趋势包括多模态融合、语义理解、强化学习和模型可解释性,推动CV向更高智能和可靠性发展。
|
6月前
|
机器学习/深度学习 监控 自动驾驶
|
机器学习/深度学习 数据采集 算法
计算机视觉技术
计算机视觉技术
105 1
|
机器学习/深度学习 PyTorch 算法框架/工具
计算机视觉物体检测
计算机视觉物体检测
60 0
|
机器学习/深度学习 计算机视觉
|
编解码 自然语言处理 算法
计算机视觉应用总纲
计算机视觉应用总纲
计算机视觉应用总纲