【计算机视觉】多模态的理解

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
简介: 多模态指的是多种模态的信息,包括:文本、图像、视频、音频等。

一、什么是多模态?

多模态指的是多种模态的信息,包括:文本、图像、视频、音频等。

顾名思义,多模态研究的就是这些不同类型的数据的融合的问题。

目前大多数工作中,只处理图像和文本形式的数据,即把视频数据转为图像,把音频数据转为文本格式。这就涉及到图像和文本领域的内容。

二、多模态的任务

多模态研究的是视觉语言问题,其任务是关于图像和文字的分类、问答、匹配、排序、定位等问题。

例如给定一张图片,可以完成以下任务:

VQA(Visual Question Answering)视觉问答

输入:一张图片、一个自然语言描述的问题

输出:答案(单词或者短语)

Image Caption 图像字幕

输入:一张图片

输出:图片的自然语言描述(一个句子)

Referring Expression Comprehension 指代表达

输入:一张图片、一个自然语言描述的句子

输出:判断句子描述的内容(正确或错误)

Visual Dialogue 视觉对话

输入:一张图片

输出:两个角色进行多次交互、对话

VCR (Visual Commonsense Reasoning) 视觉常识推理

输入:1个问题,4个备选答案,4个理由

输出:正确答案,和理由

NLVR(Natural Language for Visual Reasoning)自然语言视觉推理

输入:2张图片,一个分布

输出:true或false

Visual Entailment 视觉蕴含

输入:图像、文本

输出:3种label的概率。(entailment、neutral、contradiction)蕴含、中性、矛盾

Image-Text Retrieval 图文检索

有3种方式。

1)以图搜文。输入图片,输出文本

2)以文搜图。输入文本,输出图片

3)以图搜图,输入图片,输出图片

三、多模态融合的方式

通过NLP的预训练模型,可以得到文本的嵌入表示;再结合图像和视觉领域的预训练模型,可以得到图像的嵌入表示;那么,如何将两者融合起来,来完成以上的各种任务呢?

常用的多模态交叉的方式有两种。

3.1 点乘或者直接追加

此种方式将文本和图像分别进行Embedding,之后将各自的向量进行追加或者点乘。

好处是简单方便,计算成本也比较低。

image.png

image.png

3.2 Transformer

其好处是利用了Transformer架构,能够更好地进行图像特征和文本特征的表示。

缺点是占用空间大,计算成本较高。

image.png

相关文章
|
存储 Ubuntu Linux
sudo apt update和sudo apt upgrade有啥区别
【4月更文挑战第1天】
5640 4
|
运维 Cloud Native Devops
「译文」什么是 SRE(站点可靠性工程师)?SRE 是做什么的?
「译文」什么是 SRE(站点可靠性工程师)?SRE 是做什么的?
目前还存活的多个电驴下载站点
<div id="link-report"> <div class="topic-content"> <p>0、<a href="http://www.douban.com/link2?url=http%3A//www.emule-project.net/" rel="nofollow" target="_blank">http://www.emule-pro<wbr>ject.net
21378 0
|
4月前
|
弹性计算
阿里云服务器【地域】怎么选择划算一些?哪个地域好?
选择阿里云服务器地域时,优先考虑用户所在地区以实现就近访问。从划算角度看,部分地域如华北3(张家口)、华北6(乌兰察布)、华南2(河源)、华中1(武汉)常有优惠活动。此外,华北1(青岛)地域的公网带宽价格更具优势,适合对带宽成本敏感的用户。具体信息可查看阿里云ECS页面或官方文档了解最新优惠和选择建议。
|
8月前
|
SQL XML Java
一、MyBatis简介:MyBatis历史、MyBatis特性、和其它持久化层技术对比、Mybatis下载依赖包流程
一、MyBatis简介:MyBatis历史、MyBatis特性、和其它持久化层技术对比、Mybatis下载依赖包流程
299 69
|
缓存 NoSQL Linux
Linux调试
本文介绍了Linux调试、性能分析和追踪的培训资料,涵盖调试、性能分析和追踪的基础知识及常用工具。
774 63
Linux调试
|
11月前
|
人工智能 前端开发 Java
Spring AI Alibaba + 通义千问,开发AI应用如此简单!!!
本文介绍了如何使用Spring AI Alibaba开发一个简单的AI对话应用。通过引入`spring-ai-alibaba-starter`依赖和配置API密钥,结合Spring Boot项目,只需几行代码即可实现与AI模型的交互。具体步骤包括创建Spring Boot项目、编写Controller处理对话请求以及前端页面展示对话内容。此外,文章还介绍了如何通过添加对话记忆功能,使AI能够理解上下文并进行连贯对话。最后,总结了Spring AI为Java开发者带来的便利,简化了AI应用的开发流程。
8609 2
Spring AI Alibaba + 通义千问,开发AI应用如此简单!!!
|
人工智能 自然语言处理 Java
Spring AI,Spring团队开发的新组件,Java工程师快来一起体验吧
文章介绍了Spring AI,这是Spring团队开发的新组件,旨在为Java开发者提供易于集成的人工智能API,包括机器学习、自然语言处理和图像识别等功能,并通过实际代码示例展示了如何快速集成和使用这些AI技术。
Spring AI,Spring团队开发的新组件,Java工程师快来一起体验吧
|
人工智能 自然语言处理 搜索推荐
国内可用的 Web Search API,可以平替Bing Search API
近期人们发现,AI对搜索引擎的需求远远超过人类。这个团队专为AI打造搜索引擎,上线仅60天就已被调用超30万次。
国内可用的 Web Search API,可以平替Bing Search API
|
分布式计算 API 对象存储
Ray是一个开源的分布式计算框架,用于构建和扩展分布式应用。它提供了简单的API,使得开发者可以轻松地编写并行和分布式代码,而无需担心底层的复杂性。
Ray是一个开源的分布式计算框架,用于构建和扩展分布式应用。它提供了简单的API,使得开发者可以轻松地编写并行和分布式代码,而无需担心底层的复杂性。
2442 11