Facebook&哥大等推出实验性AI框架,音视频信息可自由转换文本!

简介: 近日,来自Facebook、哥伦比亚大学等高校的研究人员开发了一种可以从视频、对话历史、音频以及语音文本中生成高层次语义信息的框架——Vx2Text,该模型可以用来概括信息内容,并准确地回答相关问题。

微信图片_20220112150448.jpg


对于人工智能来说,开发一个能可靠地理解世界、并使用自然语言作出反应的对话系统是一个很大的挑战。

 

如果要达到这一目标,那么我们需要一个能够从图像、文本、音频和视频中提取突出信息,并以人类能够理解的方式回答问题的模型。

 

最近,Facebook、哥伦比亚大学、佐治亚理工学院和达特茅斯大学的研究人员开发了Vx2Text——一个从视频、语音或者音频中生成文本的框架。他们声称,相比之前的最先进的方法,Vx2Text可以更好地创建说明文字并回答问题


微信图片_20220112150456.png


论文地址:

https://arxiv.org/pdf/2101.12059.pdf

 

与大多数人工智能系统不同,人类可以很自然地轻易理解文本、视频、音频和图像在上下文语境中的含义:

 

例如,一些给定的文本和图像,在分开讨论的时候似乎无害,比如“看看有多少人爱你”和一张贫瘠沙漠的图片,然而,人们会立即意识到,这些元素在结合在一起的时候,其实是具有潜在伤害性的。

 

多模态学习可以包含一些潜在互补的信息或者趋势,不过,只有在学习中完全包含相关信息的时候,这些含义才能显现。

 

对于Vx2Text,,“模态独立“的分类器将来自视频、文本或音频的语义信号,转换为公共语义语言空间,这使得语言模型能够直接解释多模态数据,从而为通过谷歌的T5等强大的语言模型进行多模态融合——即结合信号来支持分类——提供了可能。


微信图片_20220112150458.png


图:模型框架


Vx2Text中的生成式文本解码器,将编码器计算的多模态特征转换为文本,使该框架适合于生成自然语言语义概括,如下图:


微信图片_20220112150500.png


研究人员在论文中写道:“与之前的方法相比,这种设计不仅简单得多,而且具有更好的性能。”

 

更有用的是,它并不需要设计专门的算法,或者借鉴其他替代方法来实现多模态信息的组合

 

在实验中,研究人员展示了Vx2Text为带有视频和音频的视频场景所生成的「真实的」自然文本。

 

尽管研究人员研究人员以对话历史和语音记录的形式,为模型提供了上下文,但是他们注意到,生成的文本包括了非文本形式的信息,例如帮助某人帮助某人站起来或者接电话等行为。


微信图片_20220112150501.png


此外,由于Vx2Text可以高度整合、概括和真正理解多模态输入中蕴含的信息,因此,基于生成的语义信息,它也可以回答各种各样的问题:


微信图片_20220112150503.png


Vx2Text可以用于工业界,比如,它可以用于为流媒体视频添加标题来增加访问性。

 

此外,这个框架也可能会用于YouTube和Vimeo等视频分享平台——这些平台依赖字幕和其他信息来提高搜索结果的相关性。

 

研究人员表示:“我们的方法从将所有形式的信息映射到语义语言空间的想法出发,来实现直接应用强大语言模型——Transformer网络的目标,这使得我们的整个模型都可以进行端到端的训练。“

 

参考链接:


https://venturebeat.com/2021/02/02/researchers-vx2text-ai-framework-draws-inferences-from-videos-audio-and-text-to-generate-captions/


相关文章
|
3天前
|
数据采集 人工智能 算法
Seer:上海 AI Lab 与北大联合开源端到端操作模型,结合视觉预测与动作执行信息,使机器人任务提升成功率43%
Seer是由上海AI实验室与北大等机构联合推出的端到端操作模型,结合视觉预测与动作执行,显著提升机器人任务成功率。
37 20
Seer:上海 AI Lab 与北大联合开源端到端操作模型,结合视觉预测与动作执行信息,使机器人任务提升成功率43%
|
3天前
|
人工智能 编解码 自然语言处理
Aria-UI:港大联合 Rhymes AI 开源面向 GUI 智能交互的多模态模型,整合动作历史信息实现更加准确的定位
Aria-UI 是香港大学与 Rhymes AI 联合开发的多模态模型,专为 GUI 智能交互设计,支持高分辨率图像处理,适用于自动化测试、用户交互辅助等场景。
27 11
Aria-UI:港大联合 Rhymes AI 开源面向 GUI 智能交互的多模态模型,整合动作历史信息实现更加准确的定位
|
3天前
|
人工智能
RealisHuman:AI 生成的人像不真实?后处理框架帮你修复生成图像中畸形人体部位
RealisHuman 是一个创新的后处理框架,专注于修复生成图像中畸形的人体部位,如手和脸,通过两阶段方法提升图像的真实性。
34 11
RealisHuman:AI 生成的人像不真实?后处理框架帮你修复生成图像中畸形人体部位
|
5天前
|
人工智能 运维 Prometheus
AIOpsLab:云服务自动化运维 AI,微软开源云服务 AI 框架,覆盖整个生命周期
AIOpsLab 是微软等机构推出的开源框架,支持云服务自动化运维,涵盖故障检测、根本原因分析等完整生命周期。
59 13
AIOpsLab:云服务自动化运维 AI,微软开源云服务 AI 框架,覆盖整个生命周期
|
8天前
|
人工智能 Python
ImBD:复旦联合华南理工推出 AI 内容检测模型,快速辨别文本内容是否为 AI 生成
ImBD是一款由复旦大学、华南理工大学等机构联合推出的AI内容检测器,能够快速识别机器修订文本,适用于多种场景,显著提升检测性能。
39 8
ImBD:复旦联合华南理工推出 AI 内容检测模型,快速辨别文本内容是否为 AI 生成
|
20天前
|
人工智能 文字识别 API
|
10天前
|
存储 人工智能 开发框架
Eliza:TypeScript 版开源 AI Agent 开发框架,快速搭建智能、个性的 Agents 系统
Eliza 是一个开源的多代理模拟框架,支持多平台连接、多模型集成,能够快速构建智能、高效的AI系统。
96 8
Eliza:TypeScript 版开源 AI Agent 开发框架,快速搭建智能、个性的 Agents 系统
|
13天前
|
人工智能 开发框架 算法
Qwen-Agent:阿里通义开源 AI Agent 应用开发框架,支持构建多智能体,具备自动记忆上下文等能力
Qwen-Agent 是阿里通义开源的一个基于 Qwen 模型的 Agent 应用开发框架,支持指令遵循、工具使用、规划和记忆能力,适用于构建复杂的智能代理应用。
196 10
Qwen-Agent:阿里通义开源 AI Agent 应用开发框架,支持构建多智能体,具备自动记忆上下文等能力
|
11天前
|
机器学习/深度学习 人工智能 编解码
VideoVAE+:AI 生成视频高保真重建和跨模态重建工具,基于文本信息指导视频重建,提升视频细节质量
VideoVAE+ 是香港科技大学推出的先进跨模态视频变分自编码器,通过时空分离压缩机制和文本指导,实现了高效视频压缩与精准重建。
51 7
VideoVAE+:AI 生成视频高保真重建和跨模态重建工具,基于文本信息指导视频重建,提升视频细节质量
|
10天前
|
数据采集 人工智能 分布式计算
MaxFrame:链接大数据与AI的高效分布式计算框架深度评测与实践!
阿里云推出的MaxFrame是链接大数据与AI的分布式Python计算框架,提供类似Pandas的操作接口和分布式处理能力。本文从部署、功能验证到实际场景全面评测MaxFrame,涵盖分布式Pandas操作、大语言模型数据预处理及企业级应用。结果显示,MaxFrame在处理大规模数据时性能显著提升,代码兼容性强,适合从数据清洗到训练数据生成的全链路场景...
31 5
MaxFrame:链接大数据与AI的高效分布式计算框架深度评测与实践!