Facebook&哥大等推出实验性AI框架,音视频信息可自由转换文本!

简介: 近日,来自Facebook、哥伦比亚大学等高校的研究人员开发了一种可以从视频、对话历史、音频以及语音文本中生成高层次语义信息的框架——Vx2Text,该模型可以用来概括信息内容,并准确地回答相关问题。

微信图片_20220112150448.jpg


对于人工智能来说,开发一个能可靠地理解世界、并使用自然语言作出反应的对话系统是一个很大的挑战。

 

如果要达到这一目标,那么我们需要一个能够从图像、文本、音频和视频中提取突出信息,并以人类能够理解的方式回答问题的模型。

 

最近,Facebook、哥伦比亚大学、佐治亚理工学院和达特茅斯大学的研究人员开发了Vx2Text——一个从视频、语音或者音频中生成文本的框架。他们声称,相比之前的最先进的方法,Vx2Text可以更好地创建说明文字并回答问题


微信图片_20220112150456.png


论文地址:

https://arxiv.org/pdf/2101.12059.pdf

 

与大多数人工智能系统不同,人类可以很自然地轻易理解文本、视频、音频和图像在上下文语境中的含义:

 

例如,一些给定的文本和图像,在分开讨论的时候似乎无害,比如“看看有多少人爱你”和一张贫瘠沙漠的图片,然而,人们会立即意识到,这些元素在结合在一起的时候,其实是具有潜在伤害性的。

 

多模态学习可以包含一些潜在互补的信息或者趋势,不过,只有在学习中完全包含相关信息的时候,这些含义才能显现。

 

对于Vx2Text,,“模态独立“的分类器将来自视频、文本或音频的语义信号,转换为公共语义语言空间,这使得语言模型能够直接解释多模态数据,从而为通过谷歌的T5等强大的语言模型进行多模态融合——即结合信号来支持分类——提供了可能。


微信图片_20220112150458.png


图:模型框架


Vx2Text中的生成式文本解码器,将编码器计算的多模态特征转换为文本,使该框架适合于生成自然语言语义概括,如下图:


微信图片_20220112150500.png


研究人员在论文中写道:“与之前的方法相比,这种设计不仅简单得多,而且具有更好的性能。”

 

更有用的是,它并不需要设计专门的算法,或者借鉴其他替代方法来实现多模态信息的组合

 

在实验中,研究人员展示了Vx2Text为带有视频和音频的视频场景所生成的「真实的」自然文本。

 

尽管研究人员研究人员以对话历史和语音记录的形式,为模型提供了上下文,但是他们注意到,生成的文本包括了非文本形式的信息,例如帮助某人帮助某人站起来或者接电话等行为。


微信图片_20220112150501.png


此外,由于Vx2Text可以高度整合、概括和真正理解多模态输入中蕴含的信息,因此,基于生成的语义信息,它也可以回答各种各样的问题:


微信图片_20220112150503.png


Vx2Text可以用于工业界,比如,它可以用于为流媒体视频添加标题来增加访问性。

 

此外,这个框架也可能会用于YouTube和Vimeo等视频分享平台——这些平台依赖字幕和其他信息来提高搜索结果的相关性。

 

研究人员表示:“我们的方法从将所有形式的信息映射到语义语言空间的想法出发,来实现直接应用强大语言模型——Transformer网络的目标,这使得我们的整个模型都可以进行端到端的训练。“

 

参考链接:


https://venturebeat.com/2021/02/02/researchers-vx2text-ai-framework-draws-inferences-from-videos-audio-and-text-to-generate-captions/


相关文章
|
5天前
|
人工智能 自然语言处理 算法
揭秘AI文本:当前主流检测技术与挑战
揭秘AI文本:当前主流检测技术与挑战
174 115
|
5天前
|
人工智能 自然语言处理 数据安全/隐私保护
AI生成的文本:如何识破机器的“笔迹”?
AI生成的文本:如何识破机器的“笔迹”?
62 10
|
5天前
|
人工智能 数据安全/隐私保护
AI生成的痕迹:我们如何检测机器撰写的文本
AI生成的痕迹:我们如何检测机器撰写的文本
214 117
|
5天前
|
机器学习/深度学习 人工智能 算法
火眼金睛:如何检测文本内容是否出自AI之手?
火眼金睛:如何检测文本内容是否出自AI之手?
188 115
|
2月前
|
人工智能 Java 开发者
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
JManus是阿里开源的Java版OpenManus,基于Spring AI Alibaba框架,助力Java开发者便捷应用AI技术。支持多Agent框架、网页配置、MCP协议及PLAN-ACT模式,可集成多模型,适配阿里云百炼平台与本地ollama。提供Docker与源码部署方式,具备无限上下文处理能力,适用于复杂AI场景。当前仍在完善模型配置等功能,欢迎参与开源共建。
1069 58
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
|
30天前
|
人工智能 缓存 自然语言处理
Java与多模态AI:构建支持文本、图像和音频的智能应用
随着大模型从单一文本处理向多模态能力演进,现代AI应用需要同时处理文本、图像、音频等多种信息形式。本文深入探讨如何在Java生态中构建支持多模态AI能力的智能应用。我们将完整展示集成视觉模型、语音模型和语言模型的实践方案,涵盖从文件预处理、多模态推理到结果融合的全流程,为Java开发者打开通往下一代多模态AI应用的大门。
208 41
|
2月前
|
人工智能 运维 Java
Flink Agents:基于Apache Flink的事件驱动AI智能体框架
本文基于Apache Flink PMC成员宋辛童在Community Over Code Asia 2025的演讲,深入解析Flink Agents项目的技术背景、架构设计与应用场景。该项目聚焦事件驱动型AI智能体,结合Flink的实时处理能力,推动AI在工业场景中的工程化落地,涵盖智能运维、直播分析等典型应用,展现其在AI发展第四层次——智能体AI中的重要意义。
816 27
Flink Agents:基于Apache Flink的事件驱动AI智能体框架
|
12天前
|
人工智能 自然语言处理 自动驾驶
超越文本:多模态大语言模型如何让AI“看世界
超越文本:多模态大语言模型如何让AI“看世界
|
8天前
|
人工智能 文字识别 自然语言处理
从“看见”到“预见”:合合信息“多模态文本智能技术”如何引爆AI下一场革命。
近期,在第八届中国模式识别与计算机视觉学术会议(PRCV 2025)上,合合信息作为承办方举办了“多模态文本智能大模型前沿技术与应用”论坛,汇聚了学术界的顶尖智慧,更抛出了一颗重磅“炸弹”——“多模态文本智能技术”概念。
55 1
|
2月前
|
人工智能 数据可视化 数据处理
AI智能体框架怎么选?7个主流工具详细对比解析
大语言模型需借助AI智能体实现“理解”到“行动”的跨越。本文解析主流智能体框架,从RelevanceAI、smolagents到LangGraph,涵盖技术门槛、任务复杂度、社区生态等选型关键因素,助你根据项目需求选择最合适的开发工具,构建高效、可扩展的智能系统。
493 3
AI智能体框架怎么选?7个主流工具详细对比解析

热门文章

最新文章

下一篇
开通oss服务