开源视频字幕模型Video ReCap可最长处理2小时

简介: 【2月更文挑战第9天】开源视频字幕模型Video ReCap可最长处理2小时

14d885dd999b9c77bb8710cad85d0c0a.jpeg
视频内容已经成为了人们日常生活中不可或缺的一部分,尤其是在社交媒体和短视频平台的迅速发展下。然而,对于长时间视频的理解和分析一直是人工智能领域的一大挑战。为了解决这一难题,北卡罗来纳大学和Meta AI的研究人员合作开发了一种开源视频字幕模型——Video ReCap。

这个名为Video ReCap的模型采用了递归视频字幕生成技术,能够处理从1秒到2小时的视频,并在多个层级上输出视频字幕。它的核心技术主要包括三个关键模块:视频编码器、视频-语言对齐和递归文本解码器。

首先是视频编码器,它采用了预训练的模型,能够从长视频中提取特征。对于短视频片段,编码器输出密集的时空特征,捕获细粒度信息;对于更高层级的字幕,如全局特征,编码器则使用全局特征,以降低计算成本并捕获长视频的全局属性。

接着是视频-语言对齐模块,它将视频和文本特征映射到联合特征空间,以便递归文本解码器可以联合处理两者。通过预训练的语言模型和可训练的交叉注意力层,模型学习固定数量的视频嵌入和文本嵌入,并将它们连接以获得联合嵌入,供后续的递归文本解码器使用。

最后是递归文本解码器,它用于生成视频字幕。这个模块采用了分层的生成策略,首先生成短剪辑级别的字幕,描述视频中的原子动作和低级视觉元素。然后利用稀疏采样的视频特征和上一层级生成的字幕作为输入,生成当前层级的视频字幕。这种递归设计有效地利用了不同视频层次之间的协同作用,能够高效地生成长视频的字幕。

为了评估Video ReCap模型的性能,研究人员引入了一个新的层次化视频字幕数据集——Ego4D-HCap,并对模型进行了综合评估。结果显示,Video ReCap在短视频片段字幕、中等长度段描述和长视频摘要的测试指标均明显优于多个基准模型。通过该模型生成的分层视频字幕,还能够显著提升基于EgoSchema数据集的长视频问答效果。

Video ReCap模型的开源将为视频内容理解和处理领域带来重大影响。该模型不仅可以应用于视频字幕生成,还可以扩展到视频内容理解、视频摘要生成等领域。对于视频内容创作者和研究人员来说,Video ReCap的推出将大大提高他们的工作效率和成果质量。未来,随着该模型在实际应用中的进一步优化和推广,我们有理由相信,视频内容的理解和分析将迎来更加美好的发展前景。

目录
相关文章
|
5月前
|
机器学习/深度学习 语音技术
**ModelScope-Funasr目前不支持分声道处理多声道文件**。
**ModelScope-Funasr目前不支持分声道处理多声道文件**。
56 1
|
5月前
|
人工智能 自然语言处理 开发者
Claude 3系列包含Haiku(低)、Sonnet(中)和Opus(高)三个模型
Claude 3系列包含Haiku(低)、Sonnet(中)和Opus(高)三个模型
215 1
|
5月前
|
监控 语音技术 异构计算
使用开源的模型(像speech_sambert-hifigan_tts_zhida_zh-cn_16k)进行语音合成任务的推理时,推理速度太慢了,500字大约需要1分钟,为什么会这么慢
使用开源的模型(像speech_sambert-hifigan_tts_zhida_zh-cn_16k)进行语音合成任务的推理时,推理速度太慢了,500字大约需要1分钟,为什么会这么慢
531 2
|
人工智能
MS大模型体验
本文选择了写作创作相关、知识常识、人类价值观三个方向,每个方向提出三个问题,比较了两个模型。
155 1
|
监控 自动驾驶 数据可视化
超实时语义分割 | DWR-Seg超越STDC-1/2、BiSeNet v1/v2,1080ti单卡320+FPS(一)
超实时语义分割 | DWR-Seg超越STDC-1/2、BiSeNet v1/v2,1080ti单卡320+FPS(一)
183 0
|
计算机视觉 芯片 AI芯片
谷歌推出多模态Vid2Seq,理解视频IQ在线,字幕君不会下线了|CVPR 2023
谷歌推出多模态Vid2Seq,理解视频IQ在线,字幕君不会下线了|CVPR 2023
106 0
|
测试技术
如何使用AMR M分析rtp流中的amr语音
笔者分享最近找到一款amr工具amr master。该工具结合wireshark可以网卡包中的amr语音流转出.amr文件,采用vlc player可以进行播放。
如何使用AMR M分析rtp流中的amr语音
|
机器学习/深度学习 搜索推荐 JavaScript
Coggle 30 Days of ML【打卡】广告-信息流跨域ctr预估
Coggle 30 Days of ML【打卡】广告-信息流跨域ctr预估
Coggle 30 Days of ML【打卡】广告-信息流跨域ctr预估
|
移动开发 JavaScript
JS指定音频audio在某个时间点进行播放,获取当前音频audio的长度,音频时长格式转化
JS指定音频audio在某个时间点进行播放,获取当前音频audio的长度,音频时长格式转化
737 0
JS指定音频audio在某个时间点进行播放,获取当前音频audio的长度,音频时长格式转化
|
Java Maven
获取MP3音频时长 | Java工具类
获取MP3音频时长 | Java工具类
获取MP3音频时长 | Java工具类