视频内容已经成为了人们日常生活中不可或缺的一部分,尤其是在社交媒体和短视频平台的迅速发展下。然而,对于长时间视频的理解和分析一直是人工智能领域的一大挑战。为了解决这一难题,北卡罗来纳大学和Meta AI的研究人员合作开发了一种开源视频字幕模型——Video ReCap。
这个名为Video ReCap的模型采用了递归视频字幕生成技术,能够处理从1秒到2小时的视频,并在多个层级上输出视频字幕。它的核心技术主要包括三个关键模块:视频编码器、视频-语言对齐和递归文本解码器。
首先是视频编码器,它采用了预训练的模型,能够从长视频中提取特征。对于短视频片段,编码器输出密集的时空特征,捕获细粒度信息;对于更高层级的字幕,如全局特征,编码器则使用全局特征,以降低计算成本并捕获长视频的全局属性。
接着是视频-语言对齐模块,它将视频和文本特征映射到联合特征空间,以便递归文本解码器可以联合处理两者。通过预训练的语言模型和可训练的交叉注意力层,模型学习固定数量的视频嵌入和文本嵌入,并将它们连接以获得联合嵌入,供后续的递归文本解码器使用。
最后是递归文本解码器,它用于生成视频字幕。这个模块采用了分层的生成策略,首先生成短剪辑级别的字幕,描述视频中的原子动作和低级视觉元素。然后利用稀疏采样的视频特征和上一层级生成的字幕作为输入,生成当前层级的视频字幕。这种递归设计有效地利用了不同视频层次之间的协同作用,能够高效地生成长视频的字幕。
为了评估Video ReCap模型的性能,研究人员引入了一个新的层次化视频字幕数据集——Ego4D-HCap,并对模型进行了综合评估。结果显示,Video ReCap在短视频片段字幕、中等长度段描述和长视频摘要的测试指标均明显优于多个基准模型。通过该模型生成的分层视频字幕,还能够显著提升基于EgoSchema数据集的长视频问答效果。
Video ReCap模型的开源将为视频内容理解和处理领域带来重大影响。该模型不仅可以应用于视频字幕生成,还可以扩展到视频内容理解、视频摘要生成等领域。对于视频内容创作者和研究人员来说,Video ReCap的推出将大大提高他们的工作效率和成果质量。未来,随着该模型在实际应用中的进一步优化和推广,我们有理由相信,视频内容的理解和分析将迎来更加美好的发展前景。