在视频理解领域,视频语义信息的细粒度理解是一个重要且具有挑战性的任务。然而,现有的视频语义理解方法往往只能进行粗粒度的理解,无法精确定位视频中的特定时刻。为了解决这个问题,来自清华大学的研究人员提出了一种名为VERIFIED的大规模细粒度视频片段标注新范式。
视频语义理解是指从视频中提取出与特定任务相关的语义信息,例如动作、场景、物体等。在实际应用中,细粒度的视频语义理解对于视频检索、视频问答等任务至关重要。然而,现有的视频语义理解方法往往只能进行粗粒度的理解,无法精确定位视频中的特定时刻。
具体来说,现有的视频语义理解方法存在以下几个挑战:
- 多对多问题:在视频中,同一个时刻可能对应多个不同的语义信息,而同一个语义信息也可能出现在多个不同的时刻。这种多对多的关系使得视频语义理解变得非常复杂。
- 细粒度理解:视频中的语义信息往往是非常细粒度的,例如一个动作的特定阶段或者一个物体的特定属性。要准确理解这些细粒度的信息,需要对视频进行非常细致的分析。
- 大规模数据标注:视频数据的规模往往非常大,而细粒度的视频语义理解需要大量的标注数据。然而,现有的视频标注方法往往需要大量的人力和时间,无法满足大规模数据的需求。
为了解决上述挑战,来自清华大学的研究人员提出了一种名为VERIFIED的大规模细粒度视频片段标注新范式。VERIFIED的核心思想是利用大型语言模型(LLM)和大型多模态模型(LMM)来自动生成细粒度的视频片段标注。
具体来说,VERIFIED包括以下几个关键模块:
- 静态增强字幕:该模块利用图像LMM从视频中提取出静态的细粒度信息,例如前景和背景的属性。然后,利用LLM将这些信息重新表述为多个细粒度的字幕候选。
- 动态增强字幕:该模块利用视频问答(VQA)技术来增强动态信息的提取。首先,利用LLM生成与视频片段相关的动态问题,然后利用视频LMM回答这些问题并生成细粒度的动态描述。最后,利用LLM将这些描述重新表述为多个细粒度的字幕候选。
- 细粒度感知噪声评估器:该模块用于评估生成的字幕的准确性。具体来说,利用LLM生成一些正向和负向的字幕候选,然后利用一个视频基础模型对这些候选进行评估,以确定哪些字幕是准确的。
为了验证VERIFIED的有效性,研究人员在三个大规模的视频数据集上进行了实验,包括Charades-STA、DiDeMo和ActivityNet Captions。在每个数据集上,研究人员都利用VERIFIED生成了细粒度的视频片段标注,并评估了这些标注的质量。
实验结果表明,VERIFIED生成的细粒度视频片段标注具有很高的质量。具体来说,VERIFIED生成的标注具有以下几个优点:
- 消除多对多问题:VERIFIED生成的标注能够准确定位视频中的特定时刻,并提供丰富的细粒度信息,从而消除了多对多问题。
- 细粒度理解:VERIFIED生成的标注能够准确描述视频中的细粒度信息,例如动作的特定阶段或者物体的特定属性。
- 大规模数据标注:VERIFIED能够自动生成大规模的细粒度视频片段标注,从而满足了大规模数据的需求。
VERIFIED的提出为细粒度视频语义理解领域带来了新的思路和方法。通过利用大型语言模型和大型多模态模型,VERIFIED能够自动生成高质量的细粒度视频片段标注,从而解决了多对多问题和细粒度理解的挑战。
然而,VERIFIED也存在一些局限性。首先,VERIFIED的准确性依赖于LLM和LMM的性能,而这些模型本身可能存在一些缺陷,例如幻觉问题。其次,VERIFIED的计算成本较高,可能不适合在资源有限的环境中使用。