【论文原文】:Li, Manling and Xu, Ruochen and Wang, Shuohang and Zhou, Luowei and Lin, Xudong and Zhu, Chenguang and Zeng, Michael and Ji, Heng and Chang, Shih-Fu
【作者信息】:CLIP-Event: Connecting Text and Images with Event Structures
论文:https://arxiv.org/pdf/2201.05078v1.pdf 代码:https://github.com/limanling/clip-event
博主关键词:多媒体事件抽取、视觉文本特征融合
摘要
视觉-语言(V+L)预训练模型通过理解图像和文本之间的对齐关系,在支持多媒体应用方面取得了巨大的成功。现有的视觉语言预训练模型主要侧重于理解图像中的对象或文本中的实体,它们往往忽略了事件级别及其论元结构的对齐。在这项工作中,我们提出了一个对比学习框架,以加强视觉-语言预训练模型来理解事件和相关的论元(参与者)角色。为此,我们利用文本信息抽取技术获取事件结构知识,并利用多个提示函数通过操纵事件结构来对比困难的负面描述。我们还设计了一个基于最优传输的事件图对齐损失来捕获事件论元结构。此外,我们收集了一个大型事件丰富的数据集(106,875张图像)用于预训练,这提供了一个更具挑战性的图像检索基准,以评估对复杂长句子的理解。实验表明,我们的零样本CLIP-Event在多媒体事件抽取中的论元抽取优于最先进的监督模型,在事件抽取中实现了超过5%的绝对F-score增益,以及在零样本设置下的各种下游任务上的显著改进。
1、简介
真实的多媒体应用不仅需要了解实体知识(即对象和对象类型),还需要了解带有事件论元结构的事件知识(即所涉及的实体及其角色)。例如,89%的图像包括当代多媒体新闻数据中的事件。此外,认识论元(参与者)对于理解新闻是至关重要的,因为如果论元扮演不同的角色,事件可能是矛盾的。例如,图1(a)和图1(b)都是同一个事件类型ATTACK,包含实体抗议者proster和警察police,但它们的论元角色不同,即在第一个事件中抗议者prosetr扮演的是袭击者ATTACKER的角色,在第二个事件中抗议者proster扮演的是目标TARGET的角色,警察则相反。同一组实体的不同论元角色导致两种攻击事件的区别。
然而,现有的视觉-语言预训练模型[5,13,19,28,34,44]侧重于对图像或实体的理解,忽略了事件语义和结构。结果,在需要理解动词的情况下,出现了明显的错误。因此,我们专注于将事件结构知识整合到视觉语言预训练中。以前的工作主要是将视觉事件表示为带有subject和object的动词[14,20,33,36,39,46]。但是,事件包含结构化知识,每个事件被分配到表示一组同义动词的事件类型。每个论元都以文本或图像为基础,并与参与者所扮演的论元角色相关联。如图2所示,carry事件类型为TRANSPORT,protester为AGENT,injured man为ENTITY,stretcher为INSTRUMENT。
从新闻图像中抽取事件结构的研究很少[18,27],对下游应用所需的事件知识获取支持有限。因此,我们提出利用在自然语言处理中已得到充分研究的文本信息抽取技术,从字幕中自动抽取事件结构。字幕基本上指的是与新闻数据中的图像相同的事件,例如,87%的字幕描述了图像中的事件。因此,我们设计了一个自监督的对比学习框架CLIP-Event,利用字幕中丰富的事件知识作为远程监督来解释相关图像中的事件,有效地跨模态传递事件知识。
此外,为了训练健壮的表示,在仅使用图像的情况下,能够区分事件类型(例如TRANSPORT和ARREST)和论元角色(例如TRANSPORT和ARREST)之间的细微差异。我们提出通过操纵事件结构来生成hard negative,我们使用一组广泛的事件提示函数(event prompt function)将正确和操纵的事件结构转换为文本描述。根据最先进的视觉语言预训练模型CLIP[28],我们优化了图像和事件感知文本描述之间的对比学习目标。
此外,为了传递论元结构的知识,我们显式地在视觉和文本中构造由事件类型和论元角色组成的事件图。我们在两个事件图之间引入细粒度对齐,将图像中的对象与相应的文本实体及其论元角色对齐。我们使用最优传输来鼓励基于两个图的结构的全局对齐,这使得模型能够捕获论元之间的交互。例如,具有相似视觉特征的物体趋向于对齐相同的论元角色。
我们的评估主要集中在零样本设置,因为这对于理解现实应用中新的或以前未知的事件至关重要。传统的基于有限预定义事件本体的方法不适用于处理开放世界事件。另一方面,我们的预训练模型能够使用任何不可见类型和论元角色的自然语言描述来识别事件结构,从而实现零样本多媒体事件抽取。
对多媒体事件抽取[18]和Grounded Situation Recognition[27]的评估表明,在零样本设置和监督设置下,CLIP-Event显著优于最先进的视觉-语言预训练模型。并且在图像检索[8]、视觉常识推理[43]、视觉常识推理时间[26]等零样本设置下的各种下游任务中都取得了显著的成绩。
本文的贡献:
- 我们在视觉语言预训练中首次利用了视觉事件和论元结构信息。
- 通过对比负样本事件描述的,我们引入了一个新的框架,负面事件描述是由各种提示函数以hard negative事件和论元为条件生成的。
- 我们提出基于最优传输的事件图对齐,将先前的图像或对象对齐扩展到事件结构感知对齐。
- 我们发布了一个包含106,875张图像的事件丰富图像标题数据集,包括抽取的事件知识,它可以作为一个具有挑战性的图像检索基准,用于评估在现实应用中理解复杂和长句子的能力。
2、实验结果
在零样本设置下,我们在M2E2上获得了5.5%的事件抽取绝对F score增益,在论元抽取上获得33.3%的相对增益,如表4所示。
在结构化事件知识的帮助下,对新闻数据进行预训练所获得的收益显著放大。例如,在新闻上预训练的CLIP比在M2E2上的vanilla CLIP提高了1.9%。我们的CLIP-Event将增益显著提高到3.89倍。
Zero-shot CLIP-Event在M2E2数据集上的论元抽取上优于最先进的弱监督模型,表明所提出的最优传输对齐有效地捕获了参数结构,这是以前的视觉语言预训练模型无法实现的。
【论文速递 | 精选】