【论文速递】CVPR 2020 - CLIP-Event:用事件结构连接文本和图像

简介: 视觉-语言(V+L)预训练模型通过理解图像和文本之间的对齐关系,在支持多媒体应用方面取得了巨大的成功。

【论文原文】:Li, Manling and Xu, Ruochen and Wang, Shuohang and Zhou, Luowei and Lin, Xudong and Zhu, Chenguang and Zeng, Michael and Ji, Heng and Chang, Shih-Fu


【作者信息】:CLIP-Event: Connecting Text and Images with Event Structures


论文:https://arxiv.org/pdf/2201.05078v1.pdf
代码:https://github.com/limanling/clip-event


博主关键词:多媒体事件抽取、视觉文本特征融合

推荐论文http://t.csdn.cn/NqmTq


摘要


视觉-语言(V+L)预训练模型通过理解图像和文本之间的对齐关系,在支持多媒体应用方面取得了巨大的成功。现有的视觉语言预训练模型主要侧重于理解图像中的对象或文本中的实体,它们往往忽略了事件级别及其论元结构的对齐。在这项工作中,我们提出了一个对比学习框架,以加强视觉-语言预训练模型来理解事件和相关的论元(参与者)角色。为此,我们利用文本信息抽取技术获取事件结构知识,并利用多个提示函数通过操纵事件结构来对比困难的负面描述。我们还设计了一个基于最优传输的事件图对齐损失来捕获事件论元结构。此外,我们收集了一个大型事件丰富的数据集(106,875张图像)用于预训练,这提供了一个更具挑战性的图像检索基准,以评估对复杂长句子的理解。实验表明,我们的零样本CLIP-Event在多媒体事件抽取中的论元抽取优于最先进的监督模型,在事件抽取中实现了超过5%的绝对F-score增益,以及在零样本设置下的各种下游任务上的显著改进。


1、简介


真实的多媒体应用不仅需要了解实体知识(即对象和对象类型),还需要了解带有事件论元结构的事件知识(即所涉及的实体及其角色)。例如,89%的图像包括当代多媒体新闻数据中的事件。此外,认识论元(参与者)对于理解新闻是至关重要的,因为如果论元扮演不同的角色,事件可能是矛盾的。例如,图1(a)和图1(b)都是同一个事件类型ATTACK,包含实体抗议者proster和警察police,但它们的论元角色不同,即在第一个事件中抗议者prosetr扮演的是袭击者ATTACKER的角色,在第二个事件中抗议者proster扮演的是目标TARGET的角色,警察则相反。同一组实体的不同论元角色导致两种攻击事件的区别。


ffa628a3fbe14cc8880a4bfe868bb730.png


然而,现有的视觉-语言预训练模型[5,13,19,28,34,44]侧重于对图像或实体的理解,忽略了事件语义和结构。结果,在需要理解动词的情况下,出现了明显的错误。因此,我们专注于将事件结构知识整合到视觉语言预训练中。以前的工作主要是将视觉事件表示为带有subject和object的动词[14,20,33,36,39,46]。但是,事件包含结构化知识,每个事件被分配到表示一组同义动词的事件类型。每个论元都以文本或图像为基础,并与参与者所扮演的论元角色相关联。如图2所示,carry事件类型为TRANSPORT,protester为AGENT,injured man为ENTITY,stretcher为INSTRUMENT。


821b1fa1b3154be4b1b2eb72228d1e80.png


从新闻图像中抽取事件结构的研究很少[18,27],对下游应用所需的事件知识获取支持有限。因此,我们提出利用在自然语言处理中已得到充分研究的文本信息抽取技术,从字幕中自动抽取事件结构。字幕基本上指的是与新闻数据中的图像相同的事件,例如,87%的字幕描述了图像中的事件。因此,我们设计了一个自监督的对比学习框架CLIP-Event,利用字幕中丰富的事件知识作为远程监督来解释相关图像中的事件,有效地跨模态传递事件知识。


此外,为了训练健壮的表示,在仅使用图像的情况下,能够区分事件类型(例如TRANSPORT和ARREST)和论元角色(例如TRANSPORT和ARREST)之间的细微差异。我们提出通过操纵事件结构来生成hard negative,我们使用一组广泛的事件提示函数(event prompt function)将正确和操纵的事件结构转换为文本描述。根据最先进的视觉语言预训练模型CLIP[28],我们优化了图像和事件感知文本描述之间的对比学习目标。


此外,为了传递论元结构的知识,我们显式地在视觉和文本中构造由事件类型和论元角色组成的事件图。我们在两个事件图之间引入细粒度对齐,将图像中的对象与相应的文本实体及其论元角色对齐。我们使用最优传输来鼓励基于两个图的结构的全局对齐,这使得模型能够捕获论元之间的交互。例如,具有相似视觉特征的物体趋向于对齐相同的论元角色。


我们的评估主要集中在零样本设置,因为这对于理解现实应用中新的或以前未知的事件至关重要。传统的基于有限预定义事件本体的方法不适用于处理开放世界事件。另一方面,我们的预训练模型能够使用任何不可见类型和论元角色的自然语言描述来识别事件结构,从而实现零样本多媒体事件抽取。


对多媒体事件抽取[18]和Grounded Situation Recognition[27]的评估表明,在零样本设置和监督设置下,CLIP-Event显著优于最先进的视觉-语言预训练模型。并且在图像检索[8]、视觉常识推理[43]、视觉常识推理时间[26]等零样本设置下的各种下游任务中都取得了显著的成绩。


本文的贡献:


  • 我们在视觉语言预训练中首次利用了视觉事件和论元结构信息。


  • 通过对比负样本事件描述的,我们引入了一个新的框架,负面事件描述是由各种提示函数以hard negative事件和论元为条件生成的。


  • 我们提出基于最优传输的事件图对齐,将先前的图像或对象对齐扩展到事件结构感知对齐。


  • 我们发布了一个包含106,875张图像的事件丰富图像标题数据集,包括抽取的事件知识,它可以作为一个具有挑战性的图像检索基准,用于评估在现实应用中理解复杂和长句子的能力。


2、实验结果


在零样本设置下,我们在M2E2上获得了5.5%的事件抽取绝对F score增益,在论元抽取上获得33.3%的相对增益,如表4所示。


3c08e194463b40408e7a088c42b1eb43.png


在结构化事件知识的帮助下,对新闻数据进行预训练所获得的收益显著放大。例如,在新闻上预训练的CLIP比在M2E2上的vanilla CLIP提高了1.9%。我们的CLIP-Event将增益显著提高到3.89倍。


Zero-shot CLIP-Event在M2E2数据集上的论元抽取上优于最先进的弱监督模型,表明所提出的最优传输对齐有效地捕获了参数结构,这是以前的视觉语言预训练模型无法实现的。


CLIP-Event全文阅读


【论文速递 | 精选】


fcc8fa9f87404652beb9e08a0ac9652d.png


论坛地址:https://bbs.csdn.net/forums/paper

论坛地址:https://bbs.csdn.net/forums/paper

目录
相关文章
|
机器学习/深度学习 人工智能 并行计算
"震撼!CLIP模型:OpenAI的跨模态奇迹,让图像与文字共舞,解锁AI理解新纪元!"
【10月更文挑战第14天】CLIP是由OpenAI在2021年推出的一种图像和文本联合表示学习模型,通过对比学习方法预训练,能有效理解图像与文本的关系。该模型由图像编码器和文本编码器组成,分别处理图像和文本数据,通过共享向量空间实现信息融合。CLIP利用大规模图像-文本对数据集进行训练,能够实现zero-shot图像分类、文本-图像检索等多种任务,展现出强大的跨模态理解能力。
1384 2
|
6月前
|
消息中间件 Java 微服务
2025 版 Java 学习路线实战指南从入门到精通
《Java学习路线实战指南(2025版)》是一份全面的Java开发学习手册,涵盖基础环境搭建、核心语法与新特性、数据结构与算法、微服务架构、云原生技术栈、AI融合及项目实战。内容包括JDK安装配置、IntelliJ IDEA设置、Records类与模式匹配增强、LeetCode题解、Spring Cloud微服务开发、Kubernetes部署、OpenAI API调用等。结合在线商城系统案例,采用Vue 3、Spring Boot 3.5、MySQL、Elasticsearch等技术,提供从理论到实践的完整路径,助力开发者掌握2025年最新趋势与最佳实践。
530 4
|
8月前
|
弹性计算 运维 算法
阿里云 Elasticsearch Serverless 检索增强型 8.17 版来袭!
阿里云Elasticsearch Serverless 8.17版本,深度融合无服务器架构与分层扩展能力,面向信息检索、向量搜索、语义分析等通用场景,提供全托管服务,在最新特性扩展、自动扩缩性能、资源成本优化等维度均有显著提升。
433 15
|
机器学习/深度学习 存储 算法
阿里云国际站:拍立淘-以图搜图中的图像搜索算法是怎么样的?
@luotuoemo飞机@TG 阿里云国际站:拍立淘-以图搜图中的图像搜索算法是怎么样的?图像搜索在现代搜索系统中扮演了重要角色,尤其在电子商务网站如阿里巴巴等,它更是一个必不可少的功能。拍立淘是阿里云国际站的一个以图搜图功能,它使用了复杂的图像搜索算法进行图片匹配和识别。以下是对该算法的简单描述。
|
机器学习/深度学习 自然语言处理 测试技术
【论文速递】ACL 2020 - 多媒体事件抽取的跨媒体结构化公共空间
我们介绍了一个新的任务,多媒体事件抽取(M2E2),旨在从多媒体文档中抽取事件及其参数。我们开发了第一个基准测试
259 0
|
机器学习/深度学习 数据采集 人工智能
构建高效AI模型:深度学习优化策略和实践
【5月更文挑战第26天】 在人工智能的浪潮中,深度学习作为一项核心技术,其模型构建与优化一直是研究的热点。本文旨在探讨如何通过一系列创新性的优化策略提升深度学习模型的性能及效率。我们将从理论与实践两个维度出发,详细阐述包括数据预处理、网络结构设计、损失函数选择、正则化技巧以及超参数调整等方面的优化措施。通过这些策略的综合运用,可以显著提高模型的准确性,降低过拟合风险,并缩短训练时间,为AI领域的研究者和工程师提供有价值的参考。
|
机器学习/深度学习 PyTorch API
生成对抗网络(GAN)由两部分组成:生成器(Generator)和判别器(Discriminator)。
生成对抗网络(GAN)由两部分组成:生成器(Generator)和判别器(Discriminator)。
|
SQL 缓存 关系型数据库
【Mycat】mycat综述(附安装配置)
【Mycat】mycat综述(附安装配置)
1000 0
|
API Python
[AIGC] 使用Python刷LeetCode:常用API及技巧指南
[AIGC] 使用Python刷LeetCode:常用API及技巧指南
656 0