【论文速递】ACM MM 2022 - 基于统一对比学习框架的新闻多媒体事件抽取

简介: 从新闻中提取事件在下游应用程序中有很多好处。然而,今天的事件提取(EE)系统通常专注于单一的模态——无论是文本还是图像

【论文原文】:Multimedia Event Extraction From News With a Unified Contrastive Learning Framework


【作者信息】:Liu, Jian and Chen, Yufeng and Xu, Jinan


论文:https://dl.acm.org/doi/pdf/10.1145/3503161.3548132
        代码:https://github.com/jianliu-ml/Multimedia-EE


博主关键词:对比学习、多媒体事件抽取、图像表征学习


推荐论文:无


摘要


从新闻中提取事件在下游应用程序中有很多好处。然而,今天的事件提取(EE)系统通常专注于单一的模态——无论是文本还是图像,并且由于新闻文档通常以多媒体格式呈现,因此这种方法会受到信息不完整的影响。在本文中,我们提出了一种新的多媒体EE方法,通过使用统一的对比学习框架桥接文本和视觉模式。我们的中心思想是为文本和图像创建一个共享空间,以改善它们的相似表示。这通常是通过对文本图像对进行训练来实现的,我们证明,通过研究另一种模态的互补性,可以使用该框架来促进一种模态学习。在基准数据集上,我们的方法实现了一个新的最先进的性能,并显示F1提高了3%。此外,我们证明,即使在视觉模态中没有标注数据的零样本场景中,它也可以实现视觉模态EE最前沿性能。


1、简介


a970dcb1e0ea438d859a2258cfdb2b17.png


目前的EE方法主要用于单一形式——文本或图像[16],并且由于新闻文章通常以多媒体格式呈现,因此它们存在获取不完整信息的风险。考虑图1所示的新闻文章。本文描述了一个攻击事件(用文本单词“fires”表示);然而,事件的一个论点,即[machine gun],只出现在图片中。根据先前的研究,超过30%的新闻图像包含文本中不存在的视觉事件论点[16],使得多媒体EE成为一个关键话题。


多媒体EE的发展有两个主要障碍。第一个是数据问题:由于标注昂贵,标记有并行文本视觉事件的资源有限。现有数据集,如文本模态中的ACE 2005语料库[20]和视觉模态中的imSitu语料库[31],具有完全不同的事件定义/模式,使得跨模态数据共享具有挑战性。第二个问题与建模有关-由于缺乏并行数据,先前的多媒体EE方法通常使用流水线方法和启发式规则来对齐数据[28,33]并学习模态不变模式(例如,使用绑定分类器[16])。然而,这些方法存在一定的缺陷,流水线方法会存在错误传递,学习模态不变模式很难在全局角度捕捉不同模态的依赖性。


在这项研究中,我们提供了一种新的多媒体EE方法,展示了有效应对上述挑战的优势。与之前的工作相比,我们的方法通过统一的对比学习框架为图像、文本和事件模式创建了共享的表示空间。我们证明,使用该框架,任何配对的文本图像资源,无论模式如何,都可以用于模型训练,这大大减轻了缺少并行标记数据的问题。另一方面,该框架避免了管道方法的复杂性,并能够从整体角度对不同模式的相互依赖性进行建模。特别是,给定一个多媒体文档,1)我们可以将图像投影到联合表示空间中,并将其用作增强文本EE的额外证据,2)类似地,我们可以将文本投影到联合表达空间中,以找到增强视觉EE的补充线索。此外,通过评估句子和图像的相似性,这种联合空间自然能够实现跨模态事件的共同参考。


我们基于M2E2基准评估了我们的方法[16]。根据结果,我们的方法显著优于以前的方法(包括单模态方法和多模态方法),在F1中,事件提取和事件论元提取分别提高了2.6%和3.4%-这显然证明了其有效性。有趣的是,通过使用这种对比学习框架,我们发现,即使在没有用于训练的训练数据的零样本场景中,我们的方法也能达到与最先进方法相比的竞争性能。此外,我们进行了一系列定性和定量研究,以调查我们方法的优点和缺点。


总之,我们有三个贡献:


  • 我们为多媒体EE提供了一种新的方法,该方法使用统一的对比学习框架来解决数据和模型挑战。作为一项研究多媒体EE对比学习的开创性研究,我们的工作可能会启发这方面的更多研究。


  • 我们表明,使用我们的统一框架,无论其标注模式如何,都可以利用不同模式的资源进行学习。此外,通过采用整体建模方法,该统一解决方案避免了管道方法的复杂性。


  • 我们根据标准基准建立了新的最先进性能。此外,我们还表明,即使在零样本场景中,我们的方法也能与以前的视觉EE方法相媲美。


2、方法


图2描述了我们方法的高级概述。特别是,我们首先引入了一个对比学习框架来学习图像、文本和事件本体(例如,事件类型和语义角色)的共享表示空间。然后,使用这个共享空间,我们进行文本和视觉EE,以将补充信息合并到其他模态中。最后,我们执行具有相似性度量的跨模态事件共同参考过程,以组合来自多个模态的事件。我们的方法的技术细节如下。


e52a939ffdca434eb760fb3c57f265bd.png


4、实验结果


53775d7185c746849eb622c603fd24af.png

b5b043d4467d47d29ecd049313365195.png

e7d4123b6eda477899c53503a246b18d.png

a44c971b2bb8425a86421504d925d7ac.png

06a7c85c3ab1408da11d4ce2bfa1f70f.png


015b8d0f437841bf863cf335dfd67036.png

727b312c3cef4df4abfca62a8756d7d1.png

feb91750688245f598363e8e5adcd15e.png


【论文速递 | 精选】


fcc8fa9f87404652beb9e08a0ac9652d.png


论坛地址https://bbs.csdn.net/forums/paper

目录
相关文章
|
6天前
|
人工智能 文字识别 计算机视觉
【AAAI 2024】M2Doc:文档版面分析的可插拔多模态融合方法
M2Doc是一种创新的多模态融合方法,设计用于增强文档版面分析任务中的纯视觉目标检测器。该方法包括Early-Fusion和Late-Fusion模块,前者通过门控机制融合视觉和文本特征,后者则在框级别合并这两种特征。M2Doc易于集成到各种目标检测器,实验证明它能显著提升DocLayNet和M6Doc数据集上的性能,特别是与DINO结合时,在多个数据集上达到SOTA结果。此外,研究表明M2Doc对于增强复杂逻辑版面分析任务中的文本理解和语义关联特别有效。
|
6天前
|
算法 知识图谱
【论文速递】NAACL2022-DEGREE: 一种基于生成的数据高效事件抽取模型
【论文速递】NAACL2022-DEGREE: 一种基于生成的数据高效事件抽取模型
|
6天前
|
JSON 算法 数据可视化
R语言对NASA元数据进行文本挖掘的主题建模分析
R语言对NASA元数据进行文本挖掘的主题建模分析
|
6月前
|
机器学习/深度学习 自然语言处理 测试技术
社区供稿 | 封神榜团队揭秘大模型训练秘密:以数据为中心
近一年来,各种各样的开源和闭源的大语言模型,不断在多个中文英文的测试基准中刷新着记录。然而,大语言模型的开发仍然面临诸多挑战,比如从头开始训练大语言模型的高昂成本,以及继续预训练导致的灾难性遗忘等等。尽管许多研究致力于解决这些问题,但一个重要而且实际的限制是,许多研究过于追求扩大模型规模,没有全面分析和优化预训练数据在训练大语言模型过程中的使用。
|
6天前
【NoteExpress】统一Elsevier旗下期刊参考文献格式
【NoteExpress】统一Elsevier旗下期刊参考文献格式
|
9月前
|
数据采集 机器学习/深度学习 算法
【论文速递】EMNLP 2020 - 将事件抽取作为机器阅读理解任务
事件抽取(Event extraction, EE)是一项重要的信息抽取任务,旨在抽取文本中的事件信息。以前的EE方法通常将其建模为分类任务
86 0
|
9月前
|
机器学习/深度学习 自然语言处理 测试技术
【论文速递】ACL 2020 - 多媒体事件抽取的跨媒体结构化公共空间
我们介绍了一个新的任务,多媒体事件抽取(M2E2),旨在从多媒体文档中抽取事件及其参数。我们开发了第一个基准测试
71 0
|
9月前
|
自然语言处理 运维 机器人
GPT学术优化 (GPT Academic):支持一键润色、一键中英互译、一键代码解释、chat分析报告生成、PDF论文全文翻译功能、互联网信息聚合+GPT等等
GPT学术优化 (GPT Academic):支持一键润色、一键中英互译、一键代码解释、chat分析报告生成、PDF论文全文翻译功能、互联网信息聚合+GPT等等
|
5月前
|
数据采集 人工智能 自然语言处理
社区供稿 | 猎户星空发布Yi系列微调34B-Chat模型,开源免费,中英兼备全面领先!
OrionStar-Yi-34B-Chat中英文大模型集高性能、完全开源、免费可商用等诸多优势于一身
|
8月前
|
机器学习/深度学习 达摩院 数据挖掘
ICASSP2023论文代码开源|TOLD能对混叠语音建模的说话人日志框架
ICASSP2023论文代码开源|TOLD能对混叠语音建模的说话人日志框架
133 1