【论文速递】ACL 2020 - 多媒体事件抽取的跨媒体结构化公共空间

简介: 我们介绍了一个新的任务,多媒体事件抽取(M2E2),旨在从多媒体文档中抽取事件及其参数。我们开发了第一个基准测试

【论文原文】:Cross-media Structured Common Space for Multimedia Event


【作者信息】:Manling Li and Alireza Zareian and Qi Zeng and Spencer Whitehead and Di Lu and Heng Ji and Shih-Fu Chang


论文:https://blender.cs.illinois.edu/paper/multimediaspace2020.pdf
代码:https://github.com/limanling/m2e2


博主关键词:多媒体事件抽取、文本视觉特征融合、对比学习


推荐论文:无


摘要


我们介绍了一个新的任务,多媒体事件抽取(M2E2),旨在从多媒体文档中抽取事件及其参数。我们开发了第一个基准测试,并收集了245篇多媒体新闻文章的数据集,其中包含大量标注的事件和论点。我们提出了一种新的方法,弱对齐结构化嵌入(Weakly Aligned Structured Embedding, WASE),它将语义信息的结构化表示从文本和视觉数据编码到一个公共的嵌入空间。通过采用弱监督训练策略,使结构在不同模式之间保持一致,从而可以在没有显式跨媒体标注的情况下利用可用资源。与最先进的单模态方法相比,我们的方法在文本事件论元角色标记和视觉事件抽取方面获得了4.0%和9.8%的绝对F-score增益。与最先进的多媒体非结构化表示相比,我们在多媒体事件抽取和论元角色标记方面分别获得了8.3%和5.0%的绝对F-score增益。通过使用图像,我们比传统的纯文本方法多抽取21.4%的事件提及。


1、简介


传统的事件抽取方法针对单一的模态,如文本(Wadden et al, 2019)、图像(Yatskar et al, 2016)或视频(Ye et al, 2015;Caba Heilbron et al, 2015;Soomro等人,2012)。然而,当代新闻的实践(Stephens, 1998)通过多媒体传播新闻。通过从美国之音(VOA)中随机抽取100篇多媒体新闻文章,我们发现文章中33%的图像包含作为事件论元的视觉对象,而文本中没有提及。以图1为例,我们可以从文本中抽取Movement.Transport事件的Agent和Person论元,但只能从图像中抽取Vehicle论元。然而,事件抽取在计算机视觉(CV)和自然语言处理(NLP)中是独立研究的,在任务定义、数据领域、方法和术语方面存在重大差异。基于多媒体数据的互补性和整体性,我们提出了多媒体事件抽取(M2E2),这是一项旨在从多种模式中联合抽取事件论元的新任务。我们为此任务构建了第一个基准测试和评估数据集,其中包括245篇完全标注的新闻文章。


6e4787193452496ab24c91cfef16cb37.png


我们提出了第一种方法,弱对齐结构化嵌入(WASE),用于从多种模式中抽取事件和论元。现有的多媒体表示方法还没有涵盖复杂的事件结构(Wu等人,2019b;法格里等人,2018;Karpathy and Fei-Fei, 2015),因此我们提出学习一个结构化的多媒体嵌入空间。更具体地说,给定一个多媒体文档,我们将每个图像或句子表示为一个图,其中每个节点表示一个事件或实体,每条边表示一个论元角色。节点和边缘嵌入在多媒体公共语义空间中表示,因为它们被训练来解决跨模式的事件共同引用,并将图像与相关句子匹配。这使我们能够联合分类来自两种模式的事件和论元角色。一个主要的挑战是缺乏多媒体事件参数标注,由于标注的复杂性,获取这些标注的成本很高。因此,我们提出了一个弱监督框架,该框架利用带标注的单模态语料库分别学习视觉和文本事件抽取,并使用图像字幕数据集来对齐模式。


我们对M2E2新任务的WASE进行了评估。与最先进的单模态方法和多媒体平面表示相比,我们的方法在所有设置下都显著优于事件抽取和论元角色标记任务。此外,它抽取的事件提及量比纯文本基线多21.4%。训练和评估是在来自多个来源、领域和数据模式的异构数据集上完成的,展示了所提出模型的可伸缩性和可移植性。综上所述,本文做出了以下贡献:


  • 我们提出了一个新任务,多媒体事件抽取,并构建了第一个带标注的新闻数据集作为基准,以支持跨媒体事件的深度分析。


  • 我们开发了一个弱监督训练框架,利用现有的单模态标注语料库,并在没有跨模态标注的情况下实现联合推理。


  • 我们提出的方法WASE是第一个利用结构化表示和基于图的神经网络进行多媒体公共空间嵌入的方法。


2、方法


3.1 方法总览


如图3所示,训练阶段包含三个任务:文本事件抽取、视觉情境识别和跨媒体对齐。我们学习了一个跨媒体共享编码器,一个共享事件分类器和一个共享论元分类器。在测试阶段,给定一篇多媒体新闻文章,我们将句子和图像编码到结构化的公共空间中,并联合抽取文本和视觉事件和论元,然后进行跨模态共指解析。


8f9eb8fcff6842a7b8e5d4340b7b2d58.png


3、实验结果


114040ffb3374b5796fb1e18b45744d2.png

878dd431f471449aa6ba33cadfbef00d.png

c881a5459ef549b1b8c8e84d7f447465.png


cae46f062d474fab85ab58ed8f46d221.png


【论文速递 | 精选】


fcc8fa9f87404652beb9e08a0ac9652d.png


论坛地址https://bbs.csdn.net/forums/paper

目录
相关文章
|
自然语言处理 算法 机器人
PaddleNLP通用信息抽取技术UIE【一】产业应用实例:信息抽取{实体关系抽取、中文分词、精准实体标。情感分析等}、文本纠错、问答系统、闲聊机器人、定制训练
PaddleNLP通用信息抽取技术UIE【一】产业应用实例:信息抽取{实体关系抽取、中文分词、精准实体标。情感分析等}、文本纠错、问答系统、闲聊机器人、定制训练
PaddleNLP通用信息抽取技术UIE【一】产业应用实例:信息抽取{实体关系抽取、中文分词、精准实体标。情感分析等}、文本纠错、问答系统、闲聊机器人、定制训练
|
6天前
|
存储 数据可视化 vr&ar
突破传统 重新定义:3D医学影像PACS系统源码(包含RIS放射信息) 实现三维重建与还原
突破传统,重新定义PACS/RIS服务,洞察用户需求,关注应用场景,新一代PACS/RIS系统,系统顶层设计采用集中+分布式架构,满足医院影像全流程业务运行,同时各模块均可独立部署,满足医院未来影像信息化扩展新需求、感受新时代影像服务便捷性、易用性!系统基于平台化设计,与第三方服务自然接入无压力,从功能多样化到调阅速度快;覆盖(放射、超声、内镜、病理、核医学、心血管、临床科室等,是以影像采集、传输、存储、诊断、报告书写和科室管理)为核心应用的模块化PACS/RIS系统,实现了全院级影像信息的合理共享与应用。
23 0
突破传统 重新定义:3D医学影像PACS系统源码(包含RIS放射信息) 实现三维重建与还原
|
6天前
|
自然语言处理 算法
【论文精读】COLING 2022 - CLIO: 用于文档级事件抽取的角色交互多事件头注意力网络
【论文精读】COLING 2022 - CLIO: 用于文档级事件抽取的角色交互多事件头注意力网络
|
9月前
|
自然语言处理
【论文速递】ACL 2021-CasEE: 一种用于重叠事件抽取的级联解码联合学习框架
【论文原文】:A Joint Learning Framework with Cascade Decoding for Overlapping Event Extraction
68 0
|
9月前
|
机器学习/深度学习 自然语言处理
【论文速递】ACL 2022 - 查询和抽取:将事件抽取细化为面向类型的二元解码
事件抽取通常被建模为一个多分类问题,其中事件类型和论元角色被视为原子符号。这些方法通常仅限于一组预定义的类型。
92 1
|
9月前
|
数据挖掘 测试技术
【论文速递】EMNLP 2022 - 一种大规模中文标题数据集的开放事件抽取基准
事件抽取(EE)对于新聚合和事件知识图构建等下游任务至关重要。大多数现有的EE数据集手动定义固定的事件类型,并为每种事件设计特定的模式
129 0
|
9月前
【论文速递】ACM MM 2022 - 基于统一对比学习框架的新闻多媒体事件抽取
从新闻中提取事件在下游应用程序中有很多好处。然而,今天的事件提取(EE)系统通常专注于单一的模态——无论是文本还是图像
84 0
|
9月前
|
机器学习/深度学习 自然语言处理 搜索推荐
【论文速递】NAACL2022- 文档级事件论元抽取的双流AMR增强模型
以往的研究大多致力于从单个句子中抽取事件,而文档级别的事件抽取仍未得到充分的研究。在本文中,我们专注于从整个文档中抽取事件论元
109 0
|
9月前
|
机器学习/深度学习 自然语言处理 Java
【论文速递】ACL 2021-CLEVE: 事件抽取的对比预训练
事件抽取(EE)通过微调从预训练的语言模型(PLMs)中受益匪浅。然而,现有的预训练方法没有涉及事件特征的建模,导致所开发的EE模型不能充分利用大规模无监督数据。
80 0
|
机器学习/深度学习 数据采集 人工智能
中科大提出统一输入过滤框架InFi:首次理论分析可过滤性,支持全数据模态
中科大提出统一输入过滤框架InFi:首次理论分析可过滤性,支持全数据模态
198 0