DocEE:一种用于文档级事件抽取的大规模细粒度基准 论文解读

简介: 事件抽取旨在识别一个事件,然后抽取参与该事件的论元。尽管在句子级事件抽取方面取得了巨大的成功,但事件更自然地以文档的形式呈现,事件论元分散在多个句子中。

DocEE: A Large-Scale and Fine-grained Benchmark for Document-level Event Extraction



论文:NAACL2022.pdf (tongmeihan1995.github.io)


代码:tongmeihan1995/DocEE: DocEE: A Large-Scale and Fine-grained Benchmark for Document-level Event Extraction (github.com)


期刊/会议:NAACL 2022


摘要


事件抽取旨在识别一个事件,然后抽取参与该事件的论元。尽管在句子级事件抽取方面取得了巨大的成功,但事件更自然地以文档的形式呈现,事件论元分散在多个句子中。然而,推动文档级事件抽取的一个主要障碍是缺乏大规模和实用的训练和评估数据集。在本文中,我们提出了DocEE,一个新的文档级事件抽取数据集,包括27,000多个事件,180,000多个论元。我们重点介绍了三个特性:大规模手动标注、细粒度论元类型和面向应用程序的设置。实验表明,最先进的模型与人类之间仍然存在很大的差距(F1分数41% Vs 85%),说明DocEE是一个开放的问题。


1、简介


事件抽取(EE)旨在从文本中检测事件,包括事件分类和事件论元抽取。EE是文本挖掘的基本任务之一(Feldman和Sanger, 2006),有很多应用。例如,它可以监测政治或军事危机,以生成实时通知和警报(Dragos, 2013),并挖掘显要人物之间的联系和联系(例如,谁见过谁和什么时候见过谁),以进行肖像分析(Zhan等人,2020)。


大多数现有数据集(例如,ACE2005和KBP2017)专注于句子级事件抽取,而事件通常在文档级描述,事件论元通常分散在不同的句子中(Hamborg et al, 2019)。图1显示了一个Air Crash事件。为了抽取论元Date,我们需要阅读句子[1],而为了抽取论元Cause of the Accident,我们需要整合句子[6]和[7]中的信息。显然,这需要对多个句子进行推理,并对长距离依赖进行建模,直观上超出了句子级EE的范围。因此,有必要将EE从句子级推进到文档级。


727e72666cc64b7fa655dd62340ddefa.png


只有少数数据集是针对文档级EE的。MUC-4(griishman and Sundheim, 1996)提供了1700篇新闻文章,标注了4种事件类型和5种论元类型。这5个论元在不同的事件类型之间共享,无需进一步细化。WikiEvents(Li et al, 2021)仅由246个文档组成,其中很少(占总数的22%)跨句论元标注。RAMS(Ebner et al, 2020)将5句话窗口中的论元的范围限制在其事件触发词周围,这与实际应用不符合,RAMS中的论元类型数量只有65个,非常有限。Doc2EDAG, TDJEE和GIT (Zheng等,2019;Wang等,2021;Xu et al, 2021)在金融领域中只包含5种事件类型和35种论元类型。综上所述,现有的文档级EE数据集在以下方面存在不足:数据规模小,域覆盖有限,论元类型细化不足。因此,迫切需要开发一个人工标记的大规模数据集来加速文档级EE的研究。


在本文中,我们提出了DocEE,一个大规模的人工标注文档级EE数据集。图1展示了DocEE的一个示例。DocEE侧重于主事件的抽取,即每个文档一个事件。我们将新闻标题作为主要事件的触发词,并着重于整篇文章的主要事件论元抽取。我们强调了DocEE在这一领域的三个贡献:1)大规模手动标注。DocEE包含27,485个文档级事件和180,528个论元,远远超过现有文档级EE数据集的规模。DocEE的大规模标注可以提供足够的训练和测试数据,公平地评估EE模型。2)细粒度论元类型。DocEE共有356种论元类型,远远超过现有数据集中的论元类型数量(MUC-5中有5种,RAMS中有65种)。除了一般论元,如时间和位置,我们还为每种事件类型设计了更多个性化的事件论元,如洪水事件的水位和地震事件的震级。这些细粒度的角色可以带来更详细的语义,对现有模型的语义消歧能力提出了更高的挑战。3)面向应用的设置。在实际应用中,事件抽取经常面临如何从资源丰富的领域快速适应到新的领域的问题。因此,我们添加了一个跨域设置来更好地测试EE模型的传输能力。此外,DocEE还取消了论元范围应在RAMS中的某个窗口内的限制,以更好地应对文章长度特别长、事件的论元可能出现在文章的任何角落的现实场景。由于事件论元更加分散(参见表1),DocEE对现有模型的长文本处理能力提出了更高的挑战。


为了评估DocEE的挑战,我们在DocEE上实现了9个最新的最先进的EE模型,并进行了人工评估。实验证明了DocEE的高质量,即使是SOTA模型的性能也远低于人类的性能,说明现有技术在处理文档级EE方面的薄弱。


2、相关的数据集


句子级时间抽取数据集:ACE2005、TAC-KBP、Chinese Emergency Corpus(CEC)、RED(https://catalog.ldc.upenn.edu/LDC2016T23)、MAVEN、LSEE。


文档级事件抽取:20news(https://archive.ics.uci.edu/ml/datasets/Twenty+Newsgroups)、THUCNews(http://thuctc.thunlp.org)、MUC-4、WikiEvents、RAMS、financial domain、biological domain。


开放领域事件抽取:要在开放领域中收集EE数据集,一种方法是利用半结构化资源(Wikipedia)或现有知识库(Freebase)。代表性作品有EventKG (Gottschalk and Demidova, 2018)、Event Wiki (Ge et al, 2018)和Historical Wiki (Hienert and Luciano, 2012)。


3、构建DocEE


我们的主要目标是收集大规模数据集,以促进事件抽取从句子级到文档级的发展。在接下来的部分中,我们将首先介绍如何构建事件模式,然后介绍如何收集候选数据以及如何通过众包对它们进行标记。


3.1 事件模式构建


新闻是热点事件的第一手来源,所以我们注重从新闻中提炼事件。之前的事件模式,如FrameNet (Baker, 2014)和HowNet (Dong and Dong, 2003),更多地关注吃饭(eating)和睡觉(sleeping)等琐碎的动作,因此不适合文档级的新闻事件抽取。


为了构建事件图式,我们从新闻学中获得了洞察力。新闻业通常将事件分为硬新闻和软新闻(Reinemann等人,2012;Tuchman, 1973)。硬新闻是指必须立即报道的社会紧急事件,如地震、交通事故和武装冲突。软新闻指的是与人类生活相关的有趣事件,如名人事迹、体育赛事和其他以娱乐为中心的报道。基于硬/软新闻理论和(Lehman-Wilzig and Seletzky, 2010)中的类别框架,我们一共定义了59种事件类型,其中硬新闻事件类型31种,软新闻事件类型28种。具体情况见附录表1。我们的模式涵盖了人类关注的有影响力的事件,如地震、洪水和外交峰会,这些事件无法在句子层面上抽取,需要多个句子来描述。


1cd35c0589e84ada814e929228653216.png

141eddf6c7df4ebaa51ff88e33b706b6.png



为了构建论证模式,我们利用维基百科中的信息框。如图3(a)所示,Wikipedia页面描述了一个事件,框中的关键信息,如时间(Time)和总的死亡人数(Total fatalities),可以看作是事件的原型论元。基于这种观察,我们为每种事件类型手动收集了20个wiki页面,并在信息框中使用它们的共享键作为我们的基本论元类型集。在此之后,我们进一步扩展基本集。具体来说,对于e ee类事件,我们首先从纽约时报收集了20篇新闻报道,然后邀请了5名学生(英语为母语,新闻专业)来总结公众希望从e ee类新闻中了解到的关键事实。例如,在洪水事件新闻中,水位是一个关键事实,因为它是洪水成因分析和救灾决策的重要事实依据,可以引起广泛关注。最后,通过合并5个学生的关键事实,我们完成了论元类型的展开。为了保证质量,我们进一步邀请了上述5位同学对收集到的新闻进行试贴标签,过滤文章中出现频率较低的参论元类型。


我们总共为59种事件类型定义了356种事件论元类型。平均来说,每个类有6.0个事件论元。图2显示了我们定义的事件论元类型的一些示例。完整的模式和相应的示例可以在事件模式的补充材料中。


3.2 候选数据集收集


在本节中,我们将介绍如何收集候选文档级事件。我们选择wiki作为数据源。Wiki包含两种事件:历史事件和时间轴事件(Hienert and Luciano, 2012)。历史事件指的是那些有自己维基页面的事件,比如1922年皮卡迪号的空中相撞事件。时间轴事件是指按时间顺序组织的新闻事件,例如wiki页面Portal:Current_events/June_2010.7中的热浪袭击印度和南亚。图3显示了两个事件的示例。我们采用这两种事件作为我们的候选数据,因为仅使用历史事件将导致在我们的事件模式下数据分布不均匀,而时间轴事件可以作为一个很好的补充。对于一个历史事件,我们采用它的维基百科文章作为事件论元1的文档进行标注。对于时间轴事件,我们使用URL下载原始新闻文章,作为要标注的事件论元的文档。因为22%的时间轴事件没有URL(维基百科编辑在编辑条目时不提供URL),所以我们使用Scale SERP来查找新闻文章并手动确认其真实性。对于历史事件,我们采用模板+事件类型作为查询关键词来检索候选事件。模板包括“列表”+事件类型,事件类型+“在”+年份,类别:“+事件类型+“在”+国家,等等。更多模板见附录表7。对于时间轴事件,我们选择1980年到2021年之间的事件作为候选事件,因为1980年之前的事件很少。


为了平衡文章的长度,我们过滤掉了少于5句话的文章,也截断了过长的文章(超过50句话)。最后,我们从维基百科中选择了44000个候选事件。


3.3 众包标注


给定候选事件和预定义的事件模式,我们现在介绍如何通过众包对它们进行标注。为保证标注质量,标注人员均为英语母语者或托福成绩在100以上或雅思成绩在7.5以上的英语专业学生。众包标注过程包括两个阶段。


3.3.1 阶段一:事件分类

在此阶段,需要标注这将候选事件分类为预定义的事件类型。以下(Hamborg et al, 2018;Hsi, 2018),我们专注于主事件分类,因此阶段1是单标签分类任务。具体来说,主事件是指标题中反映的、文章中主要描述的事件。形式上,假定候选事件e = < t , a > ,其中t 表示标题,a 表示文章,阶段1的目的是为每个e ee获取标签yA,其中y 属于3.1小节中定义的59种事件类型。


我们总共邀请了大约60名标注人员参与第一阶段的标注。在线标注页面如图5所示。我们首先手动将100篇文章作为标准答案标注给预测标注者,剔除准确率低于70%的标注者,剩下48个有效标注者。然后,我们请两个独立的标注者对每个候选事件进行标注。如果两个标注者的结果不一致(在本案例中占32.8%),第三个标注者将是最终的裁判。由于实际事件类型的多样性,候选事件可能不属于任何预定义的类。我们将此类事件归为另一类,占总数据的23.6%。


3.3.2 阶段二:事件论元抽取


在此阶段,需要标注者从整篇文章中抽取事件论元。形式上,给定候选事件e=<t,a>,它的事件类型y 和 y和y和预定义的论元类型R ( y ) ,阶段2的目标是找到文章a 中的所有论元。


由于第二阶段工作繁重,我们邀请了90多名标注员。附录图6显示了在线标注页面的一个示例。我们使用初步标注-多轮检查方法进行标注。在初步标注步骤中,每个文章都将由标注者标记。在此步骤中,我们将不超过两种事件类型分配给每个标注者,以使标注者更加集中。然后,在多轮检查的步骤中,我们首先根据批注人之间的协议,选择高精度的批注人组成审稿人团队(占总数的44.4%),然后每篇文章由审稿人团队中三位独立的标注者进行三轮纠错。在每一轮之后,我们将把标注问题反馈给评审员,以便他们在下一轮标注中纠正这些问题。每轮标记的准确率从56.24%、76.83%稳步提高到85.96%,说明了我们的标记方法的有效性。我们以第三轮的结果作为最终的标注结果。


我们在这里澄清一些标注细节。我们的标注中不包括冠词、介词。例如,我们在“damaged car”、“damaged car belonging to the victim”和“the damaged car”中选择“damaged car”。对于文档中多次提到的事件论元,例如,图1中的Cause of the Accident有两次提到,我们将标记所有提到,以确保抽取的完整性。对于提及同一实体的重复提及,我们只标记一次。


3.3.3 标注质量与报酬

遵循(Artstein and Poesio, 2008;McHugh, 2012),我们使用Cohen 's kappa系数来衡量标注者者间协议(IAA)。状态1事件分类和阶段2事件论元抽取的IAA得分分别为94%和81%,属于较高水平。在阶段1中,标注人员平均花0.5分钟标记一条数据,因此我们为每条数据支付他们0.1美元。在第二阶段,标记一个数据大约需要5分钟,所以我们为每个数据支付0.8美元。


4、DocEE的数据分析


eecc8743fee74f22ba3ac285f34ac4e4.png

ffc240f2fe2b4a93ad9da2f2192b3319.png

ec488b4816484dfc9f2285ca0e912ecd.png


5、DocEE上的实验


两种基准设置:普通设置和跨领域设置。


e4d66cd63c334456b16b23e718898868.png


5.1 事件分类


9339bc5a67c04e0ebd332c6712cf9a82.png


四个结论:(1)基于Transformer的预训练语言模型表现效果好,原因在于在大规模无监督预料中进行预训练,有更多的背景知识。(2)人类标注的分数最高,数据标注质量很好。(3)现有的SOTA模型和人类的水平还是存在较大的差异。(4)领域迁移还是巨大的挑战,在迁移学习上。


5.2 事件论元抽取


4ccec5f7d9bb4a9c8fbe97785627432c.png


如表5所示,SOTA模型的性能与人类性能之间存在很大差距(F score 41.0% Vs 85.9%),这表明文档级事件论元抽取仍然是一项具有挑战性的任务。


现有基线的失败可能是由于两个原因。一个可能的原因是神经网络中的灾难性遗忘。与NER和句子级EE相比,文档级EE(我们的任务)突出了模型处理长文本的能力:在确定span的论元类型之前,模型必须读取整个文本。虽然已经提出了一些模型来提高预训练模型的长文本能力(如longformer),并取得了良好的效果,(longformer的性能(BERT_Seq(doc))优于BERT_Seq(sent)和BERT_Seq(chunk)如表5所示),但这些模型与人类相比仍有较大的性能差距。


另一个原因是现有的基线在语义理解方面能力较差,这体现在两个方面:1)EE模型不能区分相似事件的参数。例如,文章主要描述了2021年的美国阿拉斯加半岛大地震,也简要提及2008年汶川大地震。在询问主要事件的日期时,EE模型很容易混淆正确答案2021和错误答案2008。2) EE模型经常将不相关的实体误认为事件论元。例如,在911恐怖袭击五角大楼事件中抽取事件论元Attack Target时,除了正确答案是纽约五角大楼外,EE模型经常将文章中其他不相关的位置实体(如Mount Sinai Hospital)误认为答案之一。


我们认为以下研究方向值得关注:1)探索具有较强长文本处理能力的预训练模型。2)利用本体和常识知识,提高对EE模型的语义理解。在未来,我们将专注于将事件抽取提升到更高的级别,例如跨文档级别。


6、总结


在本文中,我们提出了DocEE,一个大型文档级EE数据集,以促进从句子级到文档级的事件抽取。与现有数据集相比,DocEE极大地扩展了数据规模,拥有超过27,000+个事件和180,000+个论元,并包含更精细的事件论元。实验表明,DocEE仍然是一个悬而未决的问题。

目录
相关文章
|
10月前
|
机器学习/深度学习 编解码 文字识别
视频生成领域的发展概述:从多级扩散到LLM
2023年是语言模型(llm)和图像生成技术激增的一年,但是视频生成受到的关注相对较少。今年刚到2月份,OpenAI就发布了一个惊人的视频生成模型Sora。虽然它的架构没有披露,但是通过总结现有的视频生成领域可能能对Sora的构架有所理解。
167 0
|
7天前
|
机器学习/深度学习 自然语言处理 测试技术
NeurIPS 2024:杜克大学&谷歌提出SLED解码框架,无需外部数据与额外训练,有效缓解大语言模型幻觉,提高事实准确性
在NeurIPS 2024上,杜克大学和谷歌团队提出Self Logits Evolution Decoding(SLED),旨在提高大语言模型(LLMs)的事实准确性。SLED通过对比模型早期层和最终层的logits,利用内部潜在知识增强输出准确性,无需外部知识库或额外微调。实验显示,SLED能显著提升多选题、开放生成等任务的准确性,最高提升达20%,且延迟开销极低。该方法具有创新性和有效性,但也存在实现复杂、计算开销等挑战。
23 2
|
1月前
|
人工智能
RAG没有银弹!四级难度,最新综述覆盖数据集、解决方案,教你LLM+外部数据的正确使用姿势
在人工智能领域,大型语言模型(LLM)结合外部数据展现出强大能力,尤其检索增强生成(RAG)和微调技术备受关注。然而,不同专业领域的有效部署仍面临挑战,如准确检索数据、理解用户意图等。综述文章《Retrieval Augmented Generation (RAG) and Beyond》提出RAG任务分类方法,将用户查询分为四个级别,并探讨了外部数据集成的三种形式:上下文、小型模型和微调。文章提供了宝贵见解和实用指导,帮助更好地利用LLM潜力解决实际问题。论文链接:https://arxiv.org/abs/2409.14924
81 6
|
2月前
|
机器学习/深度学习 人工智能 算法
RLCM:康奈尔大学推出文本到图像一致性模型优化框架,支持快速生成与任务特定奖励优化
RLCM 是康奈尔大学推出的基于强化学习的文本到图像生成模型优化框架,支持快速训练与推理,能够根据任务特定奖励函数生成高质量图像。
65 12
RLCM:康奈尔大学推出文本到图像一致性模型优化框架,支持快速生成与任务特定奖励优化
|
3月前
|
机器学习/深度学习 数据处理
NeurIPS 2024:消除多对多问题,清华提出大规模细粒度视频片段标注新范式VERIFIED
清华大学研究团队提出VERIFIED,一种基于大型语言模型和多模态模型的大规模细粒度视频片段标注新方法。VERIFIED通过静态与动态增强字幕及细粒度感知噪声评估器,有效解决了视频语义理解中的多对多问题、细粒度理解和大规模数据标注挑战。实验结果显示,VERIFIED能生成高质量的细粒度视频片段标注,显著提升了视频理解的精度和效率。
95 2
|
4月前
|
人工智能
突破视频多模态大模型瓶颈!合成数据立大功,项目已开源
针对视频多模态大模型(LMMs)因缺乏高质量原始数据而发展受限的问题,研究人员开发了LLaVA-Video-178K数据集,包含178,510个视频,涵盖详细字幕、开放性问题回答和多项选择题。此数据集通过结合GPT-4o和人工标注,实现了广泛视频来源、动态视频选择、递归字幕生成及多样化任务设计。基于此数据集训练的LLaVA-Video模型,在视频字幕、问答等任务上表现优异,且已开源,助力视频LMM的研究与发展。
111 7
|
4月前
|
存储 自然语言处理 数据可视化
3倍提升效率:医疗病理信息抽取与关系图谱展示系统解析
该项目旨在通过NLP技术将医疗病理报告中的非结构化文本转化为结构化数据,实现信息的高效抽取、存储及可视化展示。利用Python、JavaScript等技术栈,结合Echarts等工具,构建病理信息的关系图谱,支持多条件检索与图表互动,提高医生及研究人员的工作效率。预期成果包括数据结构化、关系图谱可视化、快速检索及数据统计分析等功能。项目预计2-4周完成。
|
5月前
|
机器学习/深度学习 人工智能 文字识别
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
【10月更文挑战第12天】多模态理解是人工智能的重要研究方向,华人团队改进了现有的MMMU基准,推出MMMU-Pro,以更严格地评估模型的多模态理解和推理能力。MMMU-Pro通过过滤纯文本问题、增加候选选项和引入纯视觉问答设置,提高了评估难度。实验结果显示,模型在MMMU-Pro上的性能明显下降,但CoT推理有助于提升表现。MMMU-Pro为多模态理解提供了更严格的评估工具,但也面临一些挑战。
95 1
|
10月前
|
机器学习/深度学习 人工智能
论文介绍:PreFLMR——扩展细粒度晚期交互多模态检索器以提升知识视觉问答性能
【5月更文挑战第3天】PreFLMR是扩展的细粒度晚期交互多模态检索器,用于提升知识视觉问答(KB-VQA)性能。基于FLMR,PreFLMR结合大型语言模型和检索增强生成,增强准确性与效率。通过M2KR框架全面评估,PreFLMR展示出色性能,尤其在E-VQA和Infoseek等任务。然而,其在预训练阶段未充分训练知识密集型任务,且仍有优化训练方法和数据集混合比例的空间。[论文链接](https://arxiv.org/abs/2402.08327)
266 1
|
10月前
|
机器学习/深度学习 自动驾驶 数据可视化
【细粒度】由CUB_200_2011数据集展开讲解细粒度分类任务
【细粒度】由CUB_200_2011数据集展开讲解细粒度分类任务
703 0
【细粒度】由CUB_200_2011数据集展开讲解细粒度分类任务