【论文速递】EMNLP 2022 - 一种大规模中文标题数据集的开放事件抽取基准

简介: 事件抽取(EE)对于新聚合和事件知识图构建等下游任务至关重要。大多数现有的EE数据集手动定义固定的事件类型,并为每种事件设计特定的模式

【论文原文】:Title2Event: Benchmarking Open Event Extraction with a Large-scale Chinese Title Dataset


【作者信息】:Haolin Deng, Yanan Zhang, Yangfan Zhang, Wangyang Ying, Changlong Yu, Jun Gao, Wei Wang, Xiaoling Bai, Nan Yang, Jin Ma, Xiang Chen, Tianhua Zhou


论文:https://arxiv.org/abs/2211.00869
代码:https://github.com/open-event-hub/title2event_baselines


博主关键词:开放事件抽取、中文事件抽取数据集


推荐论文:无


摘要


事件抽取(EE)对于新聚合和事件知识图构建等下游任务至关重要。大多数现有的EE数据集手动定义固定的事件类型,并为每种事件设计特定的模式,无法覆盖在线文本中出现的各种事件。此外,新闻标题作为事件提及的重要来源,在当前的EE研究中并没有得到足够的重视。在本文中,我们提出了Title2Event,这是一种不限制事件类型的大型句子级数据集基准测试开放事件抽取。Title2Event包含从中文网页收集的34个主题超过42,000个新闻标题。据我们所知,它是目前最大的用于开放事件抽取的人工标注中文数据集。我们进一步对不同模型的Title2Event进行了实验,表明标题的特性使得事件抽取具有挑战性,解决了这一问题的深入研究的意义。


1、简介


图1显示了从多个新闻标题中抽取事件的示例。在抽取事件的基础上,对同一事件的新闻进行聚合,发送给用户,提供不同来源的综合观点。


事件抽取可以分为两个级别:句子级EE和文档级EE。句子级EE识别单个句子中的事件实体和属性(Ahn, 2006),而文档级EE旨在抽取分散在文章中的同一事件的实体(Sundheim, 1992)。在新闻聚合等场景中,人工编写的新闻标题通常保留了新闻事件的核心信息,而新闻文章可能包含太多琐碎的细节。因此,对新闻标题进行句子级EE比对新闻文章进行文档级EE更有效地聚合相关新闻。


5d21287350604dbeb5d33242d54ce37a.png


中文标题抽取相对于ACE2005的数据集标准更加困难,中国社交媒体上的新闻标题有一些独特的写作风格,如图2所示。首先,许多标题的写作没有严格遵守正确的语法。例如,一些标题在描述操作时为了简洁会省略代理,而另一些标题可能会将操作放在第一次提到代理之前以强调。二是角色重叠问题,即同一个实体在多个事件中可能扮演不同的角色,通常发生在文本中的事件之间具有一定的关联时。虽然在2005年ACE中约有10%的事件存在这一问题,但在相当长的一段时间内没有得到足够的研究重视(Yang et al, 2019)。然而,角色重叠问题在新闻标题中更为常见,并因此成为一个不可忽视的问题。最后,由于新闻报道的覆盖面广泛,在某些情况下,EE模型必须依赖某些领域知识(如体育中的规则和术语)才能正确理解事件。标题的这些特征给事件抽取带来了额外的挑战,对文本理解能力更强的EE模型提出了更高的要求。


考虑到上述问题,作者推出了Title2Event,一个新的数据集,包含42,000多条中文互联网新闻标题数据。总的来说Title2Event包含以下重要特征:


1.它将标题事件抽取定义为开放事件抽取(OpenEE)任务,没有任何预定义的事件类型或特定的模式。相反,它遵循开放信息抽取(OpenIE)的公式(Zhou et al, 2022),并将事件定义为(subject,predicate,object)三元组。然后,EE模型需要抽取给定标题中的所有事件三元组。OpenEE和OpenIE之间最大的区别是OpenEE是以事件为中心的,这意味着只有事件三元组被抽取。


2.这是一个大规模、高质量的数据集。Title2Event由从中文网页收集的34个领域的42915个新闻标题组成,以及70947个人工标注的事件三元组,包含24231个独特的谓词。我们编写了详细的标注指南,并进行了两轮专家评审以进行质量控制。据我们所知,Title2Event是目前OpenEE最大的手动标注中文数据集。


3.这是第一个特别关注标题的句子级数据集,其独特的价值和挑战很少受到关注。我们相信Title2Event可以进一步促进现实场景下的情感表达研究。


我们在Title2Event上尝试了不同的方法,并分析了它们的性能,以解决这个任务的挑战。


2、Title2Event数据分析


8861025bafe94893bd774ee1bc2a9e36.png

66c11da5dd6b4ee3ac3f8b6d07e1061a.png

d973754e992d4d308d986841233c7029.png

4505cf59671c436794bd892ad54226a9.png


3、实验结果


6a7d4ef32f24469f9c53f6a97fc94446.png


表2显示了在Title2Event上实验的所有Open EE方法的结果。可以观察到:1)对于触发词抽取,序列标注模型明显优于无监督模型。2)在论元抽取和三元组抽取方面,ST-Seq2SeqMRC优于其他基于标注的模型。很大一部分原因是标题的非常规的写作风格使得在源文本中定位token级标记或跨度偏移量非常困难,而序列到序列模型则不受这些限制。


Title2Event全文


【论文速递 | 精选】



论坛地址:https://bbs.csdn.net/forums/paper

目录
打赏
0
0
0
0
3
分享
相关文章
NeurIPS 2024:文本图格式大一统!首个大规模文本边基准TEG-DB发布
TEG-DB是NeurIPS 2024发布的全新数据集,首次将丰富的文本描述引入图的边中,填补了现有TAG数据集只关注节点文本信息的空白。该数据集涵盖多个领域,提供全面的节点和边文本描述,助力更深入挖掘实体间上下文关系,提升图结构数据的理解。实验表明,现有技术在利用文本边信息方面仍有提升空间,未来研究需关注文本描述的质量、隐私和伦理问题。论文地址:https://arxiv.org/abs/2406.10310
74 9
【论文速递】NAACL2022-DEGREE: 一种基于生成的数据高效事件抽取模型
【论文速递】NAACL2022-DEGREE: 一种基于生成的数据高效事件抽取模型
GPT学术优化 (GPT Academic):支持一键润色、一键中英互译、一键代码解释、chat分析报告生成、PDF论文全文翻译功能、互联网信息聚合+GPT等等
GPT学术优化 (GPT Academic):支持一键润色、一键中英互译、一键代码解释、chat分析报告生成、PDF论文全文翻译功能、互联网信息聚合+GPT等等
【论文速递】EMNLP 2020 - 将事件抽取作为机器阅读理解任务
事件抽取(Event extraction, EE)是一项重要的信息抽取任务,旨在抽取文本中的事件信息。以前的EE方法通常将其建模为分类任务
207 0
【论文速递】COLING 2022 - 联合语言语义和结构嵌入用于知识图补全
补全知识三元组的任务具有广泛的下游应用。结构信息和语义信息在知识图补全中都起着重要作用。与以往依赖知识图谱的结构或语义的方法不同
292 0
【论文速递】NAACL2022- 文档级事件论元抽取的双流AMR增强模型
以往的研究大多致力于从单个句子中抽取事件,而文档级别的事件抽取仍未得到充分的研究。在本文中,我们专注于从整个文档中抽取事件论元
257 0
【论文速递】ACL 2021-CLEVE: 事件抽取的对比预训练
事件抽取(EE)通过微调从预训练的语言模型(PLMs)中受益匪浅。然而,现有的预训练方法没有涉及事件特征的建模,导致所开发的EE模型不能充分利用大规模无监督数据。
201 0
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等