【论文原文】:Title2Event: Benchmarking Open Event Extraction with a Large-scale Chinese Title Dataset
【作者信息】:Haolin Deng, Yanan Zhang, Yangfan Zhang, Wangyang Ying, Changlong Yu, Jun Gao, Wei Wang, Xiaoling Bai, Nan Yang, Jin Ma, Xiang Chen, Tianhua Zhou
论文:https://arxiv.org/abs/2211.00869 代码:https://github.com/open-event-hub/title2event_baselines
博主关键词:开放事件抽取、中文事件抽取数据集
推荐论文:无
摘要
事件抽取(EE)对于新聚合和事件知识图构建等下游任务至关重要。大多数现有的EE数据集手动定义固定的事件类型,并为每种事件设计特定的模式,无法覆盖在线文本中出现的各种事件。此外,新闻标题作为事件提及的重要来源,在当前的EE研究中并没有得到足够的重视。在本文中,我们提出了Title2Event,这是一种不限制事件类型的大型句子级数据集基准测试开放事件抽取。Title2Event包含从中文网页收集的34个主题超过42,000个新闻标题。据我们所知,它是目前最大的用于开放事件抽取的人工标注中文数据集。我们进一步对不同模型的Title2Event进行了实验,表明标题的特性使得事件抽取具有挑战性,解决了这一问题的深入研究的意义。
1、简介
图1显示了从多个新闻标题中抽取事件的示例。在抽取事件的基础上,对同一事件的新闻进行聚合,发送给用户,提供不同来源的综合观点。
事件抽取可以分为两个级别:句子级EE和文档级EE。句子级EE识别单个句子中的事件实体和属性(Ahn, 2006),而文档级EE旨在抽取分散在文章中的同一事件的实体(Sundheim, 1992)。在新闻聚合等场景中,人工编写的新闻标题通常保留了新闻事件的核心信息,而新闻文章可能包含太多琐碎的细节。因此,对新闻标题进行句子级EE比对新闻文章进行文档级EE更有效地聚合相关新闻。
中文标题抽取相对于ACE2005的数据集标准更加困难,中国社交媒体上的新闻标题有一些独特的写作风格,如图2所示。首先,许多标题的写作没有严格遵守正确的语法。例如,一些标题在描述操作时为了简洁会省略代理,而另一些标题可能会将操作放在第一次提到代理之前以强调。二是角色重叠问题,即同一个实体在多个事件中可能扮演不同的角色,通常发生在文本中的事件之间具有一定的关联时。虽然在2005年ACE中约有10%的事件存在这一问题,但在相当长的一段时间内没有得到足够的研究重视(Yang et al, 2019)。然而,角色重叠问题在新闻标题中更为常见,并因此成为一个不可忽视的问题。最后,由于新闻报道的覆盖面广泛,在某些情况下,EE模型必须依赖某些领域知识(如体育中的规则和术语)才能正确理解事件。标题的这些特征给事件抽取带来了额外的挑战,对文本理解能力更强的EE模型提出了更高的要求。
考虑到上述问题,作者推出了Title2Event,一个新的数据集,包含42,000多条中文互联网新闻标题数据。总的来说Title2Event包含以下重要特征:
1.它将标题事件抽取定义为开放事件抽取(OpenEE)任务,没有任何预定义的事件类型或特定的模式。相反,它遵循开放信息抽取(OpenIE)的公式(Zhou et al, 2022),并将事件定义为(subject,predicate,object)三元组。然后,EE模型需要抽取给定标题中的所有事件三元组。OpenEE和OpenIE之间最大的区别是OpenEE是以事件为中心的,这意味着只有事件三元组被抽取。
2.这是一个大规模、高质量的数据集。Title2Event由从中文网页收集的34个领域的42915个新闻标题组成,以及70947个人工标注的事件三元组,包含24231个独特的谓词。我们编写了详细的标注指南,并进行了两轮专家评审以进行质量控制。据我们所知,Title2Event是目前OpenEE最大的手动标注中文数据集。
3.这是第一个特别关注标题的句子级数据集,其独特的价值和挑战很少受到关注。我们相信Title2Event可以进一步促进现实场景下的情感表达研究。
我们在Title2Event上尝试了不同的方法,并分析了它们的性能,以解决这个任务的挑战。
2、Title2Event数据分析
3、实验结果
表2显示了在Title2Event上实验的所有Open EE方法的结果。可以观察到:1)对于触发词抽取,序列标注模型明显优于无监督模型。2)在论元抽取和三元组抽取方面,ST-Seq2SeqMRC优于其他基于标注的模型。很大一部分原因是标题的非常规的写作风格使得在源文本中定位token级标记或跨度偏移量非常困难,而序列到序列模型则不受这些限制。
【论文速递 | 精选】