【论文速递】EMNLP 2022 - 一种大规模中文标题数据集的开放事件抽取基准

简介: 事件抽取(EE)对于新聚合和事件知识图构建等下游任务至关重要。大多数现有的EE数据集手动定义固定的事件类型,并为每种事件设计特定的模式

【论文原文】:Title2Event: Benchmarking Open Event Extraction with a Large-scale Chinese Title Dataset


【作者信息】:Haolin Deng, Yanan Zhang, Yangfan Zhang, Wangyang Ying, Changlong Yu, Jun Gao, Wei Wang, Xiaoling Bai, Nan Yang, Jin Ma, Xiang Chen, Tianhua Zhou


论文:https://arxiv.org/abs/2211.00869
代码:https://github.com/open-event-hub/title2event_baselines


博主关键词:开放事件抽取、中文事件抽取数据集


推荐论文:无


摘要


事件抽取(EE)对于新聚合和事件知识图构建等下游任务至关重要。大多数现有的EE数据集手动定义固定的事件类型,并为每种事件设计特定的模式,无法覆盖在线文本中出现的各种事件。此外,新闻标题作为事件提及的重要来源,在当前的EE研究中并没有得到足够的重视。在本文中,我们提出了Title2Event,这是一种不限制事件类型的大型句子级数据集基准测试开放事件抽取。Title2Event包含从中文网页收集的34个主题超过42,000个新闻标题。据我们所知,它是目前最大的用于开放事件抽取的人工标注中文数据集。我们进一步对不同模型的Title2Event进行了实验,表明标题的特性使得事件抽取具有挑战性,解决了这一问题的深入研究的意义。


1、简介


图1显示了从多个新闻标题中抽取事件的示例。在抽取事件的基础上,对同一事件的新闻进行聚合,发送给用户,提供不同来源的综合观点。


事件抽取可以分为两个级别:句子级EE和文档级EE。句子级EE识别单个句子中的事件实体和属性(Ahn, 2006),而文档级EE旨在抽取分散在文章中的同一事件的实体(Sundheim, 1992)。在新闻聚合等场景中,人工编写的新闻标题通常保留了新闻事件的核心信息,而新闻文章可能包含太多琐碎的细节。因此,对新闻标题进行句子级EE比对新闻文章进行文档级EE更有效地聚合相关新闻。


5d21287350604dbeb5d33242d54ce37a.png


中文标题抽取相对于ACE2005的数据集标准更加困难,中国社交媒体上的新闻标题有一些独特的写作风格,如图2所示。首先,许多标题的写作没有严格遵守正确的语法。例如,一些标题在描述操作时为了简洁会省略代理,而另一些标题可能会将操作放在第一次提到代理之前以强调。二是角色重叠问题,即同一个实体在多个事件中可能扮演不同的角色,通常发生在文本中的事件之间具有一定的关联时。虽然在2005年ACE中约有10%的事件存在这一问题,但在相当长的一段时间内没有得到足够的研究重视(Yang et al, 2019)。然而,角色重叠问题在新闻标题中更为常见,并因此成为一个不可忽视的问题。最后,由于新闻报道的覆盖面广泛,在某些情况下,EE模型必须依赖某些领域知识(如体育中的规则和术语)才能正确理解事件。标题的这些特征给事件抽取带来了额外的挑战,对文本理解能力更强的EE模型提出了更高的要求。


考虑到上述问题,作者推出了Title2Event,一个新的数据集,包含42,000多条中文互联网新闻标题数据。总的来说Title2Event包含以下重要特征:


1.它将标题事件抽取定义为开放事件抽取(OpenEE)任务,没有任何预定义的事件类型或特定的模式。相反,它遵循开放信息抽取(OpenIE)的公式(Zhou et al, 2022),并将事件定义为(subject,predicate,object)三元组。然后,EE模型需要抽取给定标题中的所有事件三元组。OpenEE和OpenIE之间最大的区别是OpenEE是以事件为中心的,这意味着只有事件三元组被抽取。


2.这是一个大规模、高质量的数据集。Title2Event由从中文网页收集的34个领域的42915个新闻标题组成,以及70947个人工标注的事件三元组,包含24231个独特的谓词。我们编写了详细的标注指南,并进行了两轮专家评审以进行质量控制。据我们所知,Title2Event是目前OpenEE最大的手动标注中文数据集。


3.这是第一个特别关注标题的句子级数据集,其独特的价值和挑战很少受到关注。我们相信Title2Event可以进一步促进现实场景下的情感表达研究。


我们在Title2Event上尝试了不同的方法,并分析了它们的性能,以解决这个任务的挑战。


2、Title2Event数据分析


8861025bafe94893bd774ee1bc2a9e36.png

66c11da5dd6b4ee3ac3f8b6d07e1061a.png

d973754e992d4d308d986841233c7029.png

4505cf59671c436794bd892ad54226a9.png


3、实验结果


6a7d4ef32f24469f9c53f6a97fc94446.png


表2显示了在Title2Event上实验的所有Open EE方法的结果。可以观察到:1)对于触发词抽取,序列标注模型明显优于无监督模型。2)在论元抽取和三元组抽取方面,ST-Seq2SeqMRC优于其他基于标注的模型。很大一部分原因是标题的非常规的写作风格使得在源文本中定位token级标记或跨度偏移量非常困难,而序列到序列模型则不受这些限制。


Title2Event全文


【论文速递 | 精选】



论坛地址:https://bbs.csdn.net/forums/paper

目录
相关文章
|
2月前
Meta浙大校友让评估模型自学成才,数据全合成无需人工标注,训练Llama 3 70B超过405B
【9月更文挑战第21天】近日,一篇名为《Self-Taught Evaluators》的论文引起了广泛关注。该论文由Meta与浙江大学校友合作完成,提出一种创新的模型评估方法,通过让评估模型自学习训练,无需依赖昂贵且易过时的人工标注数据。此方法利用合成数据,通过迭代生成对比模型输出并训练基于大型语言模型的评估器,从而实现自我迭代改进。研究结果显示,在不使用任何标注偏好数据的情况下,这种方法显著提升了评估模型的性能,甚至超越了一些现有模型。尽管如此,该方法在实际应用中仍需进一步验证。论文地址:https://arxiv.org/abs/2408.02666
61 4
|
6月前
|
算法 知识图谱
【论文速递】NAACL2022-DEGREE: 一种基于生成的数据高效事件抽取模型
【论文速递】NAACL2022-DEGREE: 一种基于生成的数据高效事件抽取模型
|
6月前
|
自然语言处理 物联网 Swift
联合XTuner,魔搭社区全面支持数据集的长文本训练
XTuner和魔搭社区(SWIFT)合作引入了一项长序列文本训练技术,该技术能够在多GPU环境中将长序列文本数据分割并分配给不同GPU,从而减少每个GPU上的显存占用。通过这种方式,训练超大规模模型时可以处理更长的序列,提高训练效率。魔搭社区的SWIFT框架已经集成了这一技术,支持多种大模型和数据集的训练。此外,SWIFT还提供了一个用户友好的界面,方便用户进行训练和部署,并且支持评估功能。
|
6月前
|
人工智能 自然语言处理 文字识别
社区供稿 | 元象首个多模态大模型XVERSE-V开源,刷新权威大模型榜单,支持任意宽高比输入
元象公司发布了开源多模态大模型XVERSE-V,该模型在图像输入的宽高比方面具有灵活性,并在多项评测中展现出优越性能,超越了包括谷歌在内的多个知名模型。XVERSE-V采用创新方法结合全局和局部图像信息,适用于高清全景图识别、文字检测等任务,且已在Hugging Face、ModelScope和GitHub上开放下载。此外,模型在视障场景、内容创作、教育解题、百科问答和代码生成等领域有广泛应用,并在VizWiz等测试集中表现出色。元象致力于推动AI技术的普惠,支持中小企业、研究者和开发者进行研发和应用创新。
|
自然语言处理 机器人 API
GPT学术优化 (GPT Academic):支持一键润色、一键中英互译、一键代码解释、chat分析报告生成、PDF论文全文翻译功能、互联网信息聚合+GPT等等
GPT学术优化 (GPT Academic):支持一键润色、一键中英互译、一键代码解释、chat分析报告生成、PDF论文全文翻译功能、互联网信息聚合+GPT等等
|
11月前
|
机器学习/深度学习 人工智能 算法
AI Earth有没有相关文档或论文介绍平台地物分类、目标提取、变化检测等算法的原理呢?
AI Earth有没有相关文档或论文介绍平台地物分类、目标提取、变化检测等算法的原理呢?
337 1
|
机器学习/深度学习 自然语言处理 搜索推荐
【论文速递】NAACL2022- 文档级事件论元抽取的双流AMR增强模型
以往的研究大多致力于从单个句子中抽取事件,而文档级别的事件抽取仍未得到充分的研究。在本文中,我们专注于从整个文档中抽取事件论元
176 0
|
机器学习/深度学习 人工智能 算法
一文尽览!弱监督语义/实例/全景分割全面调研(2022最新综述)(上)
今天分享一篇上交投稿TPAMI的文章,论文很全面的调研了广义上的弱监督分割算法,又涵盖了语义、实例和全景三个主流的分割任务。特别是基于目标框的弱监督分割算法,未来有很大的研究价值和落地价值,相关算法如BoxInst、DiscoBox和ECCV2022的BoxLevelset已经证明了,只用目标框可以实现可靠的分割性能。论文很赞,内容很扎实,分割方向的同学一定不要错过!
一文尽览!弱监督语义/实例/全景分割全面调研(2022最新综述)(上)
|
机器学习/深度学习 人工智能 算法
一文尽览!弱监督语义/实例/全景分割全面调研(2022最新综述)(下)
今天分享一篇上交投稿TPAMI的文章,论文很全面的调研了广义上的弱监督分割算法,又涵盖了语义、实例和全景三个主流的分割任务。特别是基于目标框的弱监督分割算法,未来有很大的研究价值和落地价值,相关算法如BoxInst、DiscoBox和ECCV2022的BoxLevelset已经证明了,只用目标框可以实现可靠的分割性能。论文很赞,内容很扎实,分割方向的同学一定不要错过!
一文尽览!弱监督语义/实例/全景分割全面调研(2022最新综述)(下)
|
机器学习/深度学习 Web App开发 自然语言处理
基于神经标签搜索,中科院&微软亚研零样本多语言抽取式摘要入选ACL 2022
基于神经标签搜索,中科院&微软亚研零样本多语言抽取式摘要入选ACL 2022
101 0