【论文速递】EMNLP 2022 - 一种大规模中文标题数据集的开放事件抽取基准

简介: 事件抽取(EE)对于新聚合和事件知识图构建等下游任务至关重要。大多数现有的EE数据集手动定义固定的事件类型,并为每种事件设计特定的模式

【论文原文】:Title2Event: Benchmarking Open Event Extraction with a Large-scale Chinese Title Dataset


【作者信息】:Haolin Deng, Yanan Zhang, Yangfan Zhang, Wangyang Ying, Changlong Yu, Jun Gao, Wei Wang, Xiaoling Bai, Nan Yang, Jin Ma, Xiang Chen, Tianhua Zhou


论文:https://arxiv.org/abs/2211.00869
代码:https://github.com/open-event-hub/title2event_baselines


博主关键词:开放事件抽取、中文事件抽取数据集


推荐论文:无


摘要


事件抽取(EE)对于新聚合和事件知识图构建等下游任务至关重要。大多数现有的EE数据集手动定义固定的事件类型,并为每种事件设计特定的模式,无法覆盖在线文本中出现的各种事件。此外,新闻标题作为事件提及的重要来源,在当前的EE研究中并没有得到足够的重视。在本文中,我们提出了Title2Event,这是一种不限制事件类型的大型句子级数据集基准测试开放事件抽取。Title2Event包含从中文网页收集的34个主题超过42,000个新闻标题。据我们所知,它是目前最大的用于开放事件抽取的人工标注中文数据集。我们进一步对不同模型的Title2Event进行了实验,表明标题的特性使得事件抽取具有挑战性,解决了这一问题的深入研究的意义。


1、简介


图1显示了从多个新闻标题中抽取事件的示例。在抽取事件的基础上,对同一事件的新闻进行聚合,发送给用户,提供不同来源的综合观点。


事件抽取可以分为两个级别:句子级EE和文档级EE。句子级EE识别单个句子中的事件实体和属性(Ahn, 2006),而文档级EE旨在抽取分散在文章中的同一事件的实体(Sundheim, 1992)。在新闻聚合等场景中,人工编写的新闻标题通常保留了新闻事件的核心信息,而新闻文章可能包含太多琐碎的细节。因此,对新闻标题进行句子级EE比对新闻文章进行文档级EE更有效地聚合相关新闻。


5d21287350604dbeb5d33242d54ce37a.png


中文标题抽取相对于ACE2005的数据集标准更加困难,中国社交媒体上的新闻标题有一些独特的写作风格,如图2所示。首先,许多标题的写作没有严格遵守正确的语法。例如,一些标题在描述操作时为了简洁会省略代理,而另一些标题可能会将操作放在第一次提到代理之前以强调。二是角色重叠问题,即同一个实体在多个事件中可能扮演不同的角色,通常发生在文本中的事件之间具有一定的关联时。虽然在2005年ACE中约有10%的事件存在这一问题,但在相当长的一段时间内没有得到足够的研究重视(Yang et al, 2019)。然而,角色重叠问题在新闻标题中更为常见,并因此成为一个不可忽视的问题。最后,由于新闻报道的覆盖面广泛,在某些情况下,EE模型必须依赖某些领域知识(如体育中的规则和术语)才能正确理解事件。标题的这些特征给事件抽取带来了额外的挑战,对文本理解能力更强的EE模型提出了更高的要求。


考虑到上述问题,作者推出了Title2Event,一个新的数据集,包含42,000多条中文互联网新闻标题数据。总的来说Title2Event包含以下重要特征:


1.它将标题事件抽取定义为开放事件抽取(OpenEE)任务,没有任何预定义的事件类型或特定的模式。相反,它遵循开放信息抽取(OpenIE)的公式(Zhou et al, 2022),并将事件定义为(subject,predicate,object)三元组。然后,EE模型需要抽取给定标题中的所有事件三元组。OpenEE和OpenIE之间最大的区别是OpenEE是以事件为中心的,这意味着只有事件三元组被抽取。


2.这是一个大规模、高质量的数据集。Title2Event由从中文网页收集的34个领域的42915个新闻标题组成,以及70947个人工标注的事件三元组,包含24231个独特的谓词。我们编写了详细的标注指南,并进行了两轮专家评审以进行质量控制。据我们所知,Title2Event是目前OpenEE最大的手动标注中文数据集。


3.这是第一个特别关注标题的句子级数据集,其独特的价值和挑战很少受到关注。我们相信Title2Event可以进一步促进现实场景下的情感表达研究。


我们在Title2Event上尝试了不同的方法,并分析了它们的性能,以解决这个任务的挑战。


2、Title2Event数据分析


8861025bafe94893bd774ee1bc2a9e36.png

66c11da5dd6b4ee3ac3f8b6d07e1061a.png

d973754e992d4d308d986841233c7029.png

4505cf59671c436794bd892ad54226a9.png


3、实验结果


6a7d4ef32f24469f9c53f6a97fc94446.png


表2显示了在Title2Event上实验的所有Open EE方法的结果。可以观察到:1)对于触发词抽取,序列标注模型明显优于无监督模型。2)在论元抽取和三元组抽取方面,ST-Seq2SeqMRC优于其他基于标注的模型。很大一部分原因是标题的非常规的写作风格使得在源文本中定位token级标记或跨度偏移量非常困难,而序列到序列模型则不受这些限制。


Title2Event全文


【论文速递 | 精选】



论坛地址:https://bbs.csdn.net/forums/paper

目录
相关文章
|
存储 人工智能 自然语言处理
社区供稿 | 开放开源!蚂蚁集团浙江大学联合发布开源大模型知识抽取框架OneKE
OneKE 是由蚂蚁集团和浙江大学联合研发的大模型知识抽取框架,具备中英文双语、多领域多任务的泛化知识抽取能力,并提供了完善的工具链支持。OneKE 以开源形式贡献给 OpenKG 开放知识图谱社区。
|
弹性计算 虚拟化 KVM
Intel Xeon E5-2682 V4 (Broadwell) 2.5 GHz 性能评测 阿里云ECS服务器
Intel Xeon E5-2682 V4 (Broadwell) 2.5 GHz 性能评测 阿里云ECS服务器 阿里云 优 惠 地 址 https://promotion.aliyun.com/ntms/yunparter/invite.html?userCode=q3dtcrrv 阿里云ECS服务器是一种弹性可伸缩的云服务器,通过虚拟化平台将服务器集群虚拟为多个性能可配的虚拟机(KVM),对整个集群系统中所有KVM进行监控和管理,并根据实际资源使用情况灵活 分配和调度资源池。
11438 2
|
11月前
|
人工智能 文字识别 Java
SpringCloud+Python 混合微服务,如何打造AI分布式业务应用的技术底层?
尼恩,一位拥有20年架构经验的老架构师,通过其深厚的架构功力,成功指导了一位9年经验的网易工程师转型为大模型架构师,薪资逆涨50%,年薪近80W。尼恩的指导不仅帮助这位工程师在一年内成为大模型架构师,还让他管理起了10人团队,产品成功应用于多家大中型企业。尼恩因此决定编写《LLM大模型学习圣经》系列,帮助更多人掌握大模型架构,实现职业跃迁。该系列包括《从0到1吃透Transformer技术底座》、《从0到1精通RAG架构》等,旨在系统化、体系化地讲解大模型技术,助力读者实现“offer直提”。此外,尼恩还分享了多个技术圣经,如《NIO圣经》、《Docker圣经》等,帮助读者深入理解核心技术。
SpringCloud+Python 混合微服务,如何打造AI分布式业务应用的技术底层?
|
11月前
|
Android开发
Android实战之如何快速实现自动轮播图
本文介绍了在 Android 中使用 `ViewPager2` 和自定义适配器实现轮播图的方法,包括添加依赖、布局配置、创建适配器及实现自动轮播等步骤。
436 0
|
存储 Linux C语言
【操作系统】实验一 Linux初步
【操作系统】实验一 Linux初步
337 0
【操作系统】实验一 Linux初步
|
数据采集 编解码 人工智能
MAVEN-ERE一个新的事件关系检测数据集
真实世界事件之间的各种关系,包括共指、时间、因果和子事件关系,是理解自然语言的基础。
441 1
|
Java
neo4j仅仅删除关系如何操作
neo4j仅仅删除关系如何操作
716 5
|
机器学习/深度学习 人机交互 API
【机器学习】Whisper:开源语音转文本(speech-to-text)大模型实战
【机器学习】Whisper:开源语音转文本(speech-to-text)大模型实战
3313 0
|
关系型数据库 MySQL 索引
MySQL InnoDB中的锁-插入意向锁(Insert Intention Lock)
MySQL InnoDB 插入意向锁 Insert Intention Lock
4072 0
MySQL InnoDB中的锁-插入意向锁(Insert Intention Lock)
|
自然语言处理 算法
【论文精读】COLING 2022 - CLIO: 用于文档级事件抽取的角色交互多事件头注意力网络
【论文精读】COLING 2022 - CLIO: 用于文档级事件抽取的角色交互多事件头注意力网络