【论文精读】COLING 2022 - CLIO: 用于文档级事件抽取的角色交互多事件头注意力网络

简介: 【论文精读】COLING 2022 - CLIO: 用于文档级事件抽取的角色交互多事件头注意力网络

【论文原文】:CLIO: Role-interactive Multi-event Head Attention Network for Document-level Event Extraction

【作者信息】:Ren, Yubing and Cao, Yanan and Fang, Fang and Guo, Ping and Lin, Zheng and Ma, Wei and Liu, Yi

论文:https://aclanthology.org/2022.coling-1.221.pdf
代码:-

博主关键词:事件抽取,对比学习,特征融合

推荐论文:无

640.png

摘要


将网络上的大量非结构化文本转换为结构化事件知识是NLP的一个关键但尚未解决的目标,特别是在处理文档级文本时。现有的方法在文档级事件抽取(DEE)中仍十分困难,因为它有两个内在的挑战:(a)嵌套论元,这意味着一个论元是另一个论元的子字符串。(b)多个事件,这表明我们应该确定多个事件并为它们集合论元。在本文中,我们提出了一个角色交互的多事件头注意力网络(CLIO)来共同解决这两个挑战。关键思想是将不同的事件映射到多个子空间(即多事件头)。在每个事件子空间中,我们将每个角色的语义表示为更接近其对应的论元,然后确定当前事件是否存在。为了进一步优化事件表示,我们提出了一种事件表示增强策略,将预训练的嵌入空间正则化,使其更加各向同性。我们在两个广泛使用的DEE数据集上的实验表明,CLIO比以前的方法取得了一致的改进。


1、简介


文档级事件抽取(DEE)与SEE相比,文本长度的增加带来了更多的挑战,DEE仍然表现不佳。

最近,研究人员对DEE投入越来越多的经历。他们的工作可以大致分为基于分类的模型(Zhang et al, 2020; Xu et al, 2021; Huang and Jia, 2021; Huang and Peng, 2021),基于标记的模型(Yang et al, 2018; Du and Cardie, 2020),以及基于生成的模型(Li et al, 2021; Y ang et al, 2021; Du et al, 2021)。最先进的方法(Liu et al, 2021)将DEE框架为机器阅读理解任务,由两种数据增强机制辅助。尽管学者们在DEE方面做了很多有价值的尝试,但目前的方法在DEE方面仍然面临着以下关键的挑战:

嵌套论元:在文档中,有许多嵌套论元(即一个论元是另一个论元的子字符串),它们属于不同的角色。图1给出了一个例子。在Transportation事件中,truck(扮演着Origin角色),Ryder truck(扮演着Vehicle角色),是一个嵌套事件论元。根据我们的统计,在WikiEvents (Li et al, 2021)和RAMS (Ebner et al, 2020)数据集中,分别有14.23%和13.94%的文档有嵌套论元。不幸的是,传统的基于标记的方法不能完全识别这些嵌套论元,这些方法不能为一个token分配多个标签。

640.png

多个事件:如图1所示,单个文档中有三种事件:TransportationExchangeBuySellMeet,DEE不仅应该标识所有事件,还应该为相应的事件分配论元。多个事件的问题在DEE中很常见(WikiEvents中86.88%的文档涉及多个事件)。更重要的是,这些事件的论元均匀地分散在句子中,很难实现准确的论点组合。以往的作品通常采用固定的文档表示来检测所有事件类型。但是,不同的事件类型有不同的角色和论元,文档表示的重点也应该不同。

对于通常属于不同角色的嵌套论元,直觉上我们应该为每个角色独立抽取论元。假设一个事件中有个角色,我们可以通过标记每个角色下的论元来执行个独立的抽取。这样可以同时识别角色Origin的论元子串truck和角色Vehicle的论元Ryder truck。要解决多个事件的挑战,一种直观的方法是独立检测每个事件类型并为其组装论元。对于一种事件类型,由于角色的减少,论元抽取可以更简单。相反,使用特定于此事件类型的角色信息可以更好地检测当前事件类型。我们认为,这两个挑战可以通过将每个事件类型映射到特定的子空间来共同解决

类似于多头注意力(Vaswani et al, 2017),我们为DEE提出了一个角色交互的多事件头注意力网络(CLIO)。CLIO中最关键的部分是角色交互的多事件头注意力模块,它可以共同解决上述两个挑战。首先,我们的注意力模块以角色为中心的方式工作。也就是说,对于每个角色,我们独立地抽取其所有对应的论元。这样可以为一个token分配多个角色标签,很好地解决了论元嵌套的问题。其次,我们的注意力模块通过将每个事件类型映射到每个事件头来为每个事件类型分配子空间。通过这种方式,我们可以独立地检测每个事件类型并为其组装论元,这可以解决多个事件的挑战。在每个事件头中,我们使用特定于此事件的角色信息来表示文档。这种特定于事件的文档表示减轻了从单个文档检测多个事件的困难。

综上所述,我们的贡献如下:

  • 我们提出了一个角色交互的多事件头注意力网络,以同时处理嵌套论元和多个事件的挑战。
  • 我们在两个广泛使用的DEE数据集上进行实验。实验结果表明,CLIO算法优于以往的方法,在面对DEE的关键挑战时有明显的改善。


2、方法

image.png

640.png

2.1 编码

image.png

2.2 角色交互的多事件头注意力

在这一步中,目标是同时解决嵌套论元和多个事件的挑战。我们比较了每种事件类型下的角色嵌入和词嵌入,并选择具有较高语义重叠的角色词对作为论元抽取结果。我们首先考虑单个事件类型,然后将其扩展到所有事件类型。

角色交互事件注意力:在每种事件类型中,我们测量每个角色-词对之间的关联程度。我们首先将单词和角色的原始d维特征通过两个完全连接的层投射到更小的d维中:

image.png

640.png

image.png

2.3 多事件抽取

image.png

image.png

2.4 事件表征增强

我们发现上述阶段的语言建模产生了各向异性的词嵌入。因此,我们应用事件内对比学习,通过正则化预训练的嵌入空间,使其更具各向同性来增强事件表示。在DEE中,我们需要让每个角色更接近它的论元(正例),同时让每个角色远离其他单词(负例)。给定一个角色,有多个论元,也就是说,有不止一个正例。

image.png

2.5 联合训练

image.png


3、实验


数据集:WikiEvents、RAMS。

评估指标:precision、recall、F1.

baseline:BERT-CRF、SpanSel、Head-Expand、BERT-Gen、DocMRC。

主要结果

640.png

640.png

结论:1、CLIO能够准确地抽取嵌套论元。2、CLIO能处理复杂多事件场景。


4、总结


本文提出了一种面向DEE的角色交互多事件头注意力网络(CLIO)。通过将不同的事件映射到多个子空间,我们将DEE分解为多个子步骤,以处理嵌套的论元和多个事件。为了进一步优化事件表示,我们应用事件表示增强策略来正则化预训练的嵌入空间,使其更加各向同性。实验结果表明,CLIO算法的性能明显优于以往的方法,特别是在面对DEE的特定挑战时。在未来的工作中,我们希望探索特定于事件的高级词汇表示。

相关文章
|
2月前
|
机器学习/深度学习 编解码 计算机视觉
【APFN】从大佬论文中探索如何分析改进金字塔网络
【APFN】从大佬论文中探索如何分析改进金字塔网络
45 0
|
1月前
|
Linux Shell 网络安全
【Shell 命令集合 网络通讯 】Linux 与SMB服务器进行交互 smbclient命令 使用指南
【Shell 命令集合 网络通讯 】Linux 与SMB服务器进行交互 smbclient命令 使用指南
52 1
|
4天前
|
安全 JavaScript 前端开发
第十六届山东省职业院校技能大赛中职组 “网络安全”赛项竞赛试题—B模块安全事件响应/网络安全数据取证/应用安全
该内容描述了一次网络安全演练,包括七个部分:Linux渗透提权、内存取证、页面信息发现、数字取证调查、网络安全应急响应、Python代码分析和逆向分析。参与者需在模拟环境中收集Flag值,涉及任务如获取服务器信息、提权、解析内存片段、分析网络数据包、处理代码漏洞、解码逆向操作等。每个部分都列出了若干具体任务,要求提取或生成特定信息作为Flag提交。
8 0
|
4天前
|
安全 测试技术 网络安全
2024年山东省职业院校技能大赛中职组 “网络安全”赛项竞赛试题-C安全事件响应/网络安全数据取证/应用安全
B模块涵盖安全事件响应和应用安全,包括Windows渗透测试、页面信息发现、Linux系统提权及网络安全应急响应。在Windows渗透测试中,涉及系统服务扫描、DNS信息提取、管理员密码、.docx文件名及内容、图片中单词等Flag值。页面信息发现任务包括服务器端口、主页Flag、脚本信息、登录成功信息等。Linux系统渗透需收集SSH端口号、主机名、内核版本,并实现提权获取root目录内容和密码。网络安全应急响应涉及删除后门用户、找出ssh后门时间、恢复环境变量文件、识别修改的bin文件格式及定位挖矿病毒钱包地址。
9 0
|
4天前
|
安全 测试技术 Linux
2024年山东省职业院校技能大赛中职组 “网络安全”赛项竞赛试题-A模块安全事件响应/网络安全数据取证/应用安全
该内容描述了一个网络安全挑战,涉及Windows和Linux系统的渗透测试以及隐藏信息探索和内存取证。挑战包括使用Kali Linux对Windows Server进行服务扫描、DNS信息提取、密码获取、文件名和内容查找等。对于Linux系统,任务包括收集服务器信息、提权并查找特定文件内容和密码。此外,还有对Server2007网站的多步骤渗透,寻找登录界面和页面中的隐藏FLAG。最后,需要通过FTP获取win20230306服务器的内存片段,从中提取密码、地址、主机名、挖矿程序信息和浏览器搜索关键词。
7 0
|
4天前
|
安全 测试技术 网络安全
2024年甘肃省职业院校技能大赛中职组 “网络安全”赛项竞赛样题-C模块安全事件响应/网络安全数据取证/应用安全
涉及安全事件响应和应用安全测试。需使用Kali对Windows Server2105进行渗透测试,包括服务扫描、DNS信息提取、管理员密码、文件名与内容、图片中单词等。另外,需收集win20230305的服务器端口、页面信息、脚本、登录后信息等。在Linux Server2214上,要获取SSH端口、主机名、内核版本并进行提权操作。网络安全响应针对Server2228,涉及删除后门用户、查找SSH后门时间、恢复环境变量、识别篡改文件格式和矿池钱包地址。最后,对lin20230509进行网站渗透,获取端口号、数据库服务版本、脚本创建时间、页面路径、内核版本和root目录下的flag文件内容
6 0
|
11天前
|
Android开发 开发者
Android网络和数据交互: 请解释Android中的AsyncTask的作用。
Android's AsyncTask simplifies asynchronous tasks for brief background work, bridging UI and worker threads. It involves execute() for starting tasks, doInBackground() for background execution, publishProgress() for progress updates, and onPostExecute() for returning results to the main thread.
11 0
|
11天前
|
网络协议 安全 API
Android网络和数据交互: 什么是HTTP和HTTPS?在Android中如何进行网络请求?
HTTP和HTTPS是网络数据传输协议,HTTP基于TCP/IP,简单快速,HTTPS则是加密的HTTP,确保数据安全。在Android中,过去常用HttpURLConnection和HttpClient,但HttpClient自Android 6.0起被移除。现在推荐使用支持TLS、流式上传下载、超时配置等特性的HttpsURLConnection进行网络请求。
10 0
|
17天前
|
JavaScript Java 测试技术
基于Java的网络类课程思政学习系统的设计与实现(源码+lw+部署文档+讲解等)
基于Java的网络类课程思政学习系统的设计与实现(源码+lw+部署文档+讲解等)
30 0
基于Java的网络类课程思政学习系统的设计与实现(源码+lw+部署文档+讲解等)
|
1月前
|
Cloud Native 安全 网络安全
构建未来:云原生架构在企业数字化转型中的关键角色网络安全与信息安全:防御前线的关键技术
【2月更文挑战第30天】 随着数字转型的浪潮席卷各行各业,企业正寻求更加灵活、可扩展的解决方案以适应不断变化的市场需求。本文将深入探讨云原生架构如何成为支持这一转型的核心技术,分析其优势和挑战,并提出实施策略。云原生技术的采用不仅加速了开发过程,还提供了自动化运维、弹性伸缩等特性,为企业带来了前所未有的敏捷性和效率。然而,迁移至云原生架构也伴随着技术复杂性增加和安全风险的挑战。文章最后,我们将提供一系列最佳实践,帮助企业在采纳云原生技术的过程中规避风险,实现持续创新。 【2月更文挑战第30天】 在数字化时代,数据成为核心资产,而网络安全与信息安全则是维护这些资产不可或缺的屏障。本文深入探讨了