【论文精读】COLING 2022 - CLIO: 用于文档级事件抽取的角色交互多事件头注意力网络

简介: 【论文精读】COLING 2022 - CLIO: 用于文档级事件抽取的角色交互多事件头注意力网络

【论文原文】:CLIO: Role-interactive Multi-event Head Attention Network for Document-level Event Extraction

【作者信息】:Ren, Yubing and Cao, Yanan and Fang, Fang and Guo, Ping and Lin, Zheng and Ma, Wei and Liu, Yi

论文:https://aclanthology.org/2022.coling-1.221.pdf
代码:-

博主关键词:事件抽取,对比学习,特征融合

推荐论文:无

640.png

摘要


将网络上的大量非结构化文本转换为结构化事件知识是NLP的一个关键但尚未解决的目标,特别是在处理文档级文本时。现有的方法在文档级事件抽取(DEE)中仍十分困难,因为它有两个内在的挑战:(a)嵌套论元,这意味着一个论元是另一个论元的子字符串。(b)多个事件,这表明我们应该确定多个事件并为它们集合论元。在本文中,我们提出了一个角色交互的多事件头注意力网络(CLIO)来共同解决这两个挑战。关键思想是将不同的事件映射到多个子空间(即多事件头)。在每个事件子空间中,我们将每个角色的语义表示为更接近其对应的论元,然后确定当前事件是否存在。为了进一步优化事件表示,我们提出了一种事件表示增强策略,将预训练的嵌入空间正则化,使其更加各向同性。我们在两个广泛使用的DEE数据集上的实验表明,CLIO比以前的方法取得了一致的改进。


1、简介


文档级事件抽取(DEE)与SEE相比,文本长度的增加带来了更多的挑战,DEE仍然表现不佳。

最近,研究人员对DEE投入越来越多的经历。他们的工作可以大致分为基于分类的模型(Zhang et al, 2020; Xu et al, 2021; Huang and Jia, 2021; Huang and Peng, 2021),基于标记的模型(Yang et al, 2018; Du and Cardie, 2020),以及基于生成的模型(Li et al, 2021; Y ang et al, 2021; Du et al, 2021)。最先进的方法(Liu et al, 2021)将DEE框架为机器阅读理解任务,由两种数据增强机制辅助。尽管学者们在DEE方面做了很多有价值的尝试,但目前的方法在DEE方面仍然面临着以下关键的挑战:

嵌套论元:在文档中,有许多嵌套论元(即一个论元是另一个论元的子字符串),它们属于不同的角色。图1给出了一个例子。在Transportation事件中,truck(扮演着Origin角色),Ryder truck(扮演着Vehicle角色),是一个嵌套事件论元。根据我们的统计,在WikiEvents (Li et al, 2021)和RAMS (Ebner et al, 2020)数据集中,分别有14.23%和13.94%的文档有嵌套论元。不幸的是,传统的基于标记的方法不能完全识别这些嵌套论元,这些方法不能为一个token分配多个标签。

640.png

多个事件:如图1所示,单个文档中有三种事件:TransportationExchangeBuySellMeet,DEE不仅应该标识所有事件,还应该为相应的事件分配论元。多个事件的问题在DEE中很常见(WikiEvents中86.88%的文档涉及多个事件)。更重要的是,这些事件的论元均匀地分散在句子中,很难实现准确的论点组合。以往的作品通常采用固定的文档表示来检测所有事件类型。但是,不同的事件类型有不同的角色和论元,文档表示的重点也应该不同。

对于通常属于不同角色的嵌套论元,直觉上我们应该为每个角色独立抽取论元。假设一个事件中有个角色,我们可以通过标记每个角色下的论元来执行个独立的抽取。这样可以同时识别角色Origin的论元子串truck和角色Vehicle的论元Ryder truck。要解决多个事件的挑战,一种直观的方法是独立检测每个事件类型并为其组装论元。对于一种事件类型,由于角色的减少,论元抽取可以更简单。相反,使用特定于此事件类型的角色信息可以更好地检测当前事件类型。我们认为,这两个挑战可以通过将每个事件类型映射到特定的子空间来共同解决

类似于多头注意力(Vaswani et al, 2017),我们为DEE提出了一个角色交互的多事件头注意力网络(CLIO)。CLIO中最关键的部分是角色交互的多事件头注意力模块,它可以共同解决上述两个挑战。首先,我们的注意力模块以角色为中心的方式工作。也就是说,对于每个角色,我们独立地抽取其所有对应的论元。这样可以为一个token分配多个角色标签,很好地解决了论元嵌套的问题。其次,我们的注意力模块通过将每个事件类型映射到每个事件头来为每个事件类型分配子空间。通过这种方式,我们可以独立地检测每个事件类型并为其组装论元,这可以解决多个事件的挑战。在每个事件头中,我们使用特定于此事件的角色信息来表示文档。这种特定于事件的文档表示减轻了从单个文档检测多个事件的困难。

综上所述,我们的贡献如下:

  • 我们提出了一个角色交互的多事件头注意力网络,以同时处理嵌套论元和多个事件的挑战。
  • 我们在两个广泛使用的DEE数据集上进行实验。实验结果表明,CLIO算法优于以往的方法,在面对DEE的关键挑战时有明显的改善。


2、方法

image.png

640.png

2.1 编码

image.png

2.2 角色交互的多事件头注意力

在这一步中,目标是同时解决嵌套论元和多个事件的挑战。我们比较了每种事件类型下的角色嵌入和词嵌入,并选择具有较高语义重叠的角色词对作为论元抽取结果。我们首先考虑单个事件类型,然后将其扩展到所有事件类型。

角色交互事件注意力:在每种事件类型中,我们测量每个角色-词对之间的关联程度。我们首先将单词和角色的原始d维特征通过两个完全连接的层投射到更小的d维中:

image.png

640.png

image.png

2.3 多事件抽取

image.png

image.png

2.4 事件表征增强

我们发现上述阶段的语言建模产生了各向异性的词嵌入。因此,我们应用事件内对比学习,通过正则化预训练的嵌入空间,使其更具各向同性来增强事件表示。在DEE中,我们需要让每个角色更接近它的论元(正例),同时让每个角色远离其他单词(负例)。给定一个角色,有多个论元,也就是说,有不止一个正例。

image.png

2.5 联合训练

image.png


3、实验


数据集:WikiEvents、RAMS。

评估指标:precision、recall、F1.

baseline:BERT-CRF、SpanSel、Head-Expand、BERT-Gen、DocMRC。

主要结果

640.png

640.png

结论:1、CLIO能够准确地抽取嵌套论元。2、CLIO能处理复杂多事件场景。


4、总结


本文提出了一种面向DEE的角色交互多事件头注意力网络(CLIO)。通过将不同的事件映射到多个子空间,我们将DEE分解为多个子步骤,以处理嵌套的论元和多个事件。为了进一步优化事件表示,我们应用事件表示增强策略来正则化预训练的嵌入空间,使其更加各向同性。实验结果表明,CLIO算法的性能明显优于以往的方法,特别是在面对DEE的特定挑战时。在未来的工作中,我们希望探索特定于事件的高级词汇表示。

相关文章
|
2月前
|
机器学习/深度学习 人工智能
类人神经网络再进一步!DeepMind最新50页论文提出AligNet框架:用层次化视觉概念对齐人类
【10月更文挑战第18天】这篇论文提出了一种名为AligNet的框架,旨在通过将人类知识注入神经网络来解决其与人类认知的不匹配问题。AligNet通过训练教师模型模仿人类判断,并将人类化的结构和知识转移至预训练的视觉模型中,从而提高模型在多种任务上的泛化能力和稳健性。实验结果表明,人类对齐的模型在相似性任务和出分布情况下表现更佳。
69 3
|
2月前
|
机器学习/深度学习 数据可视化 测试技术
YOLO11实战:新颖的多尺度卷积注意力(MSCA)加在网络不同位置的涨点情况 | 创新点如何在自己数据集上高效涨点,解决不涨点掉点等问题
本文探讨了创新点在自定义数据集上表现不稳定的问题,分析了不同数据集和网络位置对创新效果的影响。通过在YOLO11的不同位置引入MSCAAttention模块,展示了三种不同的改进方案及其效果。实验结果显示,改进方案在mAP50指标上分别提升了至0.788、0.792和0.775。建议多尝试不同配置,找到最适合特定数据集的解决方案。
688 0
|
23天前
|
人工智能 自然语言处理
WebDreamer:基于大语言模型模拟网页交互增强网络规划能力的框架
WebDreamer是一个基于大型语言模型(LLMs)的网络智能体框架,通过模拟网页交互来增强网络规划能力。它利用GPT-4o作为世界模型,预测用户行为及其结果,优化决策过程,提高性能和安全性。WebDreamer的核心在于“做梦”概念,即在实际采取行动前,用LLM预测每个可能步骤的结果,并选择最有可能实现目标的行动。
52 1
WebDreamer:基于大语言模型模拟网页交互增强网络规划能力的框架
|
22天前
|
存储 人工智能
从零到一打造知识网络:你选对文档软件了吗?
在信息爆炸时代,学术工作者面临高效管理知识的挑战。传统文档管理软件难以满足“知识动态积累”与“多领域交叉”的需求。动态结构化看板通过多维度卡片化管理,以标签、层级和网状关联方式动态呈现文档和笔记,实现知识的系统化整合。例如多维标签系统和文档流动视图,能够帮助快速检索和关联资料,成为学术研究的“第二大脑”。
|
2月前
|
机器学习/深度学习 Web App开发 人工智能
轻量级网络论文精度笔(一):《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》
《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》这篇论文提出了一种基于YOLOv3-Tiny的轻量级目标检测模型Micro-YOLO,通过渐进式通道剪枝和轻量级卷积层,显著减少了参数数量和计算成本,同时保持了较高的检测性能。
43 2
轻量级网络论文精度笔(一):《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》
|
2月前
|
机器学习/深度学习 编解码 算法
轻量级网络论文精度笔记(三):《Searching for MobileNetV3》
MobileNetV3是谷歌为移动设备优化的神经网络模型,通过神经架构搜索和新设计计算块提升效率和精度。它引入了h-swish激活函数和高效的分割解码器LR-ASPP,实现了移动端分类、检测和分割的最新SOTA成果。大模型在ImageNet分类上比MobileNetV2更准确,延迟降低20%;小模型准确度提升,延迟相当。
75 1
轻量级网络论文精度笔记(三):《Searching for MobileNetV3》
|
2月前
|
监控 安全 Linux
网络安全事件应急响应
应急响应是针对网络安全事件的快速处理流程,包括信息收集、事件判断、深入分析、清理处置、报告产出等环节。具体步骤涵盖准备、检测、抑制、根除、恢复和总结。
|
2月前
|
编解码 人工智能 文件存储
轻量级网络论文精度笔记(二):《YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object ..》
YOLOv7是一种新的实时目标检测器,通过引入可训练的免费技术包和优化的网络架构,显著提高了检测精度,同时减少了参数和计算量。该研究还提出了新的模型重参数化和标签分配策略,有效提升了模型性能。实验结果显示,YOLOv7在速度和准确性上超越了其他目标检测器。
54 0
轻量级网络论文精度笔记(二):《YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object ..》
|
4月前
|
网络协议
|
4月前
|
监控 负载均衡 API
下一篇
DataWorks