Joint Information Extraction with Cross-Task and Cross-Instance High-Order Modeling 论文解读

简介: 先前的信息抽取(IE)工作通常独立地预测不同的任务和实例(例如,事件触发词、实体、角色、关系),而忽略了它们的相互作用,导致模型效率低下。

Joint Information Extraction with Cross-Task and Cross-Instance High-Order Modeling(基于跨任务和跨实例高阶建模的联合信息抽取)



论文:[2212.08929] Joint Information Extraction with Cross-Task and Cross-Instance High-Order Modeling (arxiv.org)


代码:JZXXX/High-order-IE (github.com)


期刊/会议:Arxiv


摘要


先前的信息抽取(IE)工作通常独立地预测不同的任务和实例(例如,事件触发词、实体、角色、关系),而忽略了它们的相互作用,导致模型效率低下。在这项工作中,我们引入了一个联合IE框架HighIE,它通过集成高阶跨任务和跨实例依赖来学习和预测多个IE任务。具体来说,我们设计了两类高阶因子:同质因子(homogeneous factors)和异质因子(heterogeneous factors)。然后利用这些因子联合预测所有实例的标签。为了解决精确高阶推理的棘手问题,我们结合了一个从平均场变分(mean-field variational)推理方法展开的高阶神经解码器。实验结果表明,与我们的基线和之前的工作相比,我们的方法在三个IE任务上取得了一致的改进。


1、简介


传统的IE方案通常有两个主要问题。首先,大多数方法分别处理不同的IE任务,而忽略了跨任务依赖关系。这种孤立的学习方案导致知识获取严重不足,模型构建效率低下。从直觉和经验上,预测不同的IE任务能够相互影响:实体类型可以提供对预测它们之间的关系或限制它们在某些事件中扮演的角色有用的信息;两个实体之间的关系将限制实体的类型。例如,在图1中,由PART-WHOLE关系链接的两个实体更有可能共享相同的实体类型;事件Life:Die和实体PER的知识有利于角色Victim的预测。


其次,尽管最近的成功证明了利用跨任务信息和多任务学习方案的显著改进,但预测方法仅基于局部分类器,而没有考虑跨实例交互(例如,事件触发词、实体、角色、关系)。例如,Luan等人(2018)提出使用多任务学习的共享编码器;Luan et al (2019a);Wadden等人(2019)根据局部特定于任务的预测更新共享跨度表示;Lin等人(2020a)设计了模板,在训练过程中生成全局特征作为约束。然而,这些工作只是在特性级别上利用交互,并没有显式地建模不同实例之间的相关性,并在推理中利用它们。最近的一些工作研究了不同IE任务的联合推理(特别是联合实体和关系抽取)或在神经网络内整合逻辑规则来约束解码(Wang and Pan, 2020,2021)。然而,这些方法是为特定的IE设置的,很难推广到其他任务。


e994c7331db8493381661f4ed8fbaebe.png


考虑到前面提到的两个重要限制,我们提出了一个新的联合IE框架,High-Order Information Extraction(HighIE),它通过高阶交互显式地模拟IE任务和实例之间的交互。在这项工作中,术语“高阶(high-order)”通常是指在相同或不同任务中连接两个或多个相关实例的评分因素。


具体来说,我们在三个被广泛探索的IE任务上演示了我们提出的高阶框架的有效性:实体识别(EntR)、关系抽取(RelE)和事件抽取(EventE)。为了模拟这些任务之间的联合交互,我们设计了两类高阶因子:同质因子(homo)表示同一任务实例之间的相关性,异质因子(hete)表示不同任务实例之间的相关性。以EntR和EventE为例,计算了角色-角色对(homo)和触发词-角色-实体三元组(hete)的相关得分。我们利用这些分数来联合预测所有实例的标签。由于精确的高阶推理在解析上是难以处理的,我们结合了一个从近似平均场变分推理方法展开的神经解码器。


我们强调了HighIE的主要好处和贡献。首先也是最直接的,与之前最先进的模型相比,HighIE在单个IE任务上实现了更好的性能。其次,我们设计了两类高阶因子,可以在训练和推理过程中结合跨任务和跨实例交互。第三,我们提出的高阶框架可以很容易地推广到任何其他跨关系图预测任务,如框架语义解析和意见角色标记。


2、高阶信息抽取


2.1 联合信息抽取作为图预测


我们调查了三个被广泛探索的IE任务。


  • EntR旨在将句子中的一些span标识为实体,并标记其实体类型。
  • RelE旨在识别一些实体对之间的关系并标记它们的关系类型。
  • EventE旨在标记事件类型及其触发词,将一些实体标识为事件论元并标记论元角色。


我们将这三个IE任务描述为一个图G = ( V , E ) 预测任务,其中V 表示表示预测文本实体或触发词的节点集,E表示表示节点依赖关系的有向边集。每个节点v = ( a , b , l ) ∈ V 是一个触发器或实体的span,其中a 和b是span的起始词和结束词,l ∈ L e v e n t 或l ∈ L e n t i t y 分别表示节点的事件类型和实体类型。每条边e i j = ( i , j , r ) ∈ E表示节点对之间的关系,其中i 和j表示头尾节点,r ∈ R r o l e 或r ∈ R r e l a t i o n 表示边标签,当边从触发词到实体(作为论元)时是角色类型,当边从一个实体到另一个实体时是关系类型。


图2(A)描述了HighIE的整体架构。由于联合识别和分类需要将所有可能的跨度枚举为节点,在这种情况下,与节点数相关的高阶推理的计算量太大,因此我们首先使用节点识别模块将输入句子中的跨度识别为图节点。然后,我们设计了一个分类模块来预测(i)每个节点的标签和(ii)每个节点对之间的边的标签,其中我们使用一个特殊的NULL标签来表示不存在边。我们的分类模块通过设计同质和异构的高阶因子,集成了跨实例(例如,RelE上的一对关系)和跨任务(例如,EntR和EventE)相关性。注意,分类模块需要标识节点作为输入,所以我们先训练节点标识模块,然后在分类模块的后续训练中修复它。


c619c18174954beb91328652a36d786a.png


结点识别模块:继之前的工作(Lample et al, 2016a;Lin等人,2020a),我们将节点识别制定为带有BIO方案的序列标记任务。对于单词特征,我们采用预训练的基于transformer的编码器,如BERT (Devlin et al, 2018)。我们使用从编码器中抽取的所有子词嵌入的平均值作为单词表示。解码器被表述为普通线性链条件随机场(CRF) (Lafferty et al, 2001)。具体来说,我们使用Viterbi算法(Forney, 1973)获得得分最高的序列,然后在最优输出序列中选取单词间标记为B-X和I-X的跨度作为预测节点集。更多细节可以在附录a中找到。遵循先前的工作,我们没有考虑词嵌套片段。


分类模块:该分类模块不再使用局部分类器独立预测每个节点和边缘,而是使用高阶交互和联合推理来预测节点标签和边缘标签。我们将在以下小节中描述我们的高阶分类模块。


2.2 高阶建模


图2(B)说明了我们的分类模块下的因子图。通常,我们设计三类因素:反映每个变量标签的似然分布的一元因子(unary factors);端点相同的边对的二元因子(binary factors);边的三元因子(ternary factors),头节点和尾节点。因子的势函数定义为对应分数的指数,即ϕ ( X ) = e x p ( s X ) 。我们详细讨论评分函数如下。


image.png


二元得分:我们计算共享一个端点的每个边对的二元相关分数。如图2(A)所示,有三种类型的二元因子(Wang et al, 2019b):边e i j 和边e i k 共享头节点v i  ,产生兄弟(sib);边e j k 和边e i k 共享尾节点v k ,产生共父结点(cop);边e i j 的尾节点v j  是边e j k  的头节点,产生祖父结点(gp)。对于每种特定类型的二元因子,我们使用不同的单层FNN,以z作为输入,为每个节点计算头表示(-s)和尾表示(-e)。对于gp因子,我们为每个节点额外计算一个中间表示(-mid)。


image.png


sib对{ e i j , e i , k } ,cop对{ e i k , e j k } ,gp对{ e i j , e j k } ,设第一个边的标签为m ∈ R 1 ,第二个边的标签为n ∈ R 2 ,则二元分数公式如下:


image.png


三元得分:我们计算一条边和它的两个端点的三元相关分数。图2(B)说明了三元因子。类似于二元评分,我们使用两个新的FNN分别为每个可能的头节点和尾节点生成表示。


image.png


对于标记为m ∈ R 的边,其头节点v i 标记为p ∈ L s ,尾节点v j 标记为q ∈ L e  ,则三元分值可计算为:


image.png


2.3 高阶推理


与一阶推理通过最大化其一元得分来独立预测每个变量的值不同,在高阶推理中,我们联合预测所有变量的值以最大化其一元得分的和高阶得分。然而,我们的因子图上的确切联合推断通常是np难的。因此,我们使用平均场变分推理(MFVI) (Xing et al, 2012)进行近似推理。MFVI迭代更新每个变量X 的近似后验边际分布Q ( X ),该分布基于与之相关的所有因素的消息。由二元因子聚合的边缘变量的消息计算如下:


image.pngimage.png


由三元因子聚合的节点变量和边缘变量的消息计算如下:


image.png


后验Q ( X ) 根据以下消息进行更新:


image.png


迭代MFVI更新有两种方式。在同步更新中,我们在每一步更新所有变量的Q ( X ) 。在异步更新中,我们在节点变量和边缘变量之间交替进行Q ( X ) 更新。我们通过经验发现,在某些情况下,使用三元因子时,异步更新比同步更新更好。


受Zheng et al(2015)的启发;Wang等(2019b),迭代更新步骤可以展开为由一元和高阶分数参数化的循环神经网络层。初始分布Q ( 0 ) 由归一化的指数一元分数设置。在一个固定的T (这是一个超参数)迭代次数之后,我们得到后验分布Q ( T ) 。对于每个变量,我们根据Q ( T ) 选择概率最高的标签作为我们的预测。


2.4 多任务训练


给定一个句子w = ( w 1 , … , w k ) ,为了使用统一的高阶分离关系预测框架训练多个IE任务,我们采用交叉熵损失进行多任务学习,方法如下:


image.png


因此,在MFVI中计算后验的过程是完全可微的,可以被视为一个循环神经网络。我们能够实施端到端训练。


3、实验


数据集:ACE2005。


评估:F1。


85c1e8e1bf484277a5f7dc6d6c08ffc7.png

92678830ee1445abad90dc65a1da7e7a.png


3b03ee23bba847eb9cc4b9bb8022f789.png

27b71caa08024e6ab8923f0d29f826d8.png

6463215f2a084a35b8bc3059074bf03c.png

5a212c5ad1704a86bc9c81b5b8eaa27e.png

67d981c8627242a291cae1560e55fdc7.png


fd6227e5b12c4904afa5c110ff4122da.png


4、总结


在本文中,我们提出了一个新的框架,在训练和推理过程中利用不同实例和不同IE任务之间的高阶交互。我们将IE任务表述为一个统一的图预测问题。我们的框架包括一个识别模块,将跨度识别为图节点,以及一个具有高阶建模和推理的分类模块,共同标记所有节点和边。实验结果表明,我们的高阶方法比之前的方法有了持续的改进。我们工作的局限性在于很难确定不同类型的高阶因子的最佳组合。我们将自动选择有用因素作为今后的工作方向。

目录
相关文章
|
6月前
|
机器学习/深度学习 算法 关系型数据库
Hierarchical Attention-Based Age Estimation and Bias Analysis
【6月更文挑战第8天】Hierarchical Attention-Based Age Estimation论文提出了一种深度学习方法,利用层次注意力和图像增强来估计面部年龄。通过Transformer和CNN,它学习局部特征并进行序数分类和回归,提高在CACD和MORPH II数据集上的准确性。论文还包括对种族和性别偏倚的分析。方法包括自我注意的图像嵌入和层次概率年龄回归,优化多损失函数。实验表明,该方法在RS和SE协议下表现优越,且在消融研究中验证了增强聚合和编码器设计的有效性。
47 2
|
7月前
|
机器学习/深度学习 数据挖掘 Python
[Bart]论文实现:Denoising Sequence-to-Sequence Pre-training for Natural Language Generation...
[Bart]论文实现:Denoising Sequence-to-Sequence Pre-training for Natural Language Generation...
54 0
|
机器学习/深度学习 人工智能 自然语言处理
OneIE:A Joint Neural Model for Information Extraction with Global Features论文解读
大多数现有的用于信息抽取(IE)的联合神经网络模型使用局部任务特定的分类器来预测单个实例(例如,触发词,关系)的标签,而不管它们之间的交互。
197 0
|
算法 计算机视觉 知识图谱
ACL2022:A Simple yet Effective Relation Information Guided Approach for Few-Shot Relation Extraction
少样本关系提取旨在通过在每个关系中使用几个标记的例子进行训练来预测句子中一对实体的关系。最近的一些工作引入了关系信息
131 0
|
机器学习/深度学习 移动开发 自然语言处理
DEPPN:Document-level Event Extraction via Parallel Prediction Networks 论文解读
当在整个文档中描述事件时,文档级事件抽取(DEE)是必不可少的。我们认为,句子级抽取器不适合DEE任务,其中事件论元总是分散在句子中
136 0
DEPPN:Document-level Event Extraction via Parallel Prediction Networks 论文解读
|
存储 机器学习/深度学习 人工智能
PTPCG: Efficient Document-level Event Extraction via Pseudo-Trigger-aware Pruned Complete Graph论文解读
据我们所知,我们目前的方法是第一项研究在DEE中使用某些论元作为伪触发词的效果的工作,我们设计了一个指标来帮助自动选择一组伪触发词。此外,这种度量也可用于度量DEE中带标注触发词的质量。
131 1
|
自然语言处理 算法 知识图谱
DEGREE: A Data-Efficient Generation-Based Event Extraction Model论文解读
事件抽取需要专家进行高质量的人工标注,这通常很昂贵。因此,学习一个仅用少数标记示例就能训练的数据高效事件抽取模型已成为一个至关重要的挑战。
165 0
|
机器学习/深度学习 自然语言处理 算法
TPLinker: Single-stage Joint Extraction of Entities and Relations Through Token Pair Linking 论文解读
近年来,从非结构化文本中提取实体和关系引起了越来越多的关注,但由于识别共享实体的重叠关系存在内在困难,因此仍然具有挑战性。先前的研究表明,联合学习可以显著提高性能。然而,它们通常涉及连续的相互关联的步骤,并存在暴露偏差的问题。
223 0
|
机器学习/深度学习 存储 数据挖掘
Global Constraints with Prompting for Zero-Shot Event Argument Classification 论文解读
确定事件论元的角色是事件抽取的关键子任务。大多数以前的监督模型都利用了昂贵的标注,这对于开放域应用程序是不实际的。
74 0
|
机器学习/深度学习 自然语言处理 索引
GTEE-DYNPREF: Dynamic Prefix-Tuning for Generative Template-based Event Extraction 论文解读
我们以基于模板的条件生成的生成方式考虑事件抽取。尽管将事件抽取任务转换为带有提示的序列生成问题的趋势正在上升,但这些基于生成的方法存在两个重大挑战
148 0