【论文精读】AAAI 2022 - OneRel Joint Entity and Relation Extraction with One Module in One Step

简介: 联合实体和关系提取是自然语言处理和知识图构建中的一项重要任务。现有的方法通常将联合提取任务分解为几个基本模块或处理步骤,以使其易于执行

【论文精读】AAAI 2022 - OneRel: Joint Entity and Relation Extraction with One Module in One Step


【论文原文】:OneRel: Joint Entity and Relation Extraction with One Module in One Step


【作者信息】:Shang, Yu-Ming and Huang, Heyan and Mao, Xianling


论文:https://arxiv.org/pdf/2203.05412v1.pdf
代码:https://github.com/China-ChallengeHub/OneRel


博主关键词:关系抽取,联合抽取


推荐论文:TPLinker,CasRel,W2NER,OneEE


摘要


联合实体和关系提取是自然语言处理和知识图构建中的一项重要任务。现有的方法通常将联合提取任务分解为几个基本模块或处理步骤,以使其易于执行。然而,这样的范式忽略了一个事实,即三元组的三个元素是相互依存和不可分割的。因此,以前的联合方法存在级联错误和冗余信息的问题。为了解决这些问题,在本文中,我们提出了一种新的联合实体和关系提取模型OneRel,该模型将联合提取视为一个细粒度的三元组分类问题。具体来说,我们的模型由一个基于评分的分类器和一个特定关系的horns tagging策略组成。前者评估token对和关系是否属于真实三元组。后者确保了一个简单但有效的解码过程。在两个广泛使用的数据集上的大量实验结果表明,所提出的方法比最先进的基线性能更好,并且在各种重叠模式和多个三元组的复杂场景中提供了一致的性能增益。


1、简介


传统的实体和关系抽取存在错误级联的问题,所以近些年血多研究都在构建一个统一的模型来实现实体和关系联合抽取。为了使复杂的任务易于执行,现有的研究通常将联合提取分解为几个基本模块或处理步骤(Yu et al 2020;Zhao et al 2021b)。如图1所示,根据三元素的提取过程,这些方法分为两类:多模块多步骤和多模块单步骤。第一类使用不同的模块框架的级联分类框架(Fu, Li, and Ma 2019; Yuan et al 2020; Wei et al 2020; Zheng et al 2021; Zhao et al 2021a,b)或文本生成框架(Zeng et al 2018; Zeng, Zhang, and Liu 2020; Ye et al 2021),以逐步获得实体和关系。尽管这类模型很有前景,但由于早期步骤中的错误可能会影响后续步骤的预测结果,因此存在级联错误传播问题。第二类尝试分别识别实体和关系,然后根据它们的潜在相关性将它们组合成三元组(Wang et al 2020; Sui et al 2020; Wang et al 2021)。然而,由于在单独的识别过程中实体和关系之间的相互约束不足,这种方法往往会产生冗余信息,导致在组装三元组时出错(Zheng et al 2017)。


2f2a5fc0c8a84320a3e2ffaadcb20971.png


事实上,上述问题的根本原因是基于分解的范式忽略了三元组一个重要的性质,它的头实体、关系实体和尾实体是相互依存、不可分割的。换句话说,在没有充分感知其他两个元素的信息的情况下提取一个元素是不可靠的。为了填补这一空白,我们试图从三重分类的角度来完成联合提取任务。例如,如图1所示,“Bionico”和“Mexico”是句子中的两个词,Country是预定义的关系,所有这些都在训练数据中可见。直观地说,三元组(Bionico,Country,Mexico)可以通过判断其正确性来直接识别。这个想法带来了以下三个优点。首先,头部实体、关系和尾部实体被同时馈送到一个分类模块中,从而可以完全捕获三元素之间的依赖关系,从而减少冗余信息。其次,只使用一步分类,能够有效地避免级联错误。第三,一个模块一步到位的简单架构使网络变得简单且易于训练。


受上述思想的启发,本文提出了一种新的联合实体和关系提取模型OneRel,该模型能够用一个模块一步从非结构化文本中提取所有三元组。考虑到一个实体可能由多个token组成,我们设计了一个基于评分的分类器,并将联合提取任务转化为细粒度的三元组分类问题。具体而言,对于token对( w i , w j ) 和预定义的关系r k ,基于评分的分类器测量组合( w i , r k , w j ) 。为此,对于输入句子,OneRel的输出是三维矩阵,每个条目对应于( w i , r k , w j ) 的分类结果。为了准确有效地从输出矩阵中解码实体和关系,我们引入了一种新的特定关系horns tagging(简称Rel-Spec Horns Tagging)策略来确定头部实体和尾部实体的边界标记。在两个广泛使用的基准数据集上的实验结果证明,所提出的方法优于以前的方法,并达到了最先进的性能。


总的来说,本文的贡献如下:


  • 我们提供了一个新的视角,将联合提取转化为细粒度的三元组分类,使其能够同时捕获头部实体、关系和尾部实体的信息。


  • 根据我们的观点,我们引入了一种新的基于评分的分类器和Rel-Spec Horns Tagging策略。前者负责并行标记,而后者确保高效解码。


  • 我们在两个公共数据集上评估了我们的模型,结果表明,我们的方法比最先进的基线表现更好,尤其是在重叠三元组的复杂场景下。


2、相关工作


现有的联合方法根据其三元组提取过程可以大致分为两类:


第一类是多模块多步骤,它使用不同的模块和相互关联的处理步骤来连续提取实体和关系。例如,第一部工作首先识别句子中的所有实体,然后在每个实体对之间进行关系分类(Katiyar and Cardie 2017; Tan et al 2019; Fu, Li, and Ma 2019; Liu et al 2020). 第二部工作首先检测句子表达的关系,而不是保留所有多余的关系;然后预测头实体和尾实体(Zeng et al 2018; Yuan et al 2020; Zheng et al 2021; Ma, Ren, and Zhang 2021)。第三部工作首先区分所有的头实体,然后通过序列标记或问答推理出相应的关系和尾实体(Wei et al 2020; Yu et al 2020; Zhao et al 2021a,b; Ye et al 2021)。尽管取得了成功,但多模块多步骤方法仍存在级联错误的问题,因为早期步骤中的错误无法在后续步骤中纠正。


第二类是多模块一步,它并行地提取实体和关系,然后将它们组合成三元组。例如,Miwa and Bansal (2016); Zhang, Zhang, and Fu (2017); Wang et al (2020, 2021) 将实体识别和关系分类视为表格填充问题,其中每个条目代表两个单词之间的交互。Sui等人(2020)将联合提取任务公式化为集合预测问题,避免考虑多个三元组的预测顺序。然而,由于在单独的识别过程中实体和关系之间的相互约束不足,这种多模块一步方法无法完全捕捉预测的实体和关系间的依赖关系,导致在三重构建过程中存在冗余信息。


与现有的方法不同,在本文中,我们提出将联合提取任务视为一个细粒度的三元组分类问题,它能够以一个模块一步的方式从句子中提取三元组。因此,可以极大地解决上述级联错误和冗余信息。此外,经典模型Novel-Tagging(Zhang,Zhang,and Fu 2017)设计了一种复杂的标记策略来建立实体和关系之间的联系,并且还可以一步从句子中识别三元组。然而,这种技术不能处理重叠的情况,因为它假设每个实体对最多拥有一个关系。


3、方法


在本节中,我们首先给出任务的定义和符号。然后,我们介绍了我们的Rel-Spec Horns Tagging策略及其解码算法。最后,我们提供了基于评分的分类器的详细形式化。


3.1 任务定义


image.png


请注意,不同的三元组可能共享重叠的实体,这对联合提取任务构成了巨大挑战(Zeng et al 2018)。


3.2 Relation Specific Horns Tagging


image.png


标记:我们使用“BIE”(Begin,Inside,End)符号来指示token在实体中的位置信息。例如,“HB”表示头部实体的开始token,“TE”表示尾部实体的结束token。如图2(a)所示,对于一个表达三元组(New York City,Location in,New York State)的句子,在特定关系的子矩阵M r = Location in 中有九个特殊标签(蓝色标签)。


61170c1988034b4a93b1000c1f074df5.png


根据可以通过检测实体的边界token来确定实体的见解(Wei et al 2020),我们的标记策略中使用了四种类型的标记:(1)HB-TB。这个标签指的是这两个位置分别是以特定关系为条件的成对头部和尾部的开始标记。例如,“New York City”和“New York State”这两个实体之间存在一种关系,因此,组合的分类标签(“New”、“Located in”、“New”)被分配了标签“HB-TB”。(2) HB-TE。这个标签意味着行对应的token是头实体的开始,而列对应的token则是尾实体的结束。例如,“New”是“New York City”的开始标记,“State”是“New York State”的结束标记,因此(“New”,Location in ,“State”)的组合被赋予标签“HB-TE”。(3) HE-TE。这个标签与“HB-TB”有着相似的逻辑,这意味着两个位置分别是以特定关系为条件的成对头部实体和尾部实体的末端标记。例如,(“City”、Location in、“State")的组合被指定为“HE-TE”。(4) “-”. 除上述三种情况外的所有情况都将标记为“-”。正如我们从图2(b)和(c)中看到的那样,因为只有矩形的三个角需要标记,所以我们生动地将这种方法命名为Rel-Spec Horns Tagging。


显然,标记矩阵M MM是稀疏的,这具有以下优点:首先,在进行分类时,使用三个而不是九个特殊标签可以有效地缩小潜在的搜索空间。其次,稀疏的M MM意味着在训练过程中有足够的负样本。第三,M MM的稀疏性确保了三元解码的简单性和效率。


此外,我们的Rel-Spec Horns Tagging可以自然地解决具有重叠模式的复杂场景。具体来说,对于EntityPairOverlap(EPO)情况,实体对将根据它们的关系被标记在不同的子矩阵中。例如,在图2(a)和(b)中,(New York City,Location in,New York State)和(New York State,Contain,New York City)是两个EPO三元组,因此,这两个实体对分别标记为M r = Located in 和M r = Contains 。对于SingleEntityOverlap(SEO)场景,如果两个三元组包含相同的关系,那么这两个实体对将被标记在M r = i 的不同部分,否则它们将根据它们的关系被标记在不同的子矩阵中。对于最复杂的头尾重叠(HTO)模式,例如图2(c)中的三元组(New York City,City Name,New York),实体对(红色标签)位于M r = City name  的对角线附近,仍然可以很容易地解码。


解码:标记矩阵M L × K × L 标记成对的头部实体和尾部实体的边界token,以及它们之间的关系。因此,从M 中解码三元组变得简单明了。也就是说,对于每个关系,头部实体的跨度从“HB-TE”拼接到“HE-TE”;尾部实体的跨度从“HB-TB”拼接到“HB-TE”;两个配对实体共享相同的“HB-TE”。


3.3 基于得分的分类


对于输入句子,我们使用预先训练的BERT(Devlin et al. 2019)作为句子编码器来捕获每个token的D 维token嵌入e i


{ e 1 , e 2 , … , e L } = B E R T ( { x 1 , x 2 , … , x L } )                                                              (1)


其中x i是每个token的输入表示。它是对应的token嵌入和位置嵌入的总和。


然后,我们列举了所有可能的( e i , r k , e j )组合,并设计了一个分类器来分配高置信度标签,其中r k 是随机初始化的关系表示。直观地说,我们可以使用一个输入为( e i , r k , e j )的简单分类网络来实现这一目标。然而,这种直觉有两个缺陷:一方面,一个简单的分类器不仅无法充分探索实体和关系之间的相互作用,而且很难对三元组的固有结构信息进行建模。另一方面,使用( e i , r k , e j )作为输入意味着模型需要执行至少L × K × L的计算来对所有组合进行分类,这在时间上是不可接受的。


受知识图嵌入技术的启发,我们借用了HOLE(Nickel、Rosasco和Poggio,2016)的思想,其得分函数定义为:


image.png


其中h , t 分别是头和尾的表示,∗意思是循环相关性,用于挖掘两个实体之间的潜在相关性。在这里,我们重新定义∗ 运算符作为非线性级联投影:


image.png

image.png


4、实验


数据集:

ccf599bf38454aebafa6a651303e1142.png

实验结果:

49134d316f1b4f57a07b44728a35ac40.png

3be75f80108949e6a5b7ce75e78f9f2b.png


57f477fffae74fd79bc2d40b59b58e1a.png

8057a111a8004c4bbfcf3a08f105d776.png


49354501474047ff97758293587eeb02.png


5、总结


在本文中,我们提供了一个新的视角来将联合提取任务转化为细粒度的三元组分类问题,并提出了一种新的联合模型,该模型具有基于评分的分类器和Rel-Spec Horns Tagging策略,可以一步获得一个模块的三元组分类器,极大地缓解了级联错误和冗余信息的问题。在公共数据集上的实验表明,我们的模型在不同场景下的性能优于最先进的方法。


在未来,我们希望探索以下方向:


  • 为了提高模型的效率,我们设计了一个简化版的HOLE作为分数函数。接下来,我们将尝试设计一个更高效、更强大的评分函数,以进一步增强其捕捉实体和关系之间联系的能力。


  • 我们想在其他信息提取问题中探索三元组分类的想法,例如事件提取。


【论文速递 | 精选】


fcc8fa9f87404652beb9e08a0ac9652d.png


论坛地址:https://bbs.csdn.net/forums/paper


最近工作

目录
相关文章
|
5月前
|
存储 算法 计算机视觉
【博士每天一篇文献-模型】Meta-Learning Based Tasks Similarity Representation for Cross Domain Lifelong Learning
本文提出了一种基于元学习的跨域终身学习框架,通过跨域三元组网络(CDTN)学习任务间的相似性表示,并结合自注意模块与软注意网络(SAN)来增强特征提取和任务权重分配,以提高学习效率并减少对先前知识的遗忘。
52 1
【博士每天一篇文献-模型】Meta-Learning Based Tasks Similarity Representation for Cross Domain Lifelong Learning
|
机器学习/深度学习 人工智能 自然语言处理
OneIE:A Joint Neural Model for Information Extraction with Global Features论文解读
大多数现有的用于信息抽取(IE)的联合神经网络模型使用局部任务特定的分类器来预测单个实例(例如,触发词,关系)的标签,而不管它们之间的交互。
207 0
|
机器学习/深度学习 存储 自然语言处理
RAAT: Relation-Augmented Attention Transformer for Relation Modeling in Document-Level 论文解读
在文档级事件提取(DEE)任务中,事件论元总是分散在句子之间(跨句子问题),多个事件可能位于一个文档中(多事件问题)。在本文中,我们认为事件论元的关系信息对于解决上述两个问题具有重要意义,并提出了一个新的DEE框架
143 0
|
机器学习/深度学习 人工智能 自然语言处理
【论文精读】AAAI 2022 - Unified Named Entity Recognition as Word-Word Relation Classification
到目前为止,命名实体识别(NER)已经涉及三种主要类型,包括扁平、重叠(又名嵌套)和不连续NER,它们大多是单独研究的。
255 0
【论文精读】AAAI 2022 - Unified Named Entity Recognition as Word-Word Relation Classification
|
机器学习/深度学习 自然语言处理 算法
【论文精读】COLING 2022 -Event Detection with Dual Relational Graph Attention Networks
图神经网络(Scarselli et al, 2009)已被广泛用于编码事件检测的依赖树,因为它们可以基于信息聚合方案有效地捕获相关信息(Cao et al, 2021)。
192 0
|
机器学习/深度学习 自然语言处理
【论文精读】COLING 2022 - DESED: Dialogue-based Explanation for Sentence-level Event Detection
最近许多句子级事件检测的工作都集中在丰富句子语义上,例如通过多任务或基于提示的学习。尽管效果非常好,但这些方法通常依赖于标签广泛的人工标注
110 0
|
自然语言处理 算法 知识图谱
DEGREE: A Data-Efficient Generation-Based Event Extraction Model论文解读
事件抽取需要专家进行高质量的人工标注,这通常很昂贵。因此,学习一个仅用少数标记示例就能训练的数据高效事件抽取模型已成为一个至关重要的挑战。
172 0
|
机器学习/深度学习 自然语言处理 算法
Multimedia Event Extraction From News With a Unified Contrastive Learning Framework论文解读
从新闻中提取事件在下游应用程序中有很多好处。然而,今天的事件提取(EE)系统通常专注于单一的模态——无论是文本还是图像
199 0
|
算法
Single TPR论文解读
Single TPR是2015年提出来的,是基于TPR的进一步改进,TPR论文解读可以参考Topical PageRank(TPR)论文解读_Trouble…的博客-CSDN博客。
107 0
|
数据可视化 数据挖掘
【论文解读】Dual Contrastive Learning:Text Classification via Label-Aware Data Augmentation
北航出了一篇比较有意思的文章,使用标签感知的数据增强方式,将对比学习放置在有监督的环境中 ,下游任务为多类文本分类,在低资源环境中进行实验取得了不错的效果
474 0