ACL2022:A Simple yet Effective Relation Information Guided Approach for Few-Shot Relation Extraction

简介: 少样本关系提取旨在通过在每个关系中使用几个标记的例子进行训练来预测句子中一对实体的关系。最近的一些工作引入了关系信息

A Simple yet Effective Relation Information Guided Approach for Few-Shot Relation Extraction


7cfa0e5b1d74427ea6a44cdc071ea069.png


论文:https://aclanthology.org/2022.findings-acl.62.pdf

代码:https://github.com/lylylylylyly/SimpleFSRE


期刊/会议:ACL 2022


摘要


少样本关系提取旨在通过在每个关系中使用几个标记的例子进行训练来预测句子中一对实体的关系。最近的一些工作引入了关系信息(即关系标签或描述)来帮助基于原型网络的模型学习。然而,他们中的大多数人通常通过设计复杂的网络结构,如生成混合特征,结合对比学习或注意力网络,用关系信息隐含地约束每个关系类的原型。我们认为,关系信息可以更明确、更有效地引入到模型中。因此,本文提出了一种直接添加(direct addition)方法来引入关系信息。具体而言,对于每个关系类,首先通过连接关系的两个视图(即[CLS] token 嵌入和所有token的嵌入的平均值)来生成关系表示,然后直接添加到原始原型中用于训练和预测。在基准数据集FewRel 1.0上的实验结果显示出显著的改进,并取得了与现有SOTA相当的结果,这证明了我们提出的方法的有效性。此外,进一步的分析验证了直接添加方法是整合关系表示和原始原型的一种更有效的方法。


1、摘要


由于劳动力和时间的巨大成本,关系抽取(RE)通常面临标注困难和训练数据短缺的问题。为了解决数据稀缺的问题,少样本关系提取(Few Shot Relation Extraction,FSRE)(Han et al.,2018;Gao et al.,2019a;Qu et al.,2020;Yang et al,2021)任务已成为近年来学术界的研究热点。任务首先是对现有关系类型的大规模数据进行训练,然后快速迁移到少量数据的新关系类型中。


受计算机视觉(CV)社区少样本学习成功的启发(Sung et al,2018;Garcia and Bruna,2018),各种方法被引入了FSRE。其中一种流行的算法是原型网络(Snell et al,2017),它基于元学习框架(Vialta and Drissi,2002;Vanschoren,2018)。详细地说,从包含不相交关系的外部数据中采样的少样本任务的集合被用作模型优化的训练集。对于每个少样本任务,计算每个关系类的中心,并将其用作关系类的原型。然后,可以通过减少查询样本与其对应原型之间的距离来优化模型。给定一个新样本,模型计算哪个类原型最接近新样本,并将其分配给这个关系类。


为了获得更好的结果,许多工作已经利用关系信息(如关系标签或描述)来辅助模型学习。TD proto(Yang et al,2020)通过关系和实体描述增强了原型网络。CTEG(Wang et al,2020)提出了一个模型,该模型学习解耦高共现关系,其中添加了两种类型的外部信息。另一个直观的想法是希望模型能够学习良好的原型或表示,即减少类内的距离,同时扩大不同类之间的距离(Han et al,2021;Dong et al,2021),其中Han et al(2021)引入了一种基于监督的对比学习新方法,该方法通过在模型训练期间利用原型、关系标签和描述来学习更好的原型表示;Dong et al(2021)考虑了一个语义映射框架MapRE,该框架在预训练和微调过程中利用了标签不可知和标签感知知识。


然而,在这些工作如何引入关系信息方面存在两个局限性。首先,它们大多采用隐式约束,如对比学习或关系图,而不是直接融合,后者在面对远程样本时可能很弱。第二,它们通常采用复杂的设计或网络,如混合功能或精心设计的注意力网络,这可能会带来太多甚至有害的参数。因此,在本文中,我们提出了一种简单而有效的方法来将关系信息纳入模型中。具体地,一方面,使用相同的编码器对关系信息和句子进行编码,以便将它们映射到相同的语义空间中。另一方面,我们通过连接两个关系视图(即[CLS] token嵌入和所有token的嵌入的平均值)来生成每个关系类的关系表示,这允许关系表示和原型形成相同的维度。然后,将生成的关系表示直接添加到原型中,以增强模型训练和预测。


dd52ce04fa054c26b8cfd9153ce2a1ce.png


图1直观地说明了大多数现有工作和我们提出的方法之间引入关系信息的方式的差异。基于前面工作中提到的两个局限性,我们提供了两个可能的高级想法,说明为什么我们提出的方法应该适用于少样本关系提取。第一个是直接添加是一个更鲁棒的方式在面对远程样本时,可以生成更具有前景的原型,相对于隐式约束。第二,直接添加不会带来额外的参数,并简化了模型。由于可能的过度拟合,较少的参数总是比较多的参数好,尤其是对于较少样本的任务。我们在实验部分进行了实验分析,以便进一步论证。


我们在四种少样本设置下,对流行的FSRE基准FewRel 1.0(Han et al,2018)进行了实验。实验结果显示出相当大的改进,并取得了与现有SOTA相当的结果,这证明了我们提出的方法(即直接添加运算)的有效性。


2、方法


在本节中,我们将详细介绍我们提出的方法。图2显示了整体结构,其中蓝色和黄色线分别表示句子的流动和关系信息。为了将句子的表示和关系信息映射到相同的语义空间中,使用了共享的句子编码器。然后,我们将关系表示的两个视图连接起来,以获得相同的维度原型,并通过直接添加将关系表示集成到原始原型中。


d0c3d2960f804f6aa096f628c5e33fee.png


2.1 句子编码器


image.png


2.2 关系表征生成


image.png


2.3 关系分类


image.png


3、实验


数据集:FewRel 1.0。包含100个关系,700个标注实例。划分成64/16/20(train/validation/test)。


训练:BERT-base-uncased和CP(利用对比学习训练出来的BERT)作为句子编码器。


实验结果:


f1dd8de6af6d4b6b889d4a22defb7e19.png


从表1中,我们可以得到三个观察结果。首先,当使用BERT作为基准模型时,我们的方法Ours(BERT)优于现有SOTA,这在表1中基于BERT的模型的第一部分中列出。这些方法中的大多数是用相对复杂的网络结构和实现来设计的。其次,Ours(CP)利用CP作为基准模型,在两种少样本设置(即5-way-1-shot和10-way-1-shot)上优于最先进的HCRP(CP),这也从侧面反映了我们的方法更适合少样本场景。第三,与基本模型(即Proto-BERT和CP)相比,改进相当可观,如表1的最后两行所示。这些观察结果证明了我们提出的方法的有效性。


和现有SOTA模型HCRP相比较:


1b2b2a26ff104e87924c58f690105fe2.png


2ba8dcb5a9284ab4b730ea083932a14d.png


消融实验:

26d6e5e75405466ea11f1c04e3e54378.png


4、总结


在本文中,我们提出了一种简单而有效的基于原型网络的关系信息处理方法。其核心思想是通过直接添加方法引入关系表示,而不是设计复杂的结构。在FewRel 1.0的实验结果与现有SOTA的结果相当,并证明了我们提出的方法的有效性。此外,我们提供了两个高级思想,即明确的约束和较少的参数,关于为什么直接添加如此有效。我们认为,找到全局信息来执行与原始原型的直接相加的想法是通用的,并且可以扩展到其他可以基于原型网络建模的少样本任务。


由于引入关系的直接加法方法简单高效,我们也认为未来的工作应该更多地关注生成更好的关系表示,而不是设计关系和原型之间的融合方法。


相关文献


最近工作

目录
相关文章
|
6月前
|
机器学习/深度学习 Python TensorFlow
[seq2seq]论文实现:Effective Approaches to Attention-based Neural Machine Translation(下)
[seq2seq]论文实现:Effective Approaches to Attention-based Neural Machine Translation(下)
46 1
|
6月前
|
TensorFlow 算法框架/工具
[seq2seq]论文实现:Effective Approaches to Attention-based Neural Machine Translation(上)
[seq2seq]论文实现:Effective Approaches to Attention-based Neural Machine Translation(上)
49 1
|
机器学习/深度学习 人工智能 自然语言处理
OneIE:A Joint Neural Model for Information Extraction with Global Features论文解读
大多数现有的用于信息抽取(IE)的联合神经网络模型使用局部任务特定的分类器来预测单个实例(例如,触发词,关系)的标签,而不管它们之间的交互。
179 0
|
机器学习/深度学习 自然语言处理 算法
TASLP21-Reinforcement Learning-based Dialogue Guided Event Extraction to Exploit Argument Relations
事件抽取是自然语言处理的一项基本任务。找到事件论元(如事件参与者)的角色对于事件抽取至关重要。
99 0
|
机器学习/深度学习 自然语言处理 算法
Joint Information Extraction with Cross-Task and Cross-Instance High-Order Modeling 论文解读
先前的信息抽取(IE)工作通常独立地预测不同的任务和实例(例如,事件触发词、实体、角色、关系),而忽略了它们的相互作用,导致模型效率低下。
91 0
|
自然语言处理 算法 知识图谱
DEGREE: A Data-Efficient Generation-Based Event Extraction Model论文解读
事件抽取需要专家进行高质量的人工标注,这通常很昂贵。因此,学习一个仅用少数标记示例就能训练的数据高效事件抽取模型已成为一个至关重要的挑战。
152 0
|
机器学习/深度学习 自然语言处理 索引
GTEE-DYNPREF: Dynamic Prefix-Tuning for Generative Template-based Event Extraction 论文解读
我们以基于模板的条件生成的生成方式考虑事件抽取。尽管将事件抽取任务转换为带有提示的序列生成问题的趋势正在上升,但这些基于生成的方法存在两个重大挑战
138 0
|
人工智能 自然语言处理 算法
UIE: Unified Structure Generation for Universal Information Extraction 论文解读
信息提取受到其不同目标、异构结构和特定需求模式的影响。本文提出了一个统一的文本到结构生成框架,即UIE,该框架可以对不同的IE任务进行统一建模,自适应生成目标结构
503 0
|
存储 自然语言处理 测试技术
LASS: Joint Language Semantic and Structure Embedding for Knowledge Graph Completion 论文解读
补全知识三元组的任务具有广泛的下游应用。结构信息和语义信息在知识图补全中都起着重要作用。与以往依赖知识图谱的结构或语义的方法不同
126 0
|
机器学习/深度学习 算法 数据挖掘
【多标签文本分类】Improved Neural Network-based Multi-label Classification with Better Initialization ……
【多标签文本分类】Improved Neural Network-based Multi-label Classification with Better Initialization ……
125 0
【多标签文本分类】Improved Neural Network-based Multi-label Classification with Better Initialization ……
下一篇
无影云桌面