HiCLRE: A Hierarchical Contrastive Learning Framework for Distantly Supervised Relation Extraction

简介: 远程监督假设任何包含相同实体对的句子都反映了相同的关系。先前的远程监督关系抽取(DSRE)任务通常独立地关注sentence-level或bag-level去噪技术

ACL2022-HiCLRE: A Hierarchical Contrastive Learning Framework for Distantly Supervised Relation Extraction


d08b198fe36d41078be1579ba678e624.png


论文:https://aclanthology.org/2022.findings-acl.202.pdf

代码:https://github.com/MatNLP/HiCLRE


期刊/会议:ACL 2022


摘要


远程监督假设任何包含相同实体对的句子都反映了相同的关系。先前的远程监督关系抽取(DSRE)任务通常独立地关注sentence-level或bag-level去噪技术,忽略了跨级别的显式交互。在本文中,我们提出了一种用于远程监督关系抽取的分层对比学习框架(HiCLRE),以减少有噪声的句子,该框架集成了全局结构信息和局部细粒度交互。具体而言,我们提出了一个三级分层学习框架来与跨级别交互,通过调整现有的多头自注意来生成去噪上下文感知表示,称为Multi-Granularity Recontextualization。同时,还通过基于动态梯度的数据增强策略,即动态梯度对抗性扰动,在特定级别提供伪正样本用于对比学习。实验表明,在各种主流DSRE数据集中,HiCLRE显著优于强基线。


1、简介


远监督关系抽取(DSRE)通过自动生成训练文本样例来解决数据标注开销、稀疏的问题。但是DSRE会引来噪声数据,可能会损失模型的性能。为此多实例学习(MIL)被提出,用于分配”至少一个“正确的关系三元组的bag。


先前的DSRE主要分为:sentence-level和bag-level。sentence-level和bag-level在实体级别上提供了大量的语义信息,如图1所示。不同的bag-level存在语义信息具有很大的差距。


e7fae41eb30649d6add32e99c2111c65.png


为了克服上述挑战,我们提出了一种用于远程监督关系抽取(HiCLRE)的分层对比学习框架,该框架有助于在特定级别和跨级别内进行语义交互:


(1)Multi-Granularity Recontextualization:为了捕获跨级别的结构信息,我们将多头自注意机制调整为三级粒度,包括entity-level、sentence-level和bag-level。我们将每一层的上下文内容特征分别与注意力机制的输入对齐。通过由其他两个级别聚合的注意力得分,为相应级别挑选作为重新文本化交互语义的精细表示。


(2) 动态梯度对抗性扰动:为了获得更准确的特定水平表示,我们使用基于梯度的对比学习(Hadsell et al,2006;van den Oord et al,2018)来抽取构建的伪正样本的信息,并推送负样本的差异。具体地,我们从两个方面计算了动态扰动,包括任务损失的归一化梯度和上一个和当前轮次之间的时间加权记忆相似性。


本文的主要贡献:


  • 我们提出了一种用于DSRE任务的分层对比学习框架(HiCLRE),该框架充分利用了特定级别和跨级别内的语义交互,减少了噪声数据的影响。


  • 提出了Multi-Granularity Recontextualization来增强跨级别交互,并且动态梯度对抗性扰动在三个特定级别内学习更好的表示。


  • 大量实验表明,我们的模型优于DSRE数据集的强基线,详细分析表明这些模块也是有效的。


2、相关工作


2.1 远监督的关系抽取


可以分为两个类别:人工设计的特征、神经网络表示。


2.2 对比学习


损失函数:NCE,通过概率密度函数区分干净样本和噪声样本。InfoNCE,在NCE的基础上加入手工特征,最大化相似和最小化区别。


数据增强:简单文本处理的数据增强,EDA(同义词替换,随即插入,随即删除),CIL(使用TF-IDF去插入/替换实例中不重要的词,构建正样本)。嵌入处理的数据增强,ConSBRT,SimCSE。外部知识的数据增强,ERICA。


这些数据增强方法都是在数据层面,忽略了模型训练过程中的影响。本文提出的模型能捕捉全局结构信息,在不同层级内进行交互微调。


3、方法


3.1 模型总览


模型的整体结构如图2所示,HiCLRE主要包含两个部分:Multi-Granularity Recontextualization旨在整合跨级别的重要性,以确定在目标级别中应该抽取哪些有价值的表示。Dynamic Gradient Adversarial Perturbation针对特定级别,提出了通过构造伪正样本来增强内部语义的方法。


image.png


3.2 分层学习建模


3.2.1 句子表示


image.png


3.2.2 bag表示


image.png


3.3 Multi-Granularity Recontextualization


上述分层学习过程忽略了跨级别的显式交互,以细化更好级别的表示。因此,在更新了PLM生成的隐藏表示之后,我们的HiCLRE模型试图对每个级别的增强表示进行重新文本化。这是使用修改的Transformer层(Vaswani et al,2017)实现的,该层在目标层级和其他两个层级的表示之间用多头注意力代替多头自注意力。


多头注意力机制被定义为:


image.png


3.4 动态梯度对抗性扰动


3.4.1 梯度扰动


持续的梯度扰动p t a d v 将从被具有任务损失参数V 的梯度g 计算。


image.png


3.5 训练目标


总的训练目标将遵循:


image.png


4、实验


9d0d8335fa1e4a17b6327cad7a81534a.png

499d81b0362c498db88775939a7dd4d0.png

d6a8665c01cd4d2e9355583cffae0a7c.png


481287f3c6f24e67a14a2af39552b605.png


6、总结


在本文中,我们提出了HiCLRE,一种用于远程监督关系抽取的分层对比学习框架。HiCLRE的Multi-Granularity Recontextualization模块利用多头自注意机制,在三个层次上传输信息。动态梯度对抗性扰动模块将梯度扰动与惯性记忆信息相结合,为对比学习构建更好的伪正样本。实验表明,在各种DSRE数据集中,HiCLRE对强基线模型的有效性。


最近工作

目录
相关文章
|
6天前
|
存储 JSON 算法
【论文代码】②.1 STIOCS: Active learning-based semi-supervised training framework for IOC extraction
【论文代码】②.1 STIOCS: Active learning-based semi-supervised training framework for IOC extraction
9 0
|
6天前
|
自然语言处理
【论文代码】① STIOCS: Active learning-based semi-supervised training framework for IOC extraction
【论文代码】① STIOCS: Active learning-based semi-supervised training framework for IOC extraction
22 0
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
OneIE:A Joint Neural Model for Information Extraction with Global Features论文解读
大多数现有的用于信息抽取(IE)的联合神经网络模型使用局部任务特定的分类器来预测单个实例(例如,触发词,关系)的标签,而不管它们之间的交互。
115 0
|
9月前
|
机器学习/深度学习 资源调度 算法
【RLchina第四讲】Model-Based Reinforcement Learning(上)
【RLchina第四讲】Model-Based Reinforcement Learning(上)
243 0
|
9月前
|
机器学习/深度学习 算法
【RLchina第四讲】Model-Based Reinforcement Learning(下)
【RLchina第四讲】Model-Based Reinforcement Learning(下)
118 0
|
9月前
|
编解码 计算机视觉
NeRF系列(3): Semantic-aware Occlusion Filtering Neural Radiance Fields in the Wild 论文解读
NeRF系列(3): Semantic-aware Occlusion Filtering Neural Radiance Fields in the Wild 论文解读
158 2
|
9月前
|
机器学习/深度学习 编解码 自然语言处理
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers论文解读
我们提出了SegFormer,一个简单,高效而强大的语义分割框架,它将transformer与轻量级多层感知器(MLP)解码器统一起来。
506 0
|
9月前
|
存储 自然语言处理 测试技术
LASS: Joint Language Semantic and Structure Embedding for Knowledge Graph Completion 论文解读
补全知识三元组的任务具有广泛的下游应用。结构信息和语义信息在知识图补全中都起着重要作用。与以往依赖知识图谱的结构或语义的方法不同
71 0
|
9月前
|
机器学习/深度学习 编解码 数据可视化
Speech Emotion Recognition With Local-Global aware Deep Representation Learning论文解读
语音情感识别(SER)通过从语音信号中推断人的情绪和情感状态,在改善人与机器之间的交互方面发挥着至关重要的作用。尽管最近的工作主要集中于从手工制作的特征中挖掘时空信息,但我们探索如何从动态时间尺度中建模语音情绪的时间模式。
86 0
|
9月前
|
机器学习/深度学习 PyTorch 测试技术
SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation 论文解读
我们提出了SegNeXt,一种用于语义分割的简单卷积网络架构。最近的基于transformer的模型由于在编码空间信息时self-attention的效率而主导了语义分割领域。在本文中,我们证明卷积注意力是比transformer中的self-attention更有效的编码上下文信息的方法。
230 0