LASS: Joint Language Semantic and Structure Embedding for Knowledge Graph Completion 论文解读

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
简介: 补全知识三元组的任务具有广泛的下游应用。结构信息和语义信息在知识图补全中都起着重要作用。与以往依赖知识图谱的结构或语义的方法不同

Joint Language Semantic and Structure Embedding for Knowledge Graph Completion



代码:pkusjh/LASS: Code repo for COLING 2022 paper “Joint Language Semantic and Structure Embedding for Knowledge Graph Completion” (github.com)


论文:2209.08721.pdf (arxiv.org)


期刊/会议:COLING 2022


摘要


补全知识三元组的任务具有广泛的下游应用。结构信息和语义信息在知识图补全中都起着重要作用。与以往依赖知识图谱的结构或语义的方法不同,我们提出将语义与知识三元组的结构信息联合嵌入到知识三元组的自然语言描述中。我们的方法通过针对概率结构化损失微调预训练的语言模型,为补全任务嵌入知识图,其中语言模型的前向传递捕获语义,损失重建结构。我们在各种知识图谱基准上的大量实验已经证明了我们方法的最先进的。我们还表明,由于更好地使用语义,我们的方法可以在低资源状态下显著提高性能。


简介


知识图谱(KG),如Wikidata和Freebase (Bollacker et al, 2008),由事实三元组组成。KG对人类和机器都是有用的资源。(头实体,关系,尾实体)形式的三元组,其中关系涉及头和尾实体,已被用于各种各样的应用,例如问题回答(Guu et al;Hao等人,2017)和网络搜索(Xiong等人,2017)。不完整性一直是KG中的一个长期问题(Carlson et al, 2010),阻碍了其在现实应用中的广泛采用。


KG补全旨在预测事实三元组中缺失的实体或关系。现有三元组中的结构模式有助于预测缺失的元素(Bordes et al, 2013;Sun等人,2019)。例如,可以学习组合模式,根据两个连续的mother_Of关系预测关系grandmother_Of。除了结构信息,实体和关系之间的语义相关性对于推断具有相似含义的实体或关系也是至关重要的(An et al, 2018;Yao等,2019;Wang et al, 2021)。例如,如果两个实体之间存在关系CEO_Of,则关系employee_Of也存在。有两种KG补全方法,属于不同的学习范式。首先,基于结构的方法将实体和关系视为节点和边,并使用图嵌入方法来学习它们的表示。其次,基于语义的方法通过语言模型对实体和关系的文本描述进行编码。虽然结构和语义对KG的补全都很重要,但现有方法同时处理结构和语义信息并非易事。


在本文中,我们提出了一种用于知识图补全的联合语言语义和结构嵌入方法——LASS,它将语义和结构结合在一个KG三元组中。LASS通过微调预训练语言模型(LM),将一个三元组嵌入到一个向量空间中。LASS包括语义嵌入和结构嵌入。语义嵌入捕获三元组的语义,这对应于预先训练的LM对三元组的自然语言描述的向前传递。结构嵌入的目的是重构语义嵌入中的结构,语义嵌入对应于通过LM的反向传播优化概率结构损失。直观地说,结构化损失将两个实体之间的关系视为实体嵌入之间的转换。在一系列KG补全基准测试中,LASS的表现优于现有方法。我们进一步评估了低资源环境下的LASS,发现它比其他方法数据效率更高。原因是我们的方法在训练数据中利用了语义信息和结构信息。


我们的主要贡献:


  • 我们设计了一种自然语言嵌入方法LASS,该方法集成了KG的结构信息和语义信息,用于KG补全。我们通过微调预训练的LMs w.r.t.结构化损失来训练LASS,其中LMs的前向传递捕获语义,损失重建结构。该方法由KG模块和LM模块组成,揭示了KG模块与深度语言表示之间的联系,推进了这两个领域交叉的研究。


  • 我们在两个KG补全任务,链路预测和三重组分类上评估了LASS,并获得了最先进的性能。研究结果表明,语义和结构的捕获对于理解KG至关重要,研究结果对许多下游知识驱动应用都有帮助。


  • 我们表明,与现有方法相比,我们可以显著提高低资源设置下的性能,这要归功于语义知识的改进迁移。


2、LASS


我们介绍LASS,用自然语言嵌入知识图谱的语义和结构。如图1所示,LASS包含了两种嵌入:语义嵌入和结构嵌入。语义嵌入捕获了KG三元组自然语言描述中的语义。结构嵌入在语义嵌入的基础上进一步重构了KG的结构信息。LASS通过对预训练好的语言模型(LM) w.r.t.结构化损失进行微调,将KG嵌入到向量空间中,其中前向传递进行语义嵌入,结构化损失优化进行结构嵌入。


81db70cdd0d541c9a5472b01aca911d6.png


2.1 语义嵌入


一个三元组KG记为G, G的每个三元组以( h , r , t )的形式表示,其中h , t ∈ E , r ∈ R。E是实体的集合,R 是关系的集合。头实体h、关系r和尾实体t之间的语义相似性对于补全一个事实三元组至关重要。例如,给定h=" Bob Dylan "和r=" was born in ",任务是预测缺失的t ,其中候选是" Duluth "和" Apple "。“Bob Dylan”和“Duluth”之间的语义相似度,以及“was born in”和“Duluth”之间的相似度应该比“Apple”之间的相似度要大,因为“Duluth”是标准的答案。预训练的LMs通过对大规模文本语料库的预训练来捕获自然语言中丰富的语义。这启发我们使用存储在LM参数中的语义来编码三元组的语义。


image.png


2.2 结构嵌入


KG的结构信息已成功应用于KG补全。传统方法认为两个实体之间的关系对应于实体嵌入之间的转换。这与上面的语义嵌入不同,前向传播不能捕获结构信息。我们建议通过微调预训练的LM和结构损失来合并结构嵌入。

目标是在语义嵌入中重构结构信息。更新后的h , r , t 嵌入仍记为h , r , t ,在保留语义信息的同时,融合了KG的结构信息。我们通过优化概率结构损失来重构语义嵌入中的结构信息,其中三元组( h , r , t ) 的得分函数由式1定义:


image.png


我们根据score函数(1)定义如下概率模型:


image.png


概率结构损失定义在式3中。目标是最小化KG上的负对数似然:


image.png


其中,P r ( 1 ∣ h , r , t ) = σ ( f ( h , r , t ) ) 。


image.png


LASS的训练统一为针对结构化损失对LM进行微调。语义嵌入由LM的前向传递得到。通过LM的反向传播优化结构损失,实现结构嵌入。


3、实验


3.1 实验设置


2efe48f5a6524789b2a836f39b9a2d93.png


Baseline:BERT-base、RoBERT-base、RoBERT-large。


3.2 实验结果


e36241bdcb584e21b0264ad7f86da542.png

4ce96feddcb54b75a76f6f54bd71d3c8.png

32ff199214354b7e9ea76a3c4e4f48d4.png


9ab163c898394a3dbf2a163372876e70.png


我们还注意到,LASS在FB15k-237上只产生了适度的Hits@10。主要原因是,与表1所示的其他链路预测数据集相比,FB15k-237呈现出更复杂的实体之间的关系。因此,更复杂的结构性损失有望使LASS获得进一步的改善。


355fdfbfbd1647038990a6fed6b8aa11.png


c47438aff6bb4e84956b368fbe367dc7.png


4、讨论


结构化损失:进一步改进LASS有几个方向。LASS使用基于TransE评分函数的概率结构化损失,它学习同一嵌入空间中每个实体和关系的单异表示。但是,不同的关系需要不同的实体嵌入。我们建议在涉及不同关系时,使实体具有不同的分布式表示。例如,一个新的评分函数∥ h r + r − t rimage.png 在不同的空间中建模实体和关系,并在关系空间中执行实体嵌入之间的转换。这个想法与TransH (Wang et al, 2014b)和TransR (Lin et al, 2015)的精神相同。然而,利用这些损失的一个缺点是它们将带来额外的计算开销。我们的方法旨在平衡计算成本和效率。探索涉及替代损失的轻计算方法是未来的研究方向之一。


预训练语言模型:我们已经探讨了两个预先训练的LM模型:BERT和RoBERTa。沿着这条线有三个可能的方向。首先,实验结果表明,较大的LMs通常存储更多的语义,这可以改善LASS的语义嵌入模块。我们建议检查更大的预训练lm,如GPT-2 (Radford等人,2019),GPT3 (Brown等人,2020)和Megatron-LM (Shoeybi等人,2019)。将知识图中实体的更长的语言描述(例如,维基百科页面)结合起来,将为改进自然语言理解提供更丰富的知识。其次,针对KG补全任务的深度线性模型的微调过程,特别是链路预测,计算效率仍然很低。研究光LM架构,如ALBERT (Lan et al, 2020),以加速训练过程,是有前途的方向之一。最后,我们提出的方法通常适用于许多知识驱动的下游NLP任务(例如,问题回答,事实探测)以及低资源的NLP任务。将我们的方法与自回归模型(例如GPT-2)集成将使该方法能够执行文本生成任务。


5、相关工作


预训练的LMs,如BERT,最近被用于在许多NLP基准测试中获得最先进的结果(Devlin等人,2019;Liu等,2019)。这些模型通常基于Transformer(Vaswani et al, 2017),并在未标记的文本语料库上进行训练。它们被用于通过嵌入(Peters等人,2018)、微调(Radford等人,2018)或少样本学习(Radford等人,2019)来改善下游任务。双向Transformer微调是近年来NLP应用中应用最广泛的方案,本文的方法也是基于此方案。主要的区别在于,我们在LM的基础上设计了一个结构化的损失,旨在捕获自然语言的结构。


知识图谱嵌入,KG嵌入旨在将实体及其关系映射到连续向量空间。传统的KG嵌入方法用一个固定的向量表示每个实体或每个关系。对于任何三元组( h , r , t ) ,他们使用评分函数f ( h , r , t ) 来模拟其可能性。TransE (Bordes et al, 2013)的评分函数为负平移距离。它可以用不同的几何变换进行增强,如线性投影(Wang et al, 2014b;Lin et al, 2015)或旋转(Sun et al, 2019)。基于双线性变换(Yang et al, 2015)和卷积(Dettmers et al, 2018)的其他模型在KG完成基准上也显示出有前景的结果。我们的结构性损失是受TransE启发的。主要区别如下。TransE (Bordes et al, 2013)将这种关系视为嵌入从头实体到尾实体的转化。因此当( h , r , t ) 成立时,h + r ≈ t 。TransE基于l2范数∥ h r + r − t rimage.png 设计了一种基于边际的排序损失(margin-base ranking loss)。LASS和TransE之间的主要区别是:(i) LASS利用了LM中的自然语言语义,而TransE没有;(ii) LASS是一种概率结构化损失,与TransE相比,它具有更高的计算效率和数据效率。概率损失的主要优点是,我们消除了TransE需要的规范计算,以防止训练过程通过增加实体或关系的嵌入来最小化其损失。TransE的排序损失将一些训练样例的损失计算为零,这对优化过程没有帮助。我们的概率损失利用了所有的训练样本。此外,我们在loss中引入了corrupted relation,这为结合KG结构提供了更大的灵活性。


上述传统KG嵌入方法以实体和关系为基本单位,不使用任何额外信息。然而,研究(Socher et al, 2013;王等,2014a;Xie等人,2016)表明,对实体和关系的自然语言描述建模的KG模型通常优于那些只对知识三元组结构建模的方法。Petroni等人(2019)使用LM作为虚拟KG来回答事实性问题。ERNIE (Zhang等人,2019b)将结构性KG集成到预训练模型中,以改进知识驱动的NLP任务。相比之下,我们的目标是将KG的结构和语义结合起来,通过一个统一的优化过程来完成KG任务。KGBERT (Yao et al, 2019)将KG补全任务建模为句子分类任务,并通过微调预训练的LM来解决它们。我们的LASS和KGBERT之间有几个关键的区别(Yao等人,2019):(i) LASS通过结构嵌入重建KG的结构,而KG-BERT没有;(ii) LASS将链路预测和三元组分类统一在同一体系结构下,KG-BERT针对不同任务设计不同的体系结构;(iii) LASS与使用两个系列的LM,而KG-BERT只使用了BERT-BASE。LASS并不是专门为BERT设计的,这有助于理解语义在用于KG补全的LM中的作用。


6、总结


我们提出了一种新的嵌入方法,该方法利用知识图谱的语义和结构来完成知识图谱的补全任务,并在低资源设置中提供额外的好处。该方法通过微调语言模型将知识图谱三元组映射到嵌入空间,其中正向传递捕获语义,损失重建结构。我们的方法在知识图谱完成基准上有了显著的改进。实现过程没有对语言模型体系结构进行任何修改。结果表明,学习的嵌入通常在下游知识驱动的应用程序中有用,并且可能对更多的自然语言理解任务有用。我们希望我们的研究结果将促进这一方向的进一步研究。

目录
相关文章
|
3月前
|
存储 算法 计算机视觉
【博士每天一篇文献-模型】Meta-Learning Based Tasks Similarity Representation for Cross Domain Lifelong Learning
本文提出了一种基于元学习的跨域终身学习框架,通过跨域三元组网络(CDTN)学习任务间的相似性表示,并结合自注意模块与软注意网络(SAN)来增强特征提取和任务权重分配,以提高学习效率并减少对先前知识的遗忘。
49 1
【博士每天一篇文献-模型】Meta-Learning Based Tasks Similarity Representation for Cross Domain Lifelong Learning
|
6月前
|
自然语言处理 算法 Python
[SentencePiece]论文解读:SentencePiece: A simple and language independent subword tokenizer...
[SentencePiece]论文解读:SentencePiece: A simple and language independent subword tokenizer...
84 0
|
自然语言处理 算法
SIFRank New Baseline for Unsupervised Keyphrase Extraction Based on Pre-Trained Language Model
在社交媒体上,面临着大量的知识和信息,一个有效的关键词抽取算法可以广泛地被应用的信息检索和自然语言处理中。传统的关键词抽取算法很难使用外部的知识信息。
161 0
SIFRank New Baseline for Unsupervised Keyphrase Extraction Based on Pre-Trained Language Model
|
机器学习/深度学习 人工智能 自然语言处理
OneIE:A Joint Neural Model for Information Extraction with Global Features论文解读
大多数现有的用于信息抽取(IE)的联合神经网络模型使用局部任务特定的分类器来预测单个实例(例如,触发词,关系)的标签,而不管它们之间的交互。
181 0
|
6月前
|
自然语言处理
【论文代码】① STIOCS: Active learning-based semi-supervised training framework for IOC extraction
【论文代码】① STIOCS: Active learning-based semi-supervised training framework for IOC extraction
45 0
|
自然语言处理 数据挖掘 数据处理
【提示学习】Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference
目前流行的第四大范式Prompt的主流思路是PVP,即Pattern-Verbalizer-Pair,主打的就是Pattern(模板)与Verbalizer(标签映射器)。   本文基于PVP,提出PET与iPET,但是关注点在利用半监督扩充自己的数据集,让最终模型学习很多样本,从而达到好效果。
111 0
|
人工智能 自然语言处理 算法
UIE: Unified Structure Generation for Universal Information Extraction 论文解读
信息提取受到其不同目标、异构结构和特定需求模式的影响。本文提出了一个统一的文本到结构生成框架,即UIE,该框架可以对不同的IE任务进行统一建模,自适应生成目标结构
508 0
|
机器学习/深度学习 开发框架 数据建模
HiCLRE: A Hierarchical Contrastive Learning Framework for Distantly Supervised Relation Extraction
远程监督假设任何包含相同实体对的句子都反映了相同的关系。先前的远程监督关系抽取(DSRE)任务通常独立地关注sentence-level或bag-level去噪技术
176 0
|
机器学习/深度学习 编解码 自然语言处理
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers论文解读
我们提出了SegFormer,一个简单,高效而强大的语义分割框架,它将transformer与轻量级多层感知器(MLP)解码器统一起来。
799 0
|
机器学习/深度学习 编解码 数据可视化
Speech Emotion Recognition With Local-Global aware Deep Representation Learning论文解读
语音情感识别(SER)通过从语音信号中推断人的情绪和情感状态,在改善人与机器之间的交互方面发挥着至关重要的作用。尽管最近的工作主要集中于从手工制作的特征中挖掘时空信息,但我们探索如何从动态时间尺度中建模语音情绪的时间模式。
140 0