SS-AGA:Multilingual Knowledge Graph Completion with Self-Supervised Adaptive Graph Alignment 论文解读

简介: 预测知识图(KG)中缺失的事实是至关重要的,因为现代知识图远未补全。由于劳动密集型的人类标签,当处理以各种语言表示的知识时,这种现象会恶化。

Multilingual Knowledge Graph Completion with Self-Supervised Adaptive Graph Alignment



摘要


预测知识图(KG)中缺失的事实是至关重要的,因为现代知识图远未补全。由于劳动密集型的人类标签,当处理以各种语言表示的知识时,这种现象会恶化。在本文中,我们探讨了多语言KG完成,它利用有限的种子对齐作为桥梁,以接受来自多种语言的集体知识。然而,现有工作中使用的语言对齐仍然没有得到充分利用:(1)对齐对被平等对待,以最大程度地推动并行实体接近,这忽略了KG容量不一致性;(2) 种子比对很少,而新的对齐识别通常是以无噪声的无监督方式进行的。为了解决这些问题,我们提出了一种新的自监督自适应图对齐(SS-AGA)方法。具体而言,SS-AGA通过将对齐视为新的边缘类型,将所有KG融合为一个整体图。因此,可以通过关系感知注意力权重自适应地控制跨KGs的信息传播和噪声影响。同时,SS-AGA具有一个新的对生成器,该生成器以自监督的模式动态捕获潜在的对齐对。在公共多语种DBPedia KG和新创建的工业多语种电子商务KG上进行的大量实验实证证明了SS-AGA的有效性。


1、简介


知识图(KG),如Freebase(Bollacker等人,2008)和DBPedia(Lehmann等人,2015),对于各种知识驱动的应用都是必不可少的,如问答(Yasunaga等人,2021)和常识推理(Lin等人,2021)。KG包含实体和关系之间的结构化和语义信息,先验知识可以实例化为事实三元组(head entity,relation,tail entity),例如,(Apple Inc., F ounded by, Steven Jobs)。随着新的事实不断出现,由于人类标注的高成本,现代KGs仍然远未补全,这促使知识图补全(KGC)任务自动预测缺失的三元组以补全知识图。


KG不完整的情况在多语言环境中更加严重,因为人类标注非常罕见,而且很难收集,尤其是对于低资源语言。不幸的是,KGC的大部分工作都致力于单独学习每种单语KG(Peng等人,2021;Xu等人,2021;Liang等人,2021;Cao等人,2021;Lovelace等人,2021),这通常在资源贫乏的KG中表现不佳(Chen等人,2017年、2020年;Sun等人,2020年)。相比之下,来自多种语言的KGs并不是自然孤立的,它们通常共享一些真实世界的实体和关系。可转移的知识可以被视为协调不同知识库的桥梁,这不仅有助于知识向低资源知识库的传播,而且缓解了所有语言昂贵的手动标注。


在本文中,我们探索了多语言KG对齐(MKGC)(Chen et al,2020),其中跨语言的种子对齐有限。为了缓解语言差距,已经开始了多语言KG嵌入方法的一些工作,该方法利用KG嵌入模块(例如,TransE(Bordes等人,2013))独立编码每个语言特定的KG,然后使用对齐损失来迫使对齐实体对最大程度地接近(Chen等人,2020;Zhang等人,2019;Sun等人,2020)。然而,这些方法主要涉及两个局限性:(1)对KG中不同语言平行实体之间的平等对待不一致性问题被忽视;(2) 种子对齐的缺乏阻碍了跨语言的有效知识传递。


e2ea10fbd90e44b098e643ac57deeee4.png


具体而言,现有方法通过强制所有平行实体最大程度地彼此接近来平等对待所有对齐对(Chen等人,2018;Sun等人,2018年;Chen等人,2017年)。这忽略了由于语言多样性导致的KG不一致性的潜在负面影响。例如,如图1所示,DBP-5L中的支持英语KG(Chen等人,2020)比希腊语KG(13K事实)具有更丰富的知识(80K事实)。为了完成对资源贫乏的日语KG(28K个事实)的查询(Apple Inc.,Founded by,?),我们可以通过Steven Jobs的对齐链接从资源丰富的英语KG传递更多的知识,而不是低数据的希腊语KG。然而,如果粗略地将Steven Jobs推到与英语KG和希腊KG同等接近的水平,那么Steven Job所学的嵌入将是相似的,尽管它们具有不同的结构、KG容量、覆盖范围和质量。因此,它将带来与此查询相关的信息,并可能导致模型得到错误的答案。因此,我们鼓励模型自动区分潜在的不一致性,并从适当的支持KGs迁移知识,以获得更好的语言特定KGC性能。


另一方面,种子对齐对于跨语言迁移至关重要(Chen等人,2020;Sun等人,2020),而跨语言获取此类并行实体成本高昂,而且常常会产生噪音。为了缓解这一问题,最近的一些工作(Chen等人,20182020)提出在训练过程中基于实体嵌入相似性生成新的对齐对。生成的新对可以增加KG之间的互连性,以促进知识迁移。然而,在没有任何监督的情况下简单使用实体之间的相关性可能会增加训练期间的噪声,并抑制KGs中现实语言对齐的有效性(Sun等人,2020)。


基于这些观察结果,我们提出了一种用于MKGC的自监督自适应图对齐(SSAGA)框架。为了解决知识不一致的问题,SS-AGA将对齐作为并行实体之间的一种新的边缘类型,而不是损失约束,它将来自不同语言的KG融合为一个整体图。基于这种统一建模,我们提出了一种具有关系感知注意机制的新型GNN编码器,该编码器用可学习的注意权重聚合局部邻域信息,并将同一实体的多个对齐对接收的影响进行区分,如图1(b)所示。为了缓解种子对齐的稀缺性,SS-AGA利用了一个新的对生成器,它以自监督的方式迭代地识别新的对齐对。这是通过在GNN编码之前在融合KG中掩盖一些种子对齐并教生成模块恢复它们来实现的。根据经验,SS-AGA在公共和工业数据集中都优于流行的基线。对于公共数据集,我们使用多语言的DBPedia KG (Chen等人,2020年),对于工业数据集,我们创建了多语言的电子商务产品KG,称为E-PKG。


我们的贡献如下:(1)通过将实体对齐作为一种新的边缘类型,引入关系感知注意机制来控制知识传播,解决了MKGC的知识不一致问题;(2)我们提出了一种新的具有自监督的对齐对生成机制,以缓解种子对齐的稀缺性;(3)构建了新的工业级多语种电子商务KG数据集;(4)大量实验验证了SSAGA在公共和工业数据集上的有效性。


2、基础知识


2.1 知识图谱补全


知识图谱G = ( E , R , T ) 由一组实体E 、关系R 和相关事实T = { ( e h , r , e t ) } 组成,其中e h , e t ∈ E 是头尾实体,r ∈ R 是关系。实体和关系由它们的文本描述表示。KG补全任务试图在给定的关系和其他实体的情况下,归因一个三元组中缺失的头部或尾部实体。在不丧失一般性的情况下,我们将讨论预测缺失尾实体的情况,我们也将其称为查询q=(e_h,r,?e_t)。


**多语言指示图谱补全(MKGC)**利用跨多种语言的KG,在每个KG上实现更准确的KG补全任务。在形式上,我们给出M个不同的特定于语言的KG,分别为G 1 , G 2 , … , G M, Gi和G j 之间只有有限的实体对齐对Γ G i ↔ G j ⊆ { ( e i , e j ) : e i ∈ E i , e j ∈ E j } 。我们也称Γ G i ↔ G j 为种子对齐(seed alignment)对,以区别于新的或伪对齐。每个KG G i 都有自己的关系集R i 。我们将所有KG的关系集并集表示为统一关系集R = R 1 ∪ R 2 ∪ … R M 。MKGC与实体对齐(EA)任务相关但不同(Cao等人,2019;Sun等人,2020)。在MKGC中,种子对齐不是直接监督,而是作为辅助输入特征用于跨语言迁移的训练阶段,以提高KGC的结果。


2.2 KG嵌入模型


KG嵌入模型旨在学习实体{ e } e ∈ E  和关系{ r } r ∈ R  的潜在低维表示。一个简单的实现是一个嵌入查找表(Bordes等人,2013;Sun等人,2019)。最近,人们探索了图神经网络(GNN)来聚集KG中的邻域信息,其中每个三元不再被认为彼此独立(Hao et al, 2019)。从数学上讲,这些方法采用了基于GNN的编码器g ,该编码器考虑到邻域信息,嵌入实体


{ e } e ∈ E = g ( G )


然后,一个相关事实( e h , r , e t )的可信度可以通过三元组得分来衡量:


f ( e h , r , e t )


f可以是任何评分函数,如TransE (Bordes et al, 2013), RotatE (Sun et al, 2019)。我们也把它称为KGC解码器。


3、方法


image.png

cc0457746fa647a2865ab24cebbb6cef.png


3.1 关系感知MKG嵌入


如前所述,在现有的MKGC方法中,知识迁移效率很低,因为它们分别对每个KG进行编码,并通过强制对齐的实体共享相同的嵌入来转移知识。为了处理知识不一致,我们首先将所有KG融合为一个整体,这将实体对齐放宽到相关事实。然后,我们设计了一个基于注意力的关系感知GNN来学习实体的上下文化MKG嵌入,它可以不同来自多个具有可学习注意力权重的对齐源的影响。然后,我们在上下文化嵌入上应用KGC解码器来获得关系事实的三元组得分。


image.png


基于融合的KG G f u s e  ,我们提出了一种基于注意力的关系感知GNN编码器g k ( ⋅ ) ,以学习基于多层消息传递体系结构的实体的上下文嵌入。


在GNN的第l 层,我们首先计算关系事实( e i , r , e j ) 中实体e i传递的关系感知消息,如下所示:


image.png


然后,我们根据注意力得分,通过聚合来自实体邻居的消息来更新实体的隐藏表示:


image.png


σ(⋅)为非线性激活函数,残差连接用于提高GNN的稳定性(He et al, 2015)。


image.png


可伸缩性问题。由于我们将所有的M KG作为一个整体进行融合,并为头实体复制边缘,图G f u s e  的规模将变得非常大。因此,我们使用k-hop图采样器对每个节点的k-hop邻居进行采样,并计算它们的上下文化嵌入。


3.2 自监督的新对生成


在多语言KG中,我们只提供了有限的种子对齐对来促进知识迁移,因为它们的获取成本很高,甚至有时会有噪声(Sun et al, 2020)。为了解决这一问题,我们提出了一种新的自监督对齐对生成器。在每次迭代中,生成器确定新的对齐对,这些对齐对将被馈送到GNN编码器g k ( ⋅ ) 中,以在下一个迭代中产生上下文化实体嵌入。生成器的训练以一种自监督的方式进行,其中生成器需要恢复mask对齐对。


**新对的产生(NPG)**依赖于两组实体嵌入:结构嵌入和文本嵌入。结构嵌入由另一个GNN编码器g a : { e a } e ∈ E f u s e = g a ( G f u s e ) 获得,它与关系感知MKG嵌入模型中的g k ( ⋅ ) 具有相同的架构(章节3.1)。我们使用两个GNN编码器的原因是,产生最佳对齐结果的嵌入集可能与最能实现KG补全任务的嵌入集不同。


文本嵌入由实体的文本描述和mBERT: e t e x t = m B E R T ( e ) 获得。mBERT是一种多语言预训练语言模型(Devlin et al, 2019),由于以下优点,它对新的对齐对生成特别有吸引力:(1)它捕获了文本丰富的语义信息;(2)预训练的BERT嵌入也在不同语言之间对齐(Devlin等人,2019;Sun等人,2020)。


然后,我们将实体e i 和e j 之间的成对相似度评分建模为其结构嵌入和文本嵌入的余弦相似度的最大值:


image.png


然后我们引入新的对齐对,如果两个KG中的一对未对齐实体根据跨域相似性局部缩放(CSLS)度量(Conneau et al, 2018)是相互最近的邻居,如下所示:


image.png


**自监督学习(SSL)**类似于许多现有的工作(Chen et al, 2020;Sun et al, 2020),上述NPG范式是无监督的,可能会带来意想不到的噪音。受掩码语言建模(Devlin等人,2019)的启发,该建模捕获了token之间的上下文依赖关系,我们提出了一个自监督学习过程来引导和去噪新的对生成。具体来说,我们随机mask了一些对齐关系事实T m a s k e d ⊆ { ( e h , r , e t ) ∈ T f u s e : r = r a l i g n } ,并让生成器恢复它们。KGs中的这种mask对齐恢复可以自动识别对齐邻居的潜在相关性,并鼓励NPG生成高质量的对齐对,这些对齐对是真实存在的,但由于有限的种子对齐而隐藏起来。


image.png


3.3 训练


总损失函数为KG补全损失式(2)与自监督对准损失式(3)的组合,如下图所示


J = J K + λ J A


λ > 0是一个正的超参数,用来平衡两个损失。


4、实验


4.1 数据集


DBP-5L、E-PKG。


70ac1e4b56b44e03a84950bfa622ca5c.png


4.2 主要的结果


4f322985623441fdb0112d9ad6b822d1.png

0fb023bb3e76421bb04fb2137030849b.png


4.3 消融实验


为了评估我们模型设计的有效性,我们通过提出以下模型变体进行消融实验:(i) GNN将没有关系建模的GNN编码器独立应用于每个KG,并像之前的工作一样直接迫使所有对准对彼此接近(Chen et al, 2020;Zhu et al, 2020);(ii) R-GNN是提出的关系感知MKG嵌入模型(章节3.1),该模型利用所有种子对齐构建G f u s e d  ,并通过关系感知注意力机制区别于其他KG的影响;(iii) R-GNN + NPG对R-GNN进行额外的新对生成;(iv) R-GNN + NPG + SSL是我们提出的完整模型SS-AGA,它利用SSL来指导NPG过程。我们还研究了是否共享编码器g a ( ⋅ ) , g k ( ⋅ ) ,分别为SSL和KGC损失生成嵌入。


我们报告了DBP-5L上的平均Hits@1, Hits@10和MRR,如表4所示。正如我们所看到的,对每个KG单独应用GNN编码器会导致性能下降,因为所有对齐的实体都被迫相等地彼此靠近。由于种子对齐的稀疏性,删除新的对生成过程也会导致性能下降,这表明迭代提出新的对齐确实是有帮助的。如果在生成过程中进一步加入监督,性能将得到提高,验证了自监督对齐损失的有效性。最后,共享两个GNN编码器的参数会损害性能。尽管MKGC和实体对齐是两个密切相关的任务,可能会彼此受益,但产生最佳对齐结果的嵌入集并不一定会在MKGC任务上产生最佳性能。


f2a10808ffce4f269633ef00d7f0b706.png

087ce522e092480493dacc76ee86dfe1.png


5、讨论与总结


在本文中,我们提出了用于多语言知识图补全的SS-AGA算法。它通过融合所有KG并利用GNN编码器来学习具有不同于多个对齐源影响的可学习注意力权重的实体嵌入来解决知识不一致的问题。它以自监督学习的方式进行新的配对生成,以解决有限的种子对齐问题。在两个真实数据集(包括新创建的电子商务数据集)上的广泛结果验证了SS-AGA的有效性。我们目前的方法可能无法充分利用实体和关系文本的好处。在未来,我们计划研究更有效的方法来结合文本数据和图形数据,以获得更好的模型性能。我们也有兴趣研究没有对齐对的MKGC,这是一个非常实用的设置,我们现有的模型无法处理。

目录
相关文章
|
7月前
|
机器学习/深度学习 自然语言处理 算法
【论文精读】ACL 2022:Graph Pre-training for AMR Parsing and Generation
【论文精读】ACL 2022:Graph Pre-training for AMR Parsing and Generation
|
机器学习/深度学习 数据挖掘
【提示学习】HPT: Hierarchy-aware Prompt Tuning for Hierarchical Text Classification
本文是较早把Prompt应用到层级多标签文本分类领域的论文。思路是把层级标签分层编入到Pattern中,然后修改损失函数以适应多标签的分类任务。
249 0
|
7月前
|
算法 BI 计算机视觉
[Initial Image Segmentation Generator]论文实现:Efficient Graph-Based Image Segmentation
[Initial Image Segmentation Generator]论文实现:Efficient Graph-Based Image Segmentation
74 1
|
数据挖掘
【提示学习】Prompt Tuning for Multi-Label Text Classification: How to Link Exercises to Knowledge Concept
文章这里使用的是BCEWithLogitsLoss,它适用于多标签分类。即:把[MASK]位置预测到的词表的值进行sigmoid,取指定阈值以上的标签,然后算损失。
|
自然语言处理 算法 知识图谱
DEGREE: A Data-Efficient Generation-Based Event Extraction Model论文解读
事件抽取需要专家进行高质量的人工标注,这通常很昂贵。因此,学习一个仅用少数标记示例就能训练的数据高效事件抽取模型已成为一个至关重要的挑战。
169 0
|
机器学习/深度学习 自然语言处理 数据可视化
EventGraph:Event Extraction as Semantic Graph Parsing 论文解读
事件抽取涉及到事件触发词和相应事件论元的检测和抽取。现有系统经常将事件抽取分解为多个子任务,而不考虑它们之间可能的交互。
85 0
|
存储 自然语言处理 测试技术
LASS: Joint Language Semantic and Structure Embedding for Knowledge Graph Completion 论文解读
补全知识三元组的任务具有广泛的下游应用。结构信息和语义信息在知识图补全中都起着重要作用。与以往依赖知识图谱的结构或语义的方法不同
140 0
|
机器学习/深度学习 数据采集 自然语言处理
Efficient Zero-shot Event Extraction with Context-Definition Alignment论文解读
事件抽取(EE)是从文本中识别感兴趣的事件提及的任务。传统的工作主要以监督的方式为主。然而,这些监督的模型不能概括为预定义本体之外的事件类型。
112 0
|
机器学习/深度学习 自然语言处理 索引
GTEE-DYNPREF: Dynamic Prefix-Tuning for Generative Template-based Event Extraction 论文解读
我们以基于模板的条件生成的生成方式考虑事件抽取。尽管将事件抽取任务转换为带有提示的序列生成问题的趋势正在上升,但这些基于生成的方法存在两个重大挑战
151 0
|
机器学习/深度学习 存储 数据挖掘
Global Constraints with Prompting for Zero-Shot Event Argument Classification 论文解读
确定事件论元的角色是事件抽取的关键子任务。大多数以前的监督模型都利用了昂贵的标注,这对于开放域应用程序是不实际的。
78 0