本章主要内容:
本章首先介绍了 异质图heterogeneous graph 和 relational GCN (RGCN)。
接下来介绍了 知识图谱补全knowledge graph completion 任务,以及通过图嵌入方式的四种实现方式及其对关系表示的限制:TransE,TransR,DistMult,ComplEx。
1. Heterogeneous Graphs and Relational GCN (RGCN)
- 本节课任务:
之前课程的内容都囿于一种边类型,本节课拓展到有向、多边类型的图(即异质图)上。
介绍RGCN,知识图谱,知识图谱补全任务的表示方法。
图的节点和边都可以是异质的
- 异质图举例:生物医学知识图谱或事件图
- Relational GCN
将GCN2拓展到异质图上
- 从只有一种边类型的有向图开始:通过GCN学习节点A的表示向量,即沿其入边形成的计算图进行信息传播(message + aggregation)。
- 对于有多种边类型的情况:在信息转换时,对不同的边类型使用不同的权重 W
- Relation GCN定义
- RGCN的scalability
- 示例
- 链接预测
在异质图中,将每种关系对应的边都分成 training message edges, training supervision edges, validation edges, test edges 四类5(切分每种关系所组成的同质图)。
这么分是因为有些关系类型的边可能很少,如果全部混在一起四分的话可能有的就分不到(比如分不到验证集里……之类的)
- 总结
- Relational GCN:用于异质图的图神经网络模型
- 可用于实体分类和链接预测任务
- 类似思想可以扩展到其他RGNN模型上(如RGraphSAGE,RGAT等)
2. Knowledge Graphs: KG Completion with Embeddings
- 知识图谱 Knowledge Graphs (KG)
以图形式呈现的知识
捕获实体entity(节点)、类型(节点标签)、关系relationship(边)
一种异质图实例
- 示例
- bibliographic networks
bibliographic书目的;书籍解题的;著书目录的
通过定义节点类型、关系类型及其之间的关系,得到如图所示的schema :
- bio knowledge graphs
adverse event 不良反应
pathway 总之是个专业术语,过程、反应之类的10
- 知识图谱应用实例(就我本来想把这些介绍网址啥的列出来的,但我最近不能上某些网站了,而且我又现在不用,就先直接截图了。以后有缘可以搞一下。如果真的有读者看到这里而且有这样需求的话也可以戳我催更)
- 公开可用的知识图谱有:FreeBase, Wikidata, Dbpedia, YAGO, NELL, etc.
这些知识图谱的共同特点是:大,不完整(缺少很多真实边)
对于一个大型KG,几乎不可能遍历所有可能存在的事实,因此需要预测可能存在却缺失的边
- 举例:Freebase
大量信息缺失
有 complete 的子集供研究KG模型
3. Knowledge Graph Completion: TransE, TransR, DistMult, ComplEx
- 知识图谱补全 KG Completion Task
已知 (head, relation),预测 tails(注意,这跟链接预测任务有区别,链接预测任务是啥都不给,直接预测哪些链接最有可能出现)
举例:已知(JK罗琳,作品流派),预测 tail “科幻小说”
- 在本节课中使用 shallow encoding12 的方式来进行图表示学习,也就是用固定向量表示图数据
(虽然这里不用GNN,但是如果愿意的话也可以用)
- TransE
- TransE的算法
简单来说,我没看懂。大致来讲过程是这样的:
初始化部分我没看懂,以后再研究。
更新参数时使用的是 contrastive loss,总之大意就是最小化真三元组的距离(也就是最大化真三元组的score或相似性)、最大化假三元组的距离
- KG中关系的模式 Connectivity Patterns in KG
在KG中,关系可能有多种属性,我们接下来就要探讨KG嵌入方法(如TransE等)能否建模、区分开这些关系模式:
- DistMult
- 所有模型的表示能力对比:
- 知识图谱嵌入问题的实践应用22
- 不同知识图谱可能会有很不同的关系模式
- 因此没有适合所有KG的嵌入方法,可用上表来辅助选择
- 可以先试用TransE来迅速获得结果(如果目标KG没有过多symmetric relations的话)
- 然后再用更有表示能力的模型,如ComplEx或RotatE22(复数域的TransE)等
- 总结
- 链接预测或图补全任务是知识图谱领域的重要研究任务
- 介绍了不同嵌入域和不同表示能力的模型
TransE
TransR
DistMult
ComplEx