KDD 2019 | GATNE:一种针对 Multi-Edge 的大规模异构图嵌入模型

简介: 本文处理的就是这种包含异构节点和异构边的图的嵌入学习。

传统的图嵌入(graph embedding)方法一般只针对同构的图,但是实际的图往往都是异构的。只包含异构节点的图的嵌入学习已经被广泛研究,例如 metapath2vec[1] 提出了异构的 random walk 和 skip gram。而包含异构边的图的嵌入学习近来开始被大家所关注,比如 MNE[2] 通过引入对于每种 edge type 的 embedding 来处理异构边的情形。在阿里电商场景下,由用户和商品构成的图就是异构的,并且不仅包含异构的节点(用户和商品),而且包含异构的边(用户和商品的多种交互行为,比如点击、购买等)。不仅如此,图中的节点还包含着丰富的属性。本文处理的就是这种包含异构节点和异构边的图的嵌入学习。

根据图结构(同构/异构)以及是否包含节点特征,我们将图分为如下六类:_HO_mogeneous _N_etwork(HON), _A_ttributed _HO_mogeneous _N_etwork(AHON), _HE_terogeneous _N_etwork(HEN), _A_ttributed _HE_terogeneous _N_etwork(AHEN), _M_ultiplex _HE_terogeneous _N_etwork(MHEN), _A_ttributed _M_ultiplex _HE_terogeneous _N_etwork(AMHEN)。

同时我们也在下表中列出了处理各种类型的图的方法(其中GATNE-T/I是我们提出的方法):

image.png

下图是一个带节点属性的异构图的例子。在左侧原始的图中,用户包含了性别、年龄等属性,商品包含了价格、类目等属性。用户与商品之间包含了4种类型的边,分别对应点击、收藏、加入购物车以及购买行为。传统的 graph embedding 算法比如 DeepWalk 的做法会忽略图中边的类型以及节点的特征,然后转换成一个 HON。如果将边的类型考虑进去,那么就得到一个 MHEN,能够取得非常明显的效果。此外,如果将节点的属性也同时考虑进去,那么就利用了原图的所有信息,可以得到最好的效果。

image.png

模型

由于有多种类型的边(比如点击、购买),这里我们考虑给每个节点在每种边类型下都学一个表示。比如我们给用户和商品在点击场景下学一种表示,在购买场景下学一种表示。但是这两种表示之间并不是完全独立的,是通过某种机制互相影响的。我们主要考虑的就是如何来建模不同类型的表示之间相互影响的方式:

image.png

模型的大致结构如上图所示。对于GATNE-T(T for transductive)来说,每个节点在每种edge type 下的 embedding 由两个部分组成,分别是 base embedding 和 edge embedding。base embedding 是每个节点在每种 edge type下共享的,而 edge embedding 是通过相邻节点的 edge embedding 计算得到的。具体来说,类似于 GraphSAGE[3],这里的 edge embedding 的计算方式如下:

image.png

其中 i, j 表示节点编号,r 表示某种 edge type,k 表示第 k 层的 edge embedding(1<=k<=K),aggregator function 可以是 mean aggregator 或者 max-pooling aggregator。我们将第 K 层的 edge embedding 拼起来记为矩阵U:

image.png

其中,m 表示 edge type 的数量。由于我们不知道每个节点在每种 edge type 下的表示之间的关系,所以我们通过 self-attention[4] 的机制来建模这种相互关系,并得到每种 edge type 下的表示对于各个 edge type 的权重:

image.png

其中是模型需要训练得到的参数,是计算得到的权重向量。最后我们就能得到每个节点i在某种 edge type r 下的向量表示:

image.png

由于实际问题中会遇到冷启动等问题,需要给没有在训练集中出现过的节点也求得 embedding。而 transductive model 不具备这种能力。所以我们引入了节点的特征提出了相应的 inductive model,记为 GATNE-I。具体来说,原先在 GATNE-T 中和都是随机初始化的。但是在 GATNE-I,这两个 embedding 都是基于节点的特征,也就是通过节点的特征经过某种变换(比如线性变换或者神经网络等)得到的。那么节点i在某种 edge type r 下的向量表示就可以表达成:

image.png

其中image.png表示节点 i 的特征。

接下来介绍模型的训练方式。GATNE-T/I 模型的训练方式基于 meta-path-based random walk 和 heterogeneous skip gram。具体来说,我们预先设定 meta-path schem,image.png,(比如 User-Item-User),那么 random walk 的转移概率即为:.

image.png

其中表示类型为 r 的边集。给定一个节点与其在某个 random walk 上的 context C,我们的目标是最小化如下的负对数似然函数:

image.png

其中右侧的每一项的概率通过 heterogeneous softmax function 来计算:

image.png

其中 c 表示节点的 context embedding。最后我们通过 heterogeneous negative sampling 来近似负对数似然:

image.png

整体的算法流程如下:

image.png

实验

我们在3个公开数据集 Amazon、YouTube、Twitter 和阿里数据集(user-item访问、购买、点击、加购关系)进行了实验,验证了我们所提出的模型的有效性,同时也说明了异构边的信息对如何学到更好的 graph embedding 能带来较大的帮助。用到的数据集的规模如下(3个公开数据集从原始数据集中进行了采样):

image.png

如下表所示,在3个公开数据集和阿里小数据集上,我们提出的 GATNE-T/I 取得了最好的效果。Amazon 数据集上由于商品的特征比较弱,所以 GATNE-I 的效果会稍差于GATNE-T;而在阿里数据集上,因为节点的特征非常丰富,所以 GATNE-I 的效果会好于 GATNE-T。YouTube 和 Twitter 数据集不包含节点特征,所以我们把 DeepWalk 跑出来的200维向量作为初始的节点特征。由于 DeepWalk 生成的特征也只利用了图的结构,没有引入额外的信息,所以两种方法 GATNE-T/I 的结果差别不大。

image.png

我们实现了3个 baseline(DeepWalk, MVE, MNE)和 GATNE-T/I 的分布式版本,运行在PAI Tensorflow 上,并在阿里大数据集上进行了测试。如下表所示,相比于 baseline 来说,GATNE-I 取得了非常显著的提高。

image.png

我们对模型的 convergence 和 scalability 进行了测试。在阿里大数据集上,相比GATNE-T 来说,GATNE-I 能够更快地达到比较好的效果。并且,随着模型所使用的worker 数量的增加,GATNE-T/I 模型的训练时间都能显著降低。

image.png

参考文献

[1] Yuxiao Dong, Nitesh V Chawla, and Ananthram Swami. 2017. metapath2vec: Scalable representation learning for heterogeneous networks. In KDD’17. ACM, 135–144.
[2] Hongming Zhang, Liwei Qiu, Lingling Yi, and Yangqiu Song. 2018. Scalable Multiplex Network Embedding. In IJCAI’18. 3082–3088.
[3] Will Hamilton, Zhitao Ying, and Jure Leskovec. 2017. Inductive representation learning on large graphs. In NIPS’17. 1024–1034.
[4] Zhouhan Lin, Minwei Feng, Cicero Nogueira dos Santos, Mo Yu, Bing Xiang, Bowen Zhou, and Yoshua Bengio. 2017. A structured self-attentive sentence embedding. ICLR’17.

目录
相关文章
|
机器学习/深度学习 PyTorch 算法框架/工具
RGCN的torch简单案例
RGCN 是指 Relational Graph Convolutional Network,是一种基于图卷积神经网络(GCN)的模型。与传统的 GCN 不同的是,RGCN 可以处理具有多种关系(边)类型的图数据,从而更好地模拟现实世界中的实体和它们之间的复杂关系。 RGCN 可以用于多种任务,例如知识图谱推理、社交网络分析、药物发现等。以下是一个以知识图谱推理为例的应用场景: 假设我们有一个知识图谱,其中包含一些实体(如人、物、地点)以及它们之间的关系(如出生于、居住在、工作于)。图谱可以表示为一个二元组 (E, R),其中 E 表示实体的集合,R 表示关系的集合,每个关系 r ∈ R
2106 0
|
存储 安全 API
利用对象存储(OSS)实现内容分发加速 :高效可靠的解决跨境下载延迟问题
利用对象存储(OSS)实现内容分发加速 :高效可靠的解决跨境下载延迟问题
787 2
|
机器学习/深度学习 人工智能 数据挖掘
数据上新 | AI Earth上线长时序土地覆盖数据集(来自武汉大学黄昕教授团队)
数据上新 | AI Earth上线长时序土地覆盖数据集(来自武汉大学黄昕教授团队)
数据上新 | AI Earth上线长时序土地覆盖数据集(来自武汉大学黄昕教授团队)
|
3月前
|
机器学习/深度学习 算法 搜索推荐
从零开始构建图注意力网络:GAT算法原理与数值实现详解
本文详细解析了图注意力网络(GAT)的算法原理和实现过程。GAT通过引入注意力机制解决了图卷积网络(GCN)中所有邻居节点贡献相等的局限性,让模型能够自动学习不同邻居的重要性权重。
495 0
从零开始构建图注意力网络:GAT算法原理与数值实现详解
|
前端开发 API 决策智能
多智能体微调实践:α-UMi 开源
近年来,为了加强大型语言模型(Large-Language Models, LLM)实时信息处理、解决专业问题的能力,催生了工具调用智能体(Tool Integrated Agent)概念
|
数据采集 API 决策智能
华为诺亚联合中科大发布工具调用模型ToolACE,效果持平GPT-4获开源第一
 【10月更文挑战第10天】华为诺亚方舟实验室与中国科学技术大学合作推出ToolACE,一种自进化合成过程的工具调用模型。ToolACE通过多智能体交互和双重验证系统生成准确、复杂、多样化的工具学习数据,显著提升大型语言模型(LLM)的功能调用能力。实验结果显示,使用ToolACE数据训练的80亿参数模型性能媲美GPT-4,在伯克利功能调用排行榜上获得开源第一。
469 4
|
11月前
|
机器学习/深度学习 自然语言处理 搜索推荐
自注意力机制全解析:从原理到计算细节,一文尽览!
自注意力机制(Self-Attention)最早可追溯至20世纪70年代的神经网络研究,但直到2017年Google Brain团队提出Transformer架构后才广泛应用于深度学习。它通过计算序列内部元素间的相关性,捕捉复杂依赖关系,并支持并行化训练,显著提升了处理长文本和序列数据的能力。相比传统的RNN、LSTM和GRU,自注意力机制在自然语言处理(NLP)、计算机视觉、语音识别及推荐系统等领域展现出卓越性能。其核心步骤包括生成查询(Q)、键(K)和值(V)向量,计算缩放点积注意力得分,应用Softmax归一化,以及加权求和生成输出。自注意力机制提高了模型的表达能力,带来了更精准的服务。
12377 46
|
存储 监控 安全
Java安全配置管理
本文介绍了Java应用中安全配置管理的最佳实践,包括配置文件分离、敏感信息加密、配置验证、运行时配置管理和最佳实践总结。通过这些方法,可以有效提升应用配置的安全性和可维护性。具体措施包括按环境分离配置文件、使用加密工具保护敏感信息、实施配置验证和变更监控等。
387 2
|
JSON 前端开发 Java
【Java笔记+踩坑】SpringMVC基础
springmvc简介、入门案例、bean加载控制、PostMan工具的使用、普通和JSON和日期格式请求参数传递、响应JSON或jsp或文本、Rest风格
【Java笔记+踩坑】SpringMVC基础
|
数据采集 DataWorks 安全
DataWorks产品使用合集之怎么配置定时调度任务
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
497 1