备案控制台

开发者社区人工智能文章正文

DeepWalk：图表示的在线学习

2022-06-11 196

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： DeepWalk：图表示的在线学习

论文标题：DeepWalk: Online Learning of Social Representations

论文链接：https://arxiv.org/abs/1403.6652

论文来源：KDD 2014

一、概述

本文提出DeepWalk方法，来学习图节点的社会表示（social representation），学习到的表示处于较低维度的连续空间中。DeepWalk采用自然语言处理中的语言模型来建模一系列图上的随机游走节点序列，这些随机游走序列可以看做一种特殊的语言。模型的输入是一张图，输出是节点的隐表示，下图展示了一个例子，可以看到表示空间中线性可分的部分对应于原图根据模块最大化（modularity maximization）得到的划分：

QQ截图20220612094213.png

example

二、社会表示的学习

问题陈述

QQ截图20220611202714.png

本文提出的方法用来捕获网络的拓扑信息。DeepWalk没有混合标签空间作为特征空间的一部分，而是采用无监督的方法来捕捉图的结构信息，忽略标签的分布。DeepWalk的目标是学习隐表示， QQ截图20220611202818.png 是隐表示的维度，学习到的特征向量可以与任何分类算法相结合，即使是简单算法也可以得到好的性能。

我们希望算法学习到的节点表示能够具备以下特性：

①可适应性（adaptability）：真实的网络是一直在变化的，新的社会关系（social relation）的出现不应该要求重复算法的学习过程；

②社区感知（community aware）：隐表示之间的距离应该代表一种度量，用来评估网络相应成员节点之间的相似性，这允许在具有同质性（homophily）的网络中进行泛化；

③低维（low dimensional）：当标注数据稀缺时，低维模型泛化地更好（可能是因为高维具有维度灾难），并且能够加速收敛和推断；

④连续（continuous）：除了提供社区成员的细致入微的视图外，连续表示在社区之间有平滑的决策边界，这允许更具鲁棒性的分类。

随机游走

QQ截图20220611203023.png

幂律分布

如下图，节点在随机游走序列中出现的频率与自然语言中的词频同样满足幂律分布（power law）：

QQ截图20220612094246.png

幂律分布

而语言建模技术解释了这种分布。我们的一个核心想法是应用于语言建模的技术（语言中的符合频率满足幂律分布，而随机游走序列中节点出现的频率也满足）也能够用来建模网络中的社区结构。

语言模型

语言建模的目的是估计特定的词序列出现在语料库中的似然。具体的，给定一个词序列：

QQ截图20220611203126.png

QQ截图20220611203247.png

然而，随着随机游走序列长度的增加，该目标函数的计算变得不可行。语言模型对于这个问题的解决方案是将这个概率的预测反过来（其实就是指 SkipGram），其实是一种对原有问题的松弛。具体的做法是：

①使用一个词来预测其上下文；

②上下文既包含这个词左边的词也包含右边的词；

③移除了词的顺序限制，也就是说模型需要最大化任何在上下文中出现的词的似然，忽略这些词与该词的偏移。

将上述方法应用到节点表示学习上，要优化的问题就变成了：

QQ截图20220611203318.png

解决上述问题能够捕获图结构中节点之间的相似性，具有相似邻域的节点会获得相似的表示。通过结合截断的随机游走与语言模型，可以满足前面提到的需要满足的表示的特性。

三、方法

QQ截图20220611203351.png

QQ截图20220612094318.png

DeepWalk

第3行代表整个过程迭代 QQ截图20220611203608.png 次，每次为每个节点采样一个随机游走。第4行代表对节点进行随机排列，这不是必须的，但是可以加速随机梯度下降的收敛。对于每个随机游走，使用第7行的SkipGram进行参数的更新。

SkipGram

SkipGram是一种语言模型，它最大化句子中 QQ截图20220611203632.png 大小的窗口内出现的词的共现概率。下面的算法展示了SkipGram在DeepWalk中的应用：

QQ截图20220612094342.png

SkipGram

QQ截图20220611203734.png

QQ截图20220612094424.png

下图展示了DeepWalk的大致过程，其中(c)表示Hierarchical Softmax的过程：

QQ截图20220612094442.png

DeepWalk

我们也可以通过统计随机游走中节点出现的频率来构建哈弗曼树，从而进一步加速训练过程，降低复杂度。

优化

QQ截图20220611203827.png

QQ截图20220612094534.png

多个worker的影响

四、实验

数据集

在BlogCatalog,Flickr和YouTube三个数据集上进行实验，进行节点的分类任务，数据集统计情况如下：

QQ截图20220612094704.png

数据集统计

实验结果

下面展示了三个数据集上对比不同baseline的效果：

QQ截图20220612094956.png

BlogCatalog

QQ截图20220612095020.png

Flickr

QQ截图20220612095042.png

YouTube

超参数敏感性

以下实验探究了不同超参数的敏感性：

QQ截图20220612095118.png

超参数敏感性

文章标签：

自然语言处理

算法

酷酷的群

目录

相关文章

被纵养的懒猫

|

自然语言处理搜索推荐算法

M2GRL:一种用于全网规模推荐系统的多任务多视角图表示学习框架

由阿里云开发者社区联合新零售智能引擎事业群共同打造的《KDD 论文精华解读》电子书重磅发布！覆盖推荐系统、图神经网络预训练、买家秀视频标题生成、在线电视剧的受众竞争力预测和分析等 10+ 内容，免费下载电子书感受科技的震撼！

被纵养的懒猫

3112 0 0

M2GRL:一种用于全网规模推荐系统的多任务多视角图表示学习框架

社区助手

|

机器学习/深度学习算法存储

一文读懂大规模图神经网络平台AliGraph

2019阿里云峰会·上海开发者大会于7月24日盛大开幕，本次峰会与未来世界的开发者们分享开源大数据、IT基础设施云化、数据库、云原生、物联网等领域的技术干货，共同探讨前沿科技趋势。本文整理自开源大数据专场中阿里巴巴资深技术专家李永先生的精彩演讲，将为大家分享AliGraph：大规模图神经网络平台。

社区助手

8504 0 0

拓端数据部落

|

9月前

|

算法搜索推荐

R语言混合SVD模型IBCF协同过滤推荐算法研究——以母婴购物平台为例

R语言混合SVD模型IBCF协同过滤推荐算法研究——以母婴购物平台为例

拓端数据部落

105 2 2

老板这功能得加钱

|

9月前

|

机器学习/深度学习数据挖掘算法框架/工具

想要了解图或图神经网络？没有比看论文更好的方式，面试阿里国际站运营一般会问什么

想要了解图或图神经网络？没有比看论文更好的方式，面试阿里国际站运营一般会问什么

老板这功能得加钱

70 0 0

拓端数据部落

|

9月前

|

机器学习/深度学习

R语言使用Rasch模型分析学生答题能力

R语言使用Rasch模型分析学生答题能力

拓端数据部落

59 0 0

研发咨询顾问

|

9月前

|

机器学习/深度学习自然语言处理搜索推荐

推荐系统的算法分类和操作流程介绍

推荐系统的算法分类和操作流程介绍

研发咨询顾问

204 0 0

汀丶人工智能

|

机器学习/深度学习人工智能算法

强化学习从基础到进阶-案例与实践[4.2]：深度Q网络DQN-Cart pole游戏展示

强化学习从基础到进阶-案例与实践[4.2]：深度Q网络DQN-Cart pole游戏展示

汀丶人工智能

119 0 0

-开发达人-

|

机器学习/深度学习网络架构

「拖拽」就能实现精准P图的DragGAN，论文作者亲自揭秘技术了

「拖拽」就能实现精准P图的DragGAN，论文作者亲自揭秘技术了

-开发达人-

161 0 0

生信补给站

|

数据可视化数据挖掘 C++

RNAseq|WGCNA-组学数据黏合剂，代码实战-一（尽）文（力）解决文献中常见的可视化图

RNAseq|WGCNA-组学数据黏合剂，代码实战-一（尽）文（力）解决文献中常见的可视化图

生信补给站

364 0 0

玩机器学习的章北海-13621

|

机器学习/深度学习计算机视觉

牛啊，几乎涵盖了图神经网络所有操作

牛啊，几乎涵盖了图神经网络所有操作

玩机器学习的章北海-13621

134 0 0

热门文章

最新文章

解决kafka集群由于默认的__consumer_offsets这个topic的默认的副本数为1而存在的单点故障问题

oracle 11g 11204补丁信息

Python 命令行之旅：初探 docopt

时间之箭源于量子纠缠？

输入输出流体系图

Windows Server 2008 R2下部署OCS 2007 R2 边缘服务器

从码农到设计者，从单例模式入手设计代码

瑞典力推储能助太阳能发电计划落实

十张图告诉你互联网发展的八大趋势

第7周-任务3-复数模板类

DeepSeek——DeepSeek模型部署实战

基于FPGA的图像双线性插值算法verilog实现,包括tb测试文件和MATLAB辅助验证

基于电导增量MPPT控制算法的光伏发电系统simulink建模与仿真

基于排队理论的客户结账等待时间MATLAB模拟仿真

3天功能开发→3小时：通义灵码2.0+DEEPSEEK实测报告，单元测试生成准确率92%的秘密

Sentinel监测到了服务，但是实时监控不显示曲线图，应该怎么解决这个问题？

通义灵码 2.0 体验报告：AI 赋能智能研发的新范式

通义灵码 2.0 体验报告：AI 赋能智能研发的新范式

类和对象的简述（c++篇）

模拟实现c++中的vector模版

相关课程

更多

AIGC文生图训练营（从理论到实践）

场景实践 - 基于阿里云PAI机器学习平台使用时间序列分解模型预测商品销量

场景实践 - 搭建个性化推荐引擎系统

阿里云RPA（机器人流程自动化）- 初级入门（可视化）

创空间应用训练个性化模型

【七月在线】机器学习项目班

相关电子书

更多

图计算专场大规模分布式图计算、学习和推理技术及创新应用论坛

典型模型-卷积神经网络入门

图计算专场—大规模分布式图计算、学习和推理技术及创新应用论

相关实验场景

更多

【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板

以电商场景为例搭建AI语义搜索应用

奥运时刻！零代码生成奥运风格AI写真。

【图生图】一键部署3D卡通风格模型

免费撸A10显卡！在PAI-DSW里用FaceChain训练专属形象照

一键创建和部署高分电影推荐语音技能

下一篇

PAI Model Gallery 支持云上一键部署 DeepSeek-V3、DeepSeek-R1 系列模型