cs224w（图机器学习）2021冬季课程学习笔记4 Link Analysis: PageRank (Graph as Matrix)

2022-10-19 253

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： cs224w（图机器学习）2021冬季课程学习笔记4 Link Analysis: PageRank (Graph as Matrix)

1. Graph as Matrix

本节课研究矩阵角度的图分析和学习。
这里的矩阵就是指邻接矩阵。
将图视为矩阵形式，可以通过随机游走的方式定义节点重要性（即PageRank），通过矩阵分解matrix factorization (MF)来获取节点嵌入，将其他节点嵌入（如node2vec）也视作MF。

2. PageRank / the Google Algorithm

PageRank是谷歌搜索用的算法，用于对网页的重要性进行排序。在搜索引擎应用中，可以对网页重要性进行排序，从而辅助搜索引擎结果的网页排名。

在现实世界中，将整个互联网视作图：将网页视作节点，将网页间的超链接视作边

有一些问题会影响我们如何定义节点（但是本节课暂时不考虑这些问题）：

Dynamic pages created on the fly2
dark matter：不可达（如有密码等）的database generated pages

一个网页之间互相链接的情况的示例：

老一点的网页超链接都是navigational纯导航到其他页面的，当代的很多链接则是transactional用于执行发布、评论、点赞、购买等功能事务的。本课程中主要仅考虑那种网页之间互相链接的情况。

将网页看作有向图，以链接指向作为边的方向（这个网页/节点能直接跳转到的网页就作为其下一个节点successor）：

其他可表现为有向图形式的信息网络示例：论文引用，百科全书中词条间的互相引用

在图中，我们想要定义节点的重要性importance，通过网络图链接结构来为网页按重要性分级rank。以下将介绍3种用以计算图中节点重要性的方法：

PageRank
Personalized PageRank (PPR)
Random Walk with Restarts (RWR)

衡量节点重要性：认为一个节点的链接越多，那么这个节点越重要。

有向图有in-coming links和out-going links两种情况。可以想象，in-links比较不容易造假，比较靠谱，所以用in-links来衡量一个节点的重要性。可以认为一个网页链接到下一网页，相当于对该网页重要性投了票（vote）。所以我们认为一个节点的in-links越多，那么这个节点越重要。

同时，我们认为来自更重要节点的in-links，在比较重要性时的权重vote更大。

这就成了一个递归recursive的问题——要计算一个节点的重要性就要先计算其predecessors的重要性，计算这些predecessors的重要性又要先计算它们predecessors的重要性……

2.1 PageRank: The “Flow” Model

2.2 PageRank: Matrix Formulation

2.3 Connection to Random Walk

这种做法将PageRank与随机游走概念进行了联合

2.4 Eigenvector Formulation

无向图的邻接矩阵的特征向量是节点特征eigenvector centrality，而PageRank定义在有向图的随机邻接矩阵上。

limit极限

limiting distribution极限分布7

相当于是random surfer一直随机游走，直至收敛，到达稳定状态。

这个M的叠乘可以让人联想到Katz index叠乘邻接矩阵A8。

相比高斯消元法，power iteration是一种scalable的求解PageRank方法。

2022.6.25补：值得一提的是，我看了TextRank的paper，发现TextRank求接近极限的方法是用一个threshold，改变量小于threshold就认为convergence了。我感觉这个逻辑有点像是梯度下降，虽然理论上是可以抵达至少局部最优点的，但是实践上也是要么限定最大迭代次数要么给定threshold（一般是前者吧）……之类的