第三代图卷积网络：使用图卷积网络进行半监督分类

2022-06-08 209

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 第三代图卷积网络：使用图卷积网络进行半监督分类

论文标题：Semi-Supervised Classification with Graph Convolutional Networks

论文链接：https://arxiv.org/abs/1609.02907

论文来源：ICLR 2017

之前的文章：

①傅里叶级数与傅里叶变换

②图神经网络中的谱图理论基础

③第一代图卷积网络：图的频域网络与深度局部连接网络

④第二代图卷积网络：应用快速局部谱卷积的图卷积网络

一、概述

考虑分类图中节点这样一个问题，每个节点可以是一篇文章，那么图可以代表引用关系，并且只有一部分节点有标签。这样的问题就是一个基于图的半监督学习问题。解决这个问题的一种方法是为损失函数添加一个基于图的正则项，比如采用图的拉普拉斯矩阵正则项：

MK(5W(3WM81M{@2Z~}}W)IU.png

上式之所以能够采用这样的损失函数是基于这样的假设：在图中相邻的节点更倾向于拥有相同的标签。然而这个假设可能会限制模型的容量，因为图的边不一定需要编码节点相似度，但可能包含额外的信息。

$CKTLAO{0WW_(XQU`5V5@@{3.png$

本文主要内容包括三部分：

①网络的架构，也就是设计的卷积层是如何前向传播的，以及它如何从前两代GCN中获得启发并对其进行改进；

②如何利用设计的GCN解决前述半监督问题；

③通过实验来证明本文设计的模型是有效且高效的。

二、图上的快速近似卷积

在本文中所设计的GCN的卷积层结构如下：

O1DL6VJ7U4)MGOJD6`7@[`R.png

谱卷积核

QZWG5JO1CPF)$VXZ3LMS{HE.png

第三代谱卷积核

上面介绍了前两代谱卷积核，本节介绍如何由第二代谱卷积核进行改进从而得到本文所设计的第三代谱卷积核。对于第二代卷积核，首先我们设置，那么现在有：

2%6XL9[L]I48N%}L7$`T8L1.png

上式和 K]}ZJ@(ZV$`V{X8KY4HCH}R.png ，也仍然可以通过堆叠多层来使得模型具备足够的容量和复杂度，而且本文认为这样设置还可以缓解社交网络、引文网络、知识图谱或者其他真实世界的这种大规模图的局部邻域的过拟合问题。另外，这样的设计也能够允许我们构建更深的深度网络。

接着，本文近似使用 8N~$$Q}RQB3%IF4VHREL[0D.png ，本文认为在训练过程中神经网络可以适应这种假设，那么现在，卷积的过程就变成：

Y9V]5MD[P8`K1PWG6{EC87B.png

一共有两个参数 $]N1U(B_9{JFP@%W(R_1SN1Z.png$ 。连续应用这种卷积层也可以达到卷积图的 HZ32[VU(3}{QNQAT8CY5DZ7.png 阶邻域的效果，这是由于每次卷积 NPXL6F$`JGWM0ZUG{9IT1DF.png 阶邻域内的节点信息都会流向当前节点，这里的代表连续的卷积操作数或者卷积的层数。

接下来进一步限制参数的数量以解决过拟合和最小化每层的操作(如矩阵乘法)的数量，具体的，限制 $0BPVBY)%]FK2263{FSOO_76.png$ ，现在卷积的过程就变成：

W]0M[51`5B)T{4GRN4J6X07.png

现在的特征之间。在深度神经网络中重复应用上述过程会造成数值不稳定以及梯度爆炸或梯度消失，为了缓解这个问题，本文采用再标准化（renormalization）技巧：

L{V6IJGV45[52JQHJWS)UKB.png

三、半监督节点分类

正如之前所说的，对于半监督分类问题，由于我们将数据 ~~7U($T5R1O00W~4}5MC%J9.png 和邻接矩阵 IWJE2W}0G~}NKN%2VIU))U3.png 同时作为模型 $(GJG%$5~5PL%_YCB{@VZ_}M.png$ 的输入条件，因而我们可以放宽某些典型的基于图的半监督学习的假设。我们期待这种方法在邻接矩阵包含 ~~7U($T5R1O00W~4}5MC%J9.png 种没有的信息时能够是powerful的，解释一下这一点就是说传统的基于图的半监督学习（正如开篇介绍的）要求图的邻接矩阵表征节点的相似度，而节点的相似度信息是利用计算得到的，也就是说 ~~7U($T5R1O00W~4}5MC%J9.png 本身就包含相似度信息，这就造成了重复和浪费，而使用本文的模型后，邻接矩阵就可以用来表征一些其他

信息（比如文章的引用关系或者知识图谱中的关系），相当于将邻接矩阵解放了出来。

对于模型的具体架构，使用一个两个卷积层的神经网络作为例子。在预处理阶段首先计算 D}EKRNT}RPGP345[A7VN)KV.png ，然后模型架构可以表示为：

WYDICI22YU%0`QH$7$@Z5_P.png

DSV[)HGA_6@9EZ43NEQJL53.png

{}3L809`71EIPFKS(F71]@0.png

架构图

在实验中采用batch gradient descent对整个数据集进行迭代。对于稀疏矩阵 559%OCUQDBNH21Y7(27%481.png ，需要的内存复杂度为 A3Z8T%2B5[YUFK6]D@OYL]M.png 。随机性通过dropout引入。对于mini-batch stochastic gradient descent的方法需要后续进行研究。