近几年,神经网络在自然语言、图像、语音等数据上都取得了显著的突破,将模型性能带到了一个前所未有的高度,但如何在图数据上训练仍然是一个可研究的点。
传统神经网络输入的数据通常每个sample之间都不存在关系,而图数据更加复杂,每个节点之间存在联系,也更符合真实世界中的数据存储方式。真实世界的物体通常根据它们与其他事物的联系来定义的,一组对象以及它们之间的联系可以很自然地表示为一个图(graph),基于图数据的神经网络也称为Graph Neural Network(GNN)。
图神经网络的发展逐渐受到更多关注,在推理、常识等方面也取得很多成就,来自Google的研究员们最近发表了一篇博客,介绍了图神经网络的发展历程,还对现代图神经网络进行了探讨和解释。
一个图由顶点和边组成,在人的脑海中,可以很自然地把社交网络等数据表示为图,那如何把图像和文本表示为图你想过吗?
通常认为图像是带有通道(channels)的矩形网格,将它们表示为例如244x244x3的三维矩阵。
另一种看待图像的方式是有规则结构的图像,其中每个像素代表一个节点,并通过边缘连接到相邻的像素。每个非边界像素恰好有8个相邻节点,并且存储在每个节点上的信息是表示像素 RGB 值的三维向量。
可视化图的连通性的一种方法是邻接矩阵。对这些节点进行排序,在一个5x5的图像中有25个像素,构造一个矩阵,如果两个节点之间存在一条边那么在邻接矩阵中就存在一个入口。
对于文本来说,可以将索引与每个字符、单词或标记相关联,并将文表示为一个有向图,其中每个字符或索引都是一个节点,并通过一条边连接到后面的节点。但文本和图像在实际使用上通常不采用这种编码方式,用图来表示是比较多余的一步操作,因为所有图像和文本都具有非常规则的结构。例如,图像的邻接矩阵中通常有一条带状结构,因为所有的节点或像素都连接包含在在一个网格结构中。文本的邻接矩阵只包括一条对角线,因为每个单词只连接到前一个单词和下一个单词。
在使用神经网络表示图任务时,一个最重要的表示就是它的连通性,一个比较好的选择就是邻接矩阵,但如前文所说,邻接矩阵过于稀疏,空间利用率不高;另一个问题就是同一个图的邻接矩阵有多种表示方法,神经网络无法保证这些邻接矩阵的输出结果都相同,也就是说不存在置换不变性(permutation invariant)。
并且不同形状的图可能也包含相同的邻接矩阵。
一种优雅且高效来表示稀疏矩阵的方法是邻接列表。它们将节点之间的边的连通性描述为邻接列表第k个条目中的元组(i,j)。由于边的数量远低于邻接矩阵的条目数量,因此可以避免了在图的断开部分(不含边)进行计算和存储。
既然图的描述是以排列不变的矩阵格式,那图神经网络(GNNs)就可以用来解决图预测任务。GNN是对图的所有属性(节点、边、全局上下文)的可优化变换,它可以保持图的对称性(置换不变性)。GNN采用“图形输入,图形输出”架构,这意味着这些模型类型接受图作为输入,将信息加载到其节点、边和全局上下文,并逐步转换这些embedding,而不更改输入图形的连通性。
最简单的GNN模型架构还没有使用图形的连通性,在图的每个组件上使用一个单独的多层感知器(MLP)(其他可微模型都可以)就可以称之为GNN层。
对于每个节点向量,使用MLP并返回一个可学习的节点向量。对每一条边也做同样的事情,学习每一条边的embedding,也对全局上下文向量做同样的事情,学习整个图的单个embedding。