今天给大家介绍蒙特利尔算法研究所Yoshua Bengio教授课题组在ICML 2019发表的文章“GMNN:Graph Markov Neural Network”。作者在文章中提出了图马尔可夫神经网络GMNN,该模型可以结合统计关系学习方法和图神经网络的优点来研究关系数据的半监督对象分类问题,能够学习用于预测对象标签的对象表示以及对对象标签之间的依赖关系进行建模。经过实验证明,在对象分类,链接分类和无监督节点表示学习方面,GMNN均获得了最先进的结果。
1
研究背景
现实世界的各种实体通过各种关系相互连接,例如网页通过超链接链接,社交媒体用户通过友谊关系建立联系。对这类关系数据进行建模是机器学习中的一个重要主题,它包含了实体分类,链接(边)预测和链接(边)分类等各种应用。
半监督对象分类是关系数据建模的一个基本问题,在研究这一问题时人们通常使用统计关系学习(SRL)方法或图神经网络(GNN)。SRL通常使用条件随机字段对对象标签的依赖性进行建模,但是因为条件随机场(CRF)中的势函数被定义为手动设计的特征函数,导致模型的效果不够理想,对象之间复杂的关系结构也会使SRL方法难以推断未标记对象的标签后验分布,GNN专注于学习标记对象的标签后验分布而忽略对象标签之间的依赖关系。
针对以上两类方法存在的问题,作者提出了图马尔可夫神经网络(GMNN),该模型结合SRL和GNN的优点对这两类方法进行互补,用条件随机场对对象标签的联合分布进行建模,使用变分EM算法对其进行有效训练,不仅能学习有效的对象表示,还能学习到不同对象间的标签依赖关系。
2
模型
GMNN模型首先使用CRF对基于对象属性的对象标签的联合分布进行建模,由于大多数对象是未标记的,通过计算已标记对象的标签的极大对数似然来学习模型参数是比较困难的,因此作者提出使用伪似然变分EM框架优化对数似然的证据下界(ELBO),对数似然的ELBO表示如公式(1)所示:
其中表示已标记对象的标签而表示未标记对象的标签,表示所有对象的属性,是近似后验分布的变分分布,和均为模型参数。
GMNN模型的伪似然变分EM框架中的E-step目的是计算变分分布,具体实现时使用了平均场和摊销推理的思想,将变分分布表示为公式(2):
其中表示未标记的对象标签,表示的邻域对象标签。E-step通过最小化(2)中约等号两边公式的反KL散度以及通过预测已标记对象的标签来训练来确定GNN的目标函数。M-step中将表示为伪似然,使用另一个非线性GNN参数化对对象标签进行建模。整体GMNN算法如表1所示:
图1展示了GMNN的基本框架,首先使用条件随机场对目标对象标签的联合分布进行建模,然后使用伪似然变分EM框架进行优化,其中E-step使用一个图神经网络来学习标签预测的对象表示,M-step则使用另一个图神经网络来建模对象标签。
图1 GMNN的基本框架
3
实验
作者通过对象分类、无监督节点表示学习和链接分类这三个任务对GMNN的性能进行了评估。实验中使用的数据集如表2所示:
表2 数据集统计
其中OC、NRL、LC分别表示对象分类、节点表示学习和链接分类任务。为了验证GMNN的有效性,作者将GMNN与其它三类基线方法进行比较:(1)GNN methods:包括图卷积网络GCN、图注意力网络GAT、深度图互信息DGI、DeepWalk和Planetoid;(2)SRL methods:包括概率关系模型PRM、关系马尔可夫网络RMN和马尔可夫逻辑网络MLN;(3)SSL methods:标签传播LP。
3.1对象分类
在对象分类任务中,GMNN的表现明显优于所有SRL方法,因为GMNN在推理过程中采用GNN模型学习有效的对象表示以改进推理,并且在学习过程中使用另一个GNN对本地标签依赖项进行建模,这与SRL方法相比更为有效。GMNN还优于标签传播方法,因为GMNN能够使用对象属性并以非线性方式传播标签,与GCN相比,GMNN的性能提升主要来自于对标签依赖关系建模的能力。具体实验结果如表3所示,对于链接分类,作者通过实验得到了类似的结果。
表3 对象分类结果(%)
3.2无监督节点表示学习
GMNN在Cora和Pubmed数据集上获得了最佳结果。原因是GMNN使用网络有效地模拟了不同节点的邻域分布的平滑度。此外,GMNN的性能与半监督环境下的性能非常接近(表2),这表明学习到的节点表示非常有效。通过实验还比较了不使用网络的变体,在这种情况下GMNN性能显著下降,这表明了使用作为邻域分布正则化的重要性。具体实验结果如表4所示:
表4 无监督节点表示学习的结果(%)
4
总结
文章主要研究了半监督对象分类问题,并提出了一种称为GMNN模型,该模型使用条件随机场对对象标签的联合分布进行建模,并利用两个图神经网络来改进推理和学习过程。此外,作者在三个任务上对GMNN进行评估并证明了该模型的有效性。