摘要
现有方法直接利用图结构做为视图描述符,可能会抑制多视图学习能力、同时图结构可能包含异常值。基于以上问题、作者提出sgcmc。 Sgcmc通过欧拉变换将原始节点映射到复杂空间中,构建一个新视图。该分法不仅抑制了异常值,还揭示了数据的非线性嵌入摸式。同时该方法使用聚类标签来指导潜在表示和系数矩阵的学习。有助于后续节点聚类。通过该方法、聚类和表示学习连接,有助于提高聚类性能。
关键词
节点聚类、图表示学习、多视图学习、子空间聚类、自监督
背景
GCN被用于动作识别,姿势估计,垃圾邮件检测,文本分类、节点聚类等任务.
本文主要集中于节点聚类任务。
节点聚类的常用方法:GAE(图自编码器), ARGAE(对抗正则化图自编码器), GAT(图自注意力网络)→捕获邻居节点的重要性。DAEGC(深度注意力嵌入图聚类方法)
问题:这些方法仅仅通过内积解码器来重构图结构,因此解码器不可学习,导致图embedding能力下降。
GATE(图注意力自编码器)同时重构图结构和节点内容,使得潜在表示很好保留图结构和节点内容。
多视图提供互补信息有助于聚类。方法:CO-GCN:半监督方法,分别将节点和结构视为两个视图,分别对每个视图训练图编码器。问题:直将将图结构做为视图描述符,存在异常值。对非欧数据如何构建视图描述符是关键。忽略了不准确标签中的有用信息.
基于以上问题,sgcmc构建视图描述符→通过欧拉变换将原始点内容映射到复杂空间。不仅抑制异常值,还揭示嵌入数据的非线性模式。
第一步:学习每个视图的潜在表示以及不同视图共享的系数矩阵,将不同视图的输入映射到前向通道的潜在空间,
第二步:实现节点聚类,并使用聚类标签来指导潜在表示和系数矩阵的学习。
贡献:
用不准确的聚类标签,实现多视图自监督聚类框架。使用欧拉变换提取的特征做为视图描述符而不直接使用图结构。
数据集上测试其性能好。
相关工作
回顾多视图聚类和图嵌入学习相关文章
图嵌入学习:旨在学习低维节点表示,同时保留节点的内容信息和拓扑结构。主要分为TSE(拓扑结构嵌入)和CEGE(内容增强图嵌入),TES只针对拓扑结构,CEGE可以探索具有节点内容信息的图结构。
但是目前所有方法仅立用单视图图结构和节点内容
与之前方法不同,本方法利用欧拉表示构造一个新的节点内容描述符,然后学习一组多视图图自编码器.将输入节点映射到另一个空间,最后本方法使用新的潜在空间中的节点系数矩阵来计算聚类的affinity矩阵(相似度矩阵)。
DCCA,DCCAE,CO-gcn,O2MAC→只对单视图节点内容信息进行编码。因此本文通过结合GCN和自监督策略的多视图图嵌入聚类。
实现过程
构建多视图描述
原始节点描述符→ X(1)→欧拉变换→X(2)
子空间节点聚类模型
子空间聚类旨在学习一个由不同视图共享的系数表示矩阵,然后进行聚类。
sgcmc通过两个联合摸块获得节点聚类结果。一个模块是图注意力自编码器,另一个是同时监督潜在表示和系数表示的自监督学习模块。
假定所有视图都有相同的图结构,F(v)是图注意力编码器中学到的潜在表示,
为了获得一个好的由多个视图共享的系数矩阵,使用潜在表示的自我表达操作,被定义为:
C为视图一致性系数表示
在图学习之后使用NCut算法获得节点的聚类标签。
自监督学习模型
监督潜在表示F(v),引入基于交叉熵的目标函数:
其中Y(v)是由f(v)获得的预测标签矩阵,引入三层全连接层.L是聚类得到的伪聚类标签的onehot格式.
损失函数优化:Adam算法
激活函数:Relu
最后一层:Softmax
总结
本文为单拓扑结构,多节点属性数据,其中节点属性的另一个视图是根据原始节点通过欧拉变换得到。