今天给大家介绍的是来自斯坦福大学的Jure Leskovec课题组发表在ICML2020上的文章” Graph Structure of Neural Networks”。在本文中,作者系统地研究了神经网络的图结构如何影响其预测性能,并提出了一种新的基于图的神经网络表示方法称为“关系图”。
1
背景
神经网络通常被表示为神经元之间的连接图。尽管已被广泛使用,但目前对神经网络的图结构与其预测性能之间的关系几乎没有系统的理解。建立这样的关系在科学上和实践上都很重要,因为它对设计更高效、更准确的结构产生直接影响。它还将为执行神经网络的新硬件结构的设计提供参考。理解构成神经网络基础的图结构也将推进深度学习的科学发展。然而建立网络结构和其准确性的关系并不容易,因为尚不清楚如何将神经网络映射到图(反之亦然)。自然的选择是使用计算图表示,但它有很多限制:(1)缺乏通用性 (2)与生物学/神经科学脱节。
基于此,作者系统地研究了神经网络的图结构与其预测性能之间的关系。提出了一种用图表示神经网络的新方法,称为关系图。然后,设计了一个名为WS-flex的图生成器,它使作者能够系统地探索神经网络的设计空间(即关系图)。作者通过其关系图的聚集系数和平均路径长度来表征神经网络(图1(c))。此外,该框架灵活且通用,因为可以将关系图转换成不同的神经结构,包括多层感知机(MLPs),卷积神经网络(CNNs),ResNets等。该成果对设计神经网络架构,推进深度学习的科学以及提高对神经网络的总体理解具有启示意义。
图1 作者的方法概述
2
模型
为了研究神经网络的图结构与其预测性能之间的关系,需设计和探索关系图空间。其三个主要组成部分包括:(1)表征图结构属性的图度量;(2)能够生成不同图的图生成器;(3)控制计算预算的方法。因此不同神经网络的性能差异是由于它们具有不同的关系图结构。
2.1 图度量的选择
由于图结构的复杂性,图度量经常被用来描述图的特征。作者主要关注一个全局图度量,即平均路径长度,以及一个局部图度量,即聚类系数。值得注意的是,这两种方法被广泛应用于网络科学和神经科学。具体来说,平均路径长度衡量任意一对节点之间的平均最短路径距离;聚类系数衡量给定节点邻域内节点之间的边的比例,除以它们之间可能存在的边的数量,然后在所有节点上取平均值。
2.2 图生成器的设计
作者提出了WS-flex图生成器,该生成器可以生成覆盖图度量广泛的图。值得注意的是,WS-flex图几乎涵盖了经典随机生成器生成的所有图,如图2所示。WS-flex生成器通过放宽所有节点在随机重新布线之前具有相同程度的约束来概括WS模型。
图2 由不同图生成器生成的图
2.3 控制计算预算
为了比较由这些不同的图翻译的神经网络,重要的是确保所有网络具有近似相同的复杂性,从而性能的差异是由于它们的关系图结构。作者使用FLOPS作为度量标准。作者首先计算基线网络实例(即完整的关系图)的FLOPS,并在每个实验中使用它们作为参考复杂度。通过将维度或通道划分为不相交的节点特征集,关系图结构可以被实例化为具有可变宽度的神经网络。因此可以方便地调整神经网络的宽度以匹配参考复杂度(在基线FLOPS的0.5%以内),而无需改变关系图结构。
3
实验
考虑到要探索的候选图数量众多(总共3942个),作者首先研究了在CIFAR-10数据集上的MLPs的图结构,该数据集具有50K的训练图像和10K验证图像。然后,进一步研究了更大和更复杂的ImageNet分类任务,它由1K个图像类、1.28M个训练图像和50K个验证图像组成。
作者针对不同任务和体系结构上的所有采样关系图收集top-1错误,并记录每个采样图的度量值(平均路径长度L和聚类系数C)。将这些结果显示为图度量与预测性能的热图(图3(a)(c)(f))。
图3 主要结果
图3每个可视化结果平均至少3个随机种子。C = 1和L = 1(右下角)的完整图形被视为基线。(a)(c)图衡量与神经网络性能的关系。最好的图明显优于基线完全图。(b)(d)单图度量与神经网络性能。落在给定范围内的关系图显示为灰点。总体平滑函数由蓝色回归线指示。(e)跨架构的一致性。显示了当转换为不同的神经体系结构时,同一组52个关系图的性能相关性。(f)所有实验的总结。最佳关系图(红叉)在不同设置下始终优于基线完整图。此外,作者突出显示了“最佳点”(红色矩形区域),其中关系图在统计上并不比最佳关系图(带有红叉的容器)差。CIFAR-10上5层MLP的面元值是C和L落入给定面元的所有关系图的平均值。
训练成千上万个关系图,直到收敛为止可能在计算上令人望而却步。作者定量地表明,可以通过更少的计算成本来确定最佳位置,例如,通过对更少的图进行采样和对更少的epoch进行训练。
图4 快速识别最佳位置
图4左图使用较少的关系图样本和使用所有3942个图确定的最佳位置之间的相关性。右图在中间训练时期和最后时期(100个epoch)之间确定的最佳位置之间的相关性。
在实验中作者发现,性能最佳的关系图令人惊讶地类似于生物神经网络,如表1和图5所示。相似之处有两方面:(1)顶级人工神经网络的图度量(L和C)与生物神经网络高度相似;(2)通过关系图表示,可以将生物神经网络转换为5层MLP,并发现这些网络也优于基线完全图。
表1 顶级的人工神经网络可以类似于生物神经网络
图5 生物(左)和人工(右)神经网络图结构的可视化
4
结论
总而言之,作者提出了一种使用关系图表示来分析和理解神经网络的新观点,提出了从研究传统计算架构到研究神经网络图结构的新转变,并展示了其他科学学科(网络科学,神经科学等)提供的完善的图技术和方法可以有助于理解和设计深层神经网络。作者认为,这可能是未来研究应对更复杂情况的一个富有成果的途径。