0 引言
我们这篇文章讨论的问题是根据 ICLR 2019 中的一篇文章而来:《CRITICAL LEARNING PERIODS IN DEEP NETWORKS》[1]。在这篇文章中,作者提出了这样一个概念:对于深度神经网络来说,与动物和人类的学习过程类似,其对于技能的学习过程也存在一个“关键学习期”。从生物学角度来看,关键期(critical periods)是指出生后早期发育的时间窗口,在这期间,感知缺陷可能导致永久性的技能损伤。生物学领域的研究人员已经发现并记录了影响一系列物种和系统的关键期,包括小猫的视力、鸟类的歌曲学习等等。对于人类来说,在视觉发育的关键时期,未被矫正的眼睛缺陷(如斜视、白内障)会导致 1/50 的成人弱视。
生物学领域的研究人员已经确定,人类或动物存在关键期的原因是对神经元可塑性窗口的生物化学调控(the biochemical modulation of windows of neuronal plasticity)[2]。神经网络最早起源就是期望模拟人脑神经元的工作模式,Achille 等在文献 [1] 中证明了深度神经网络对感觉缺陷的反应方式与在人类和动物模型中观察到的类似。在动物模型中最终造成的损害的程度取决于缺陷窗口的开始(onset)和长度(length),而在神经网络中则取决于神经网络的大小。不过,在神经网络中,缺陷并不会影响低层次的统计特征,如图像的垂直翻转,同时对性能并没有持久的影响,以及最终可以通过进一步的训练来克服。这一研究发现引发了作者的思考,他认为,深度神经网络学习中存在的 “关键期” 可能来自于信息处理,而不是生化现象[1]。这一发现最终引发了本文所讨论的问题,即 DNNs 中的关键学习期现象。
与此类似,我们也看到了其它一些讨论相关问题的文章。当然,这些文章并没有从 “关键期” 的角度来讨论这个问题,只不过其所揭示的规律与 [1] 中关于 DNNs 中的关键期现象的规律非常相似,主要探讨的是深度神经网络训练早期阶段的问题,即在深度神经网络的训练过程中,早期阶段与其它阶段具有不同的“特点”。由于这些研究能够从另外的角度证实 DNNs 中存在“关键学习期”,所以我们也将它们纳入到本文的讨论中。
例如,来自纽约大学等多家大学和研究机构的研究人员的工作《The Break-Even Point on Optimization Trajectories of Deep Neural Networks》[5],提出了一种模拟 DNNs 早期训练轨迹的简化模型。作者表示,损失面的局部曲率(Hessian 的频谱范数)沿 DNNs 优化轨迹单调地增加或减少。梯度下降在 DNNs 训练早期阶段会最终达到一个点,在这个点上梯度下降会沿着损失面的最弯曲方向振动,这一点称为损益平衡点(break-even point)。此外,来自 Princeton 大学和 Google 大脑团队的研究人员发表的《The Surprising Simplicity of the Early-Time Learning Dynamics of Neural Networks》[4]指出,可以通过训练一个简单模型来模仿双层全连接神经网络早期学习阶段的梯度下降动态变化。当只训练第一层时,这个简单的模型是输入特征的线性函数;当训练第二层或两层时,它是特征和其 L2-norm 的线性函数。这一结果意味着,神经网络直到训练后期才会完全发挥其非线性能力。最后一篇文章发表在 PLOS COMPUTATIONAL BIOLOGY 中,提出了一个模仿人类视觉系统行为的前馈卷积网络,作者具体分析了分析了不同层次的网络表征("virtual fMRI"),并研究了网络容量(即单元数量)对内部表征的影响。
1 深度网络中的关键学习期 [1]
1.1 问题阐述
一个非常著名的影响人类的关键期缺陷的示例是人类在婴儿期或儿童期白内障引起的弱视(一只眼睛的视力下降)[6]。即使在手术矫正白内障后,患者恢复患眼正常视力的能力也取决于视力缺陷的持续时间和发病年龄,早期和长期的视力缺陷会造成更严重的影响。本文的的目标是研究 DNN 中类似缺陷的影响。为此,作者训练了一个标准的 All-CNN 架构,对 CIFAR-10 数据库中的 32x32 大小图像中的物体进行分类。实验中使用 SGD 进行训练。为了模拟白内障的影响,在最初的 t_0 个 epoch 中,数据库中的图像被下采样为 8x8 大小,然后使用双线性插值上采样为 32x32 大小以得到模糊处理的图像,破坏了小尺度图像细节。之后,继续训练 160 个 epoch 以确保网络收敛,并确保它能够得到与对照组(t_0=0)实验中相同数量的未损坏的图像。
图 1 给出了受缺陷影响的网络的最终性能,具体的,将该性能展示为纠正缺陷 epoch t_0 的函数。我们可以很容易地从图 1 中观察到一个关键时期的存在。如果在最初的 40-60 个 epoch 中没有去除模糊,那么与基线方法相比,最终的性能会严重下降(误差最多会增加三倍)。这种性能的下降遵循在动物身上普遍观察到的趋势,例如早期研究中证实的在小猫出生后被剥夺单眼的情况下观察到的视觉敏锐度的损失与缺陷的长度有关[7]。
图 1. DNN 中显示出的关键期
由上述实验给出的结果人们很自然地会提问:是否输入数据分布的任何变化都会有一个相应的学习关键期?作者表示,对于神经元网络来说,情况并非如此,它们有足够的可塑性来适应感觉处理(sensory processing)的 high-level 变化。例如,成年人类能够迅速适应某些剧烈的变化,如视野的倒置。在图 2 中,我们观察到 DNN 也基本上不受 high-level 缺陷的影响—比如图像的垂直翻转或输出标签的随机排列。在缺陷修正之后,网络很快就恢复了它的基线性能。这暗示了数据分布的结构和优化算法之间存在更精细的相互作用,进而导致存在一个关键期。
接下来,作者对网络施加了一个更激烈的缺陷攻击,令每个图像都被白噪声取代。图 2 显示,这种极端的缺陷所表现出的效果明显比只模糊图像所得到的效果要轻。用白噪声训练网络并不会提供任何关于自然图像的信息,因此,与其它缺陷(例如,图像模糊)相比,白噪声的效果更温和。不过,白噪声中包含了一些信息,从而导致网络(错误地)学习图像中并没有存在的精细结构。
图 2.(左)High-level 的扰动并不会导致关键期。当缺陷只影响 high-level 特征(图像的垂直翻转)或 CNN 的最后一层(标签互换)时,网络不会表现出关键期(测试准确度基本保持平稳)。另一方面,类似于感知剥夺的缺陷(图像被随机噪声取代)确实会导致缺陷,但其影响没有图像模糊的情况那么严重。(右)关键期曲线对网络深度的依赖情况。添加更多的卷积层会增大关键期缺陷的影响。
图 3 显示,在 MNIST 库上训练的全连接网络也存在图像模糊缺陷的关键期。因此,作者认为(对于重现模型训练的关键期)卷积结构不是必需的,使用自然图像也不是必需的。同样,在 CIFAR-10 上训练的 ResNet-18 也有一个关键期,它也比标准卷积网络中的关键期明显更清晰(图 1)。作者分析,ResNets 允许梯度更容易地反向传播到低层,其关键期的存在可以表明关键期不是由梯度消失引起的。图 2(右)显示,关键期的存在确实关键地取决于网络的深度。在图 3 中,作者确认,即使在网络以恒定的学习速率训练时,也存在一个关键期。图 3(右下角)显示,当使用 Adam 作为优化器时,使用其前两个时刻的运行平均值对梯度进行重归一化,我们仍然观察到一个与标准 SGD 类似的关键期。改变优化的超参数可以改变关键期的形状:图 3(左下角)显示,增加权重衰减(weight decay)使关键期更长,更不尖锐。这可以解释为它既减慢了网络的收敛速度,又限制了 high-level 为克服缺陷而改变的能力,从而鼓励 low-level 也学习新特征。
图 3. 不同 DNN 架构和优化方案中的关键期
1.2 Fisher 信息分析
作者根据经验确定,在动物和 DNN 中,训练的早期阶段对训练过程的结果至关重要。在动物中,这与缺陷有关的区域的大脑结构变化密切相关。这在人工网络中不可避免地有所不同,因为它们的连接性在训练期间一直都是固定的。然而,并不是所有的连接对网络都同样有用。考虑一个编码近似后验分布 p_ω(y|x)的网络,其中,ω表示权重参数。来自特定连接的最终输出的依赖性可以通过扰动相应的权重和观察最终分布的变化幅度来估计。给定权重扰动ω'=ω+δω,p_ω(y|x)和由扰动生成的 p_ω'(y|x)之间的偏差可以由 K-L 散度度量,即:
其中的 F 为 Fisher 信息矩阵(Fisher Information Matrix,FIM):
FIM 可以被认为是一个局部指标,用于衡量一个单一权重(或一个权重组合)的扰动对网络输出的影响程度。特别是,具有低 Fisher 信息的权重可以被改变或 "修剪",对网络的性能影响不大。这表明,Fisher 信息可以作为 DNN 有效连接的衡量指标,或者,更广泛地说,作为连接的 "突触强度(synaptic strength)" 的衡量标准。最后,FIM 也是损失函数 Hessian 的半定逼近,因此也是训练过程中某一点ω的损失情况的曲率,在 FIM 和优化程序之间提供了一种关联性。
不幸的是,完整的 FIM 太大,无法计算。因此,本文作者使用它的轨迹来测量全局或逐层的连接强度。作者提出使用以下方法计算 FIM:
为了捕捉非对角线项的行为,作者还尝试使用 Kronecker-Factorized 近似计算全矩阵的对数行列式。作者观察到了与 trace 相同的定性趋势。由于 FIM 是一个局部测量,它对损失情况的不规则性非常敏感。因此,作者在文中主要使用 ResNets,ResNets 具备相对平滑的损失情况。对于其他架构,作者则使用一个基于在权重中注入噪声的更稳健的 FIM 估计器。
FIM 可以被确定为对模型中包含的训练数据信息量的一种衡量。在此基础上,人们会期望随着从经验中获得信息,连接(connection)的总体强度会单调地增加。然而,情况并非如此。虽然在早期阶段网络就获得了有关数据的信息,从而使得连接强度的大幅增加,但一旦任务的表现开始趋于平稳,网络就开始降低其连接的整体强度。然而,这并不对应于性能的降低,相反,性能一直在缓慢提高。这可以被看作是一个 "遗忘" 或 "压缩" 阶段,在这个阶段,多余的连接被消除,数据中不相关的变化被抛弃。在学习和大脑发育过程中,消除("修剪")不必要的突触是一个基本的过程,这一点已经得到了前期研究的证实(图 4,中心)[8]。在图 4(左)中,类似的现象在 DNN 中得到了清晰和定量的显示。
连接强度的这些变化与对关键期诱发的缺陷(如图像模糊)的敏感性密切相关,如图 1 中使用 "滑动窗口" 方法计算。在图 4 中,我们看到敏感性与 FIM 的趋势密切相关。FIM 是在没有缺陷的情况下在网络训练过程中的一个点上计算的局部数量,而关键期的敏感性是在有缺陷的网络训练结束后,使用测试数据计算的。图 4(右)进一步强调了缺陷对 FIM 的影响:在存在缺陷的情况下,FIM 会增长,甚至在缺陷消除后仍然大幅增长。作者分析,这可能是由于当数据被破坏到无法分类时,网络被迫记忆标签,因此增加了执行相同任务所需的信息量。
图 4. DNN 的关键期可追溯到 Fisher 信息的变化
对 FIM 的逐层分析进一步揭示了缺陷对网络的影响。
在没有缺陷的情况下训练网络时(在这种情况下是 All-CNN,它比 ResNet 有更清晰的层次划分),最重要的连接是在中间层(图 5,左),它可以在最有信息量的中间尺度上处理输入的 CIFAR-10 图像。然而,如果网络最初是在模糊的数据上训练的(图 5,右上方),连接的强度是由顶层(第 6 层)主导的。作者分析,这是因为图像的低层和中层结构被破坏了。然而,如果在训练的早期消除缺陷(图 5,顶部中心),网络会设法 "重组",以减少最后一层所包含的信息,同时增加中间层的信息。作者把这些现象称为 "信息可塑性" 的变化。然而,如果数据变化发生在巩固阶段(consolidation phase)之后,网络就无法改变其有效连接。每层的连接强度基本上保持不变。此时,网络失去了它的信息可塑性,错过了它的关键期。
图 5. 各层权重所含信息的归一化数量与训练 epoch 的关系。(左上)在没有缺陷的情况下,网络主要依靠中间层(3-4-5)来解决任务。(右上)在存在图像模糊缺陷的情况下,直到第 100 个 epoch,更多的资源被分配到高层(6-7),而不是中间层。(顶部中心)当缺陷在较早的 epoch 被消除时,各层可以部分地重新配置 (例如,第 6 层中信息的快速损失)。(最下面一行) 同样的图,但引入的是翻转缺陷,并不会诱发关键期。
最后,对 FIM 的分析也揭示了损失函数的几何形状和学习动态。由于 FIM 可以被解释为残余分布 (landscape) 的局部曲率,图 4 显示,学习需要越过瓶颈阶段。在初始阶段,网络进入高曲率的区域(高 Fisher 信息),一旦开始进入巩固阶段,曲率就会下降,使其能够跨越瓶颈以进入后续阶段。收敛的早期阶段是引导网络走向 "正确的" 收敛结果的关键。关键期的结束是在网络跨越了所有的瓶颈(从而学会了特征)并进入一个收敛区域(低曲率的权重空间区域,或低 Fisher 信息)之后。
1.3 讨论
到目前为止,关键期仍被认为是一种专门的生物现象。同时,对 DNN 的分析主要集中在其渐进特性上,而忽略了其初始的瞬态行为。作者表示,本文是第一个探讨人工神经网络临界期现象的文章,并强调瞬态在决定人工神经网络的渐进性能中的关键作用。受突触连接在调节关键期作用的启发,作者引入了 Fisher 信息来研究这个阶段。文章表明,对缺陷的最初敏感性与 FIM 的变化密切相关,既是全局性的,因为网络首先迅速增加,然后减少储存的信息量;也是分层的,因为网络 "重组" 其有效连接,以最佳方式处理信息。
本文工作与生物学中关于关键期的大量文献相关。尽管人工网络是神经元网络的一种极其简化的近似,但它们表现出的行为与在人类和动物模型中观察到的关键期有本质上的相似。本文给出的信息分析表明,DNN 中最初的快速记忆阶段之后是信息可塑性的损失,这反过来又进一步提高了其性能。在文献 [9] 中,作者观察到并讨论了训练的两个不同阶段的存在,他们的分析建立在激活的(香农)信息上,而不是权重的(费雪)Fisher 信息。在多层感知器(MLP)上,文献 [9] 根据经验将这两个阶段与梯度协方差的突然增加联系起来。然而,必须注意的是,FIM 的计算是使用与模型预测有关的梯度,而不是与 ground-truth 标签有关的梯度,这就会导致质量差异。图 6 显示梯度的均值和标准偏差在有缺陷和无缺陷的训练中没有表现出明显的趋势,因此,与 FIM 不同,它与对关键期的敏感性没有关联。
图 6. 训练期间梯度均值(实线)和标准偏差(虚线)的对数值。(左)不存在缺陷,(中)第 70 个 epoch 后出现模糊缺陷,(右)最后一个 epoch 出现缺陷。
除了与关键期的缺陷敏感性有密切的关系外,Fisher 信息还具有一些技术优势,包括对角线易估计、对互信息的选择估计器不敏感,以及能够辅助探测人工神经网络中各层有效连接的变化情况。
对激活的完整分析不仅要考虑到信息量(包括与任务有关的和与干扰有关的),还要考虑其可及性,例如,与任务有关的信息能多容易被一个线性分类器提取出来。按照类似的想法,Montavon 等人 [10] 通过对每层表征的径向基函数(RBF)核嵌入进行主成分分析(PCA),研究了表征的简单性的逐层或 "空间"(不是时间)的演变。他们表明,在多层感知器上,与任务相关的信息更多地集中在表征嵌入的第一个主成分上,从而使得它们变得更容易被逐层 "访问"。本文工作专注于权重的时间演变。一个具有较简单权重的网络(由 FIM 测量)也需要一个较简单的平滑表示(如由 RBF 嵌入测量),以抵抗权重的扰动从而正常运行。因此,本文分析与 Montavon 等人的工作是一致的。同时使用这两个框架来研究网络的联合时空演变情况将会非常有趣。
关注权重信息而不是激活或网络行为的一个好处是:在关键期有一个 "有效连接" 的读数。在人工和神经元网络中,消除缺陷后的 "行为" 读数有可能被视觉通路不同层次的缺陷适应性变化所混淆。
Knudsen 对动物模型中的关键期给出了一个精辟的解释:神经元网络的初始连接是不稳定的,容易修改(高度可塑性),但随着观察到更多的 "样本",它们会发生变化并达到一个更稳定的配置,难以修改[11]。然而,在新创建的连接模式中仍然可以存在学习。这与本文的研究结果基本一致。当连接被重塑时,对关键期诱导缺陷的敏感度达到峰值(图 4,左),并且在有缺陷和无缺陷的网络中观察到不同的连接图谱(图 5)。对于高级别的缺陷来说,如图像翻转和标签置换,不需要对网络的连接进行彻底的重组就能纠正缺陷,因此不存在关键期。
此外,本文的工作也可以与预训练进行比较。Erhan 等人研究了某种相关的、但现在很少使用的层间无监督预训练的做法,并认为可以将它用作一个正则化算子(regularizer)从而将网络的权重向更接近好的解决方案的损失情况移动,而且早期样本在引导网络向特定解决方案移动方面具有更好的效果[12]。
图 4 表明,SGD 在网络训练中经历了两个不同的阶段。起初,网络向损失情况的高曲率区域移动;而在第二阶段,曲率下降,网络最终收敛到一个平坦的最小值。作者把这些解释为网络在训练过程中为了学习有用的特征而跨越了瓶颈,最终在学习完成后进入损失面的平坦区域。当把这一假设与缺陷敏感性分析结合起来时,我们可以假设,关键期恰恰发生在跨越这一瓶颈时。同样值得注意的是,有证据表明,在 DNN 中收敛到平坦的最小值(低曲率的最小值)与良好的泛化性能相关。与该解释一致,图 4(右)显示,受缺陷影响较大的网络最终会收敛到更尖锐的最小值。然而,我们也发现,网络的性能在早期的 "敏感" 阶段已经基本确定。因此,作者也承认,实验中收敛时的最终锐度可能是一个偶发现象,而不是已经经过良好总结和概括后推导出的原因。
本文的研究目标并不是通过人工网络来研究人类(或动物)的大脑,而是了解基本的信息处理现象,包括其在生物和人工的实现。此外,作者强调尽管文中的分析和实验显示生物大脑或人工网络都存在关键期,但并不是说 DNN 就一定是神经生物学信息处理的有效模型。关于 "人工神经科学" 的工作,其研究部分是为了满足开发 "可解释的" 人工智能系统的技术需要,以使得这些系统的行为可以被理解和预测。神经科学家往往采用数学模型来研究生物现象,而我们选择利用周知的生物现象来帮助理解人工网络的信息处理。反过来说,探讨如何测试生物网络修剪连接是否是信息可塑性损失的结果,而不是原因,也将是很有趣的。学习和发展过程中网络重构的机制可能是在基本信息处理现象的推动下获得的进化结果。
2 深度神经网络优化轨迹的损益平衡点 [5]
这篇文章与严格意义上生物学概念的 “关键期” 并无直接关联,它聚焦的问题是“深度神经网络的早期训练阶段对其最终性能影响的重要性”。尽管它并没有与生物学理念相关联,但其探讨的是深度学习中关键学习期(早期训练阶段)问题,所以我们也对本文进行解读。
2.1 问题阐述
近年来,关于深度神经网络(DNNs)的研究和应用发展迅速,但关于其优化和泛化能力之间的联系并没有被完全理解。例如,使用一个大的初始学习率往往能够提高 DNNs 的泛化能力,但却是以减少初始训练损失为代价的。相比之下,使用批归一化层(batch normalization layers)通常可以提高深度神经网络的泛化能力和收敛速度。关于深度神经网络早期训练阶段的研究是解决 DNN 优化和泛化能力之间联系的有效途径。例如,在训练的早期阶段引入正则化处理是实现良好泛化能力的必要条件。
本文具体研究了优化轨迹对训练的早期阶段的依赖性。作者引入梯度协方差研究小批量梯度的噪声,引入 Hessian 研究损失面的局部曲率,梯度协方差矩阵和 Hessian 矩阵能够有效捕捉 DNN 的优化和泛化性能的重要性和互补能力。此外,作者陈述并提出了关于优化轨迹对训练早期阶段的依赖性的两个猜想的经验证据。最后,作者将本文分析应用于具有批归一化(batch normalization,BN)层的网络,发现本文的预测在这种情况下也是有效的。
2.2 损益平衡点和关于 SGD 轨迹的两个猜想
作者的研究动机是为了更好地理解 DNNs 的优化和泛化能力之间的联系。在本节中,作者具体研究梯度的协方差(K)和 Hessian(H)如何取决于训练的早期阶段。
首先,定义样本 (x,y) 的损失为 L(x,y; θ),其中θ为 D 维参数向量。训练损失的 Hessian 矩阵记为 H,梯度协方差矩阵记为:
其中,g_i 表示梯度,g 为全批次梯度。
作者引入以下条件来量化给定θ(t)的稳定性。参数θ投射到(e_H)^1 表示为下式((e_H)^1 为 H 的第 1 个特征向量):
可以令
如果下列序列的范数在τ趋向于无穷大时不收敛,则称 SGD 沿(e_H)^1 是不稳定的:
其中,ψ(0)=θ(t)。序列ψ(t)表征每一步骤 t’>t 映射到(e_H)^1 中的优化策略。
假设。根据实证研究的结论,作者做了以下假设:
1. 投影到(e_H)^1 的损失面是一个二次一维函数。2. 特征向量(e_H)^1 和(e_K)^1 是共线的。3. 如果沿(e_H)^1 优化在下一步会出现下降,则沿(e_H)^1 方向距离最小值的距离值在下一步会增大。4. H 的谱范数(λ_H)^1 在训练阶段增大,沿(e_H)^1 方向距离最小值的距离值减小,如果不满足,则增大(λ_H)^1 会导致进入一个特定区域,该区域中沿(e_H)^1 方向的训练是不稳定的。
此外,作者还假设 S≥N,即,与训练样本的数量相比,批处理的规模较小。
较大的学习率或较小的批处理量会更早达到损益平衡点。仅考虑从θ(0)开始的训练,且沿 (e_H)^1(0)^2 的 SGD 稳定。本文目标是证明学习率(η) 和批大小 (S) 在本文模型中决定了 H 和 K,并猜想其它神经网络在经验上也是如此。
给定η_1 和 η_2 对应的优化轨迹,η_1 > η_2,二者从相同的θ_0 初始化。根据假设 1,沿 (e_H)^1(t) 的损失面为:
可以证明,在任何迭代 t,SGD 沿 (e_H)^1(t) 稳定的必要和充分条件是
N 为训练样本集大小,s(t)^2=Var[H_i(t)]。作者把上式中公式左边第一次变为 1 时对应的轨迹上的这一点称为损益平衡点(break-even point)。根据定义,训练轨迹上只存在一个损益平衡点。
根据假设 3 可知,(λ_H)^1(t)和 (λ_K)^1(t) 随时间增大。当 S=N,损益平衡点为(λ_H)^1(t)=2/η。由假设 4 可知,在通过训练轨迹上的损益平衡点后,SGD 不会进入(λ_H)^1 或(λ_K)^1 大于损益平衡点的区域,否则会导致上式左半部分中的一个项增加,从而沿(e_H)^1 失去稳定性。
关于 DNN 的两个猜想。假设 DNN 达到了损益平衡点,作者对其优化轨迹提出以下两个猜想。达到损益平衡点的最直接含义是,损益平衡点的(λ_H)^1 和(λ_K)^1 取决于η和 S,将其形式化为:猜想 1(SGD 的方差减少效应)。沿着 SGD 的轨迹,在较大的学习率或较小的批处理规模下,(λ_H)^1 和(λ_K)^1 的最大值较小。猜想 2(SGD 的预处理效果)。沿着 SGD 的轨迹,学习率越大或批越小,则有 ((λ_H)^*)/((λ_H)^1) 和((λ_K)^*)/((λ_K)^1)的最大值就越大,其中λ_K * 和λ_H * 分别是 K 和 H 的最小非零特征值。此外,对于较大的学习率或较小的批规模,Tr(K)和 Tr(H)的最大值也较小。
作者在猜想中考虑了非零特征值,因为 K 最多有 N-1 个非零特征值,其中 N 是训练数据的数量,这一数量在超参数化的 DNN 中可能比 D 小很多。这两个猜想只对能够保证训练收敛的学习率和批大小有效。
2.3 实验分析
作者首先分析了训练早期阶段的学习情况。接下来,对两个猜想进行了经验性研究。在最后一部分,作者将分析扩展到具有批规一化层的神经网络。作者在实验中使用的数据库包括 CIFAR-10、IMDB、ImageNet、MNLI。使用的网络结构包括 SimpleCNN、ResNet-32、LSTM、DenseNet、BERT。
本文理论模型的关键假设是,(λ_H)^1 和(λ_K)^1 是相关的,至少在达到损益平衡点之前是这样的。作者在图 7 中证实了这一点。对于较小的η来说,(λ_H)^1 和(λ_K)^1 可得的最大值是较大的。根据假设 3,(λ_H)^1 和(λ_K)^1 的增大会导致稳定性的降低,作者将其形式化为沿(e_H)^1 的稳定性。不过,直接计算沿(λ_H)^1 的稳定性的计算代价非常高。因此,作者转为测量一个更实用的度量标准:在每一次迭代中,连续两个步骤之间的训练损失的差异ΔL。
图 7. 在不同的训练迭代中,H 的谱范数(左)和ΔL(在两个连续步骤之间计算的训练损失的差异,右)与(λ_K)^1 的对比。用 SimpleCNN 在 CIFAR-10 数据库上进行实验,有两种不同的学习率(颜色不同)
接着,作者对猜想 1 和猜想 2 进行了经验性验证。对于每个模型,手动选择合适的学习率和批大小,以确保 K 和 H 的属性在合理的计算代价下收敛。实验中主要是研究梯度的协方差(K),当改变训练的批大小时,使用 128 的批大小来计算 K。当改变学习率时,使用与训练模型相同的批大小。图 8 中给出实验结果。
图 8. SGD 的方差减少和预处理效果。与较大的学习率(η)或较小的批大小(S)相对应的优化轨迹的特点是较低的最大(λ_K)^1(梯度协方差的谱范数)和较大的最大((λ_K)^*)/((λ_K)^1)(梯度协方差的条件数)。垂直线标志着训练准确度大于(第一次)手动挑选的阈值的 epoch,这说明这些影响不是由训练速度的差异所解释的。
然后,作者在两个更大规模的环境中测试这两个猜想:BERT 在 MNLI 数据库上进行微调,DenseNet 在 ImageNet 数据库上进行训练。由于内存的限制,作者在实验中只改变了学习率。图 9 给出了实验结果。我们观察到,这两个猜想在这两种情况下都成立。值得注意的是,DenseNet 使用了批归一化层。
图 9. Variance 减少和 SGD 的预调效果
最后的实验是关于在具有批规一化层的网络中,学习率对调节(conditioning)的重要性。深度神经网络的损失面是 ill-condition 的。近年来,一些研究人员认为批规一化具有有效性的关键原因是能够改善损失面的 conditioning。为了研究猜想是否在具有批归一化层的网络中成立,作者在 CIFAR-10 数据库上使用具有批归一化层的 SimpleCNN 模型(SimpleCNN-BN)进行了实验。结果见图 10。
图 10. 改变学习率对各种指标的影响,SimpleCNN 有和没有批规一化层(SimpleCNN-BN 和 SimpleCNN)
由图 10(底部)可知,SimpleCNN-BN 的训练开始于一个 (λ_K)^1 相对较高的区域。这与之前研究的结论是一致的[13],即带有批归一化层的网络在第一次迭代中会出现梯度爆炸的现象。然后,除了最低的η值之外,所有的(λ_K)^1 值都会衰减。这种行为与本文的理论模型是一致的。作者还跟踪了图 10(底部)中网络最后一层的批归一化层中的缩放因子的范数 ||γ||。作者比较了两种设置。
SimpleCNN-BN,η=0.001;SimpleCNN,η=0.01。作者得出了三个观察结果。首先,||g||/||g_5|| 的最大值和最小值分别为 1.90(1.37) 和 2.02(1.09)。第二,(λ_K)^1 的最大值和最小值分别为 12.05 和 3.30。最后,((λ_K)^*)/((λ_K)^1)在第一个设定中达到 0.343,在第二个设定中达到 0.24。将这些差异与 SimpleCNN-BN 中使用最高η=1.0 所引起的差异相比较,作者得出结论:使用较大的学习率会导致损失平滑的效果,而这在以前只会由批规一化处理所导致。
作者证明,猜想 1 和猜想 2 中预测的学习率的影响在有批归一化层的网络中是成立的,与没有批归一化层的同一网络中损失面的调节(conditioning)相比,在有批归一化层的网络中使用较大的学习率对于改进损失面的调节是有效的。
3 神经网络早期学习动力学的简单性 [4]
现代神经网络通常被认为是复杂的黑箱函数,由于其对数据的非线性依赖和损失情况(loss landscape)的非凸性,其工作过程和输出结果难以理解。在本文的工作中,作者尝试分析和证明神经网络的早期学习阶段的情况可能并非如此。作者在文章中证明,对于一类 well-behaved 输入分布,在早期训练阶段,具有任何共同激活的两层全连接神经网络的梯度下降动态变化过程都可以通过训练一个针对此输入的简单模型来模仿。当只训练第一层时,这个简单的模型是输入特征的线性函数;当训练第二层或两层时,它是特征和其 L_2 范数的线性函数。这一结果意味着,神经网络直到训练的后期阶段才会完全发挥其非线性能力。
3.1 两层神经网络
考虑一个有 m 个隐藏神经元的两层全连接神经网络,定义为:
(1)
其中,x 为输入,W 为第一层的权重矩阵,v 为第二层的权重向量,φ为激活函数。令 {(x_i,y_i)} 表征 n 个训练样本,x_i 为输入,y_i 为对应的输出。X 为数据矩阵,y 为对应的标签向量。考虑 L_2 训练损失如下:
(2)
从随机初始化开始对目标公式(2)运行梯度下降(Gradient descent, GD)处理。具体来说,对权重(W, v)进行以下对称初始化处理:
(3)
令 (W(0), v(0)) 表征一组从对称初始化公式 (3) 中提取的初始权重。然后根据 GD 来更新权重:
(4)
其中,η_1 和η_2 分别为学习速率。
接下来,作者给出输入分布假设。假设 3.1(输入分布)。数据 x_1,...,x_n 是来自均值为 0、协方差为 0 的分布 D 的独立同分布(i.i.d.)样本,使得 Tr[∑]=d 和 ||∑||=O(1)。此外,x~ D 可以写成 x =∑^(1/2) 1x,其中 x 的输入是独立的,都是 O(1)-subgaussian 的。假设 3.2(激活函数)。激活函数φ满足以下任一条件:(i)平滑激活:φ具有有界的一阶和二阶导数:
或 (ii) 块状线性激活:
Claim3.1。假设 n 远大于 d,那么在假设 3.1 下,我们有很大概率能够得到:
本节的结果是证明由 GD 训练的神经网络在训练的早期阶段近似于一个线性函数。由于神经网络中两层的贡献是不同的,作者将后续讨论分为只训练第一层、只训练第二层和两层一起训练。
3.1.1 只训练第一层
只考虑训练第一层权重 W,这相当于在公式(4)中设置η_2=0。在训练的早期阶段,引入一个用于模仿神经网络(f_t)^1 的线性模型:
(5)
考虑通过 GD 在 L_2 损失上从零开始训练这个线性模型:
(6)
定理 3.2(训练第一层的主要定理)。令α∈(0,1/4)为一个固定的常数。假设训练样本的数量 n 和网络宽度 m 满足
假设η_1 远小于 d,η_2 = 0,那么存在一个常数 c > 0,在很大的概率下对于所有 t 神经网络和线性模型在训练数据上平均接近。
(7)
大概率地,对于所有的 t,我们有
(8)
3.1.2 只训练第二层
只考虑训练第二层权重 v,这相当于在公式(4)中设置η_1=0。在训练的早期阶段,用于模仿神经网络(f_t)^2 的线性模型是
(9)
从零开始,使用 GD 训练该线性模型:
(10)
令(f_t)^lin2 表征第 t 轮循环的结果模型。
严格意义上讲 f^lin2(x;γ)并不是关于 x 的线性模型,不过在本文分析的数据中,根据 Claim3.1,||x||/sqrt(d)≈1,所以非线性的特征几乎可以忽略。与第一层的训练类似,本文用于训练第二层的主要定理如下:
定理 3.5(训练第二层的主要定理)。令α为常数,假设:
存在一个常数 c>0,在很高的概率下,对所有 t 同时我们有
3.1.3 同时训练两层
最后,考虑同时训练两层的情况,这相当于在公式(4)中设置η_1=η_2=η>0。在训练的早期阶段,用于模仿神经网络(f_t)^2 的线性模型是
(11)
3.2 初步验证
作者通过在 x~ N(0, I)和 y = sign(f*(x))产生的合成数据上训练一个具有误差函数(erf) 激活和宽度为 256 的两层神经网络来验证上文的理论,其中 f* 是一个宽度为 5 的真实两层误差函数(erf) 网络。在图 11a 中,作者给出了神经网络的训练和测试损失(蓝色)和其相应的线性模型 f^lin(红色)。在早期训练阶段(最多 1,000 step),网络和线性模型的训练 / 测试损失是很难区分的。
之后,达到最佳的线性模型后网络会持续改进。在图 11b 中,作者给出了网络和线性模型在 5 个随机测试例子上的输出(logits)的演变过程,我们可以看到,每个单独的样本在训练的早期阶段也展现出了很好的一致性。最后,在图 11c 中,作者改变了输入维度 d,并为每种情况绘制了网络输出和线性模型之间差异的均方误差(MSE)。我们看到,差异确实随着 d 的增大而变小,与前文的理论预测相吻合。
图 11. 两层神经网络在训练初期学习了一个线性模型。(a) 神经网络的损失和由公式 (11) 预测的相应线性模型。实线(虚线)代表训练(测试)损失。d = 50,并使用 20,000 个训练样本和 2,000 个测试样本。神经网络和线性模型在最初的 1000step 中是很难区分的,之后线性学习结束,网络继续改进。(b) 5 个随机测试例子的 logits(即输出)演变。我们看到神经网络的预测和线性模型在早期的预测阶段具有很好的一致性。(c)在不同的 d 值下,网络的输出和线性模型之间的差异(MSE)。
然后,作者通过一个学习范数相关函数的实验来说明在公式(11)和公式(9)中引入范数相关特征的必要性。作者使用的数据产生方式为:
以及使用 ReLU 激活。图 12 显示,与简单线性模型相比,f^lin 确实是一个更好的神经网络近似。
图 12. 范数依赖性特征是非常必要的。对于学习范数依赖性函数的任务,测试损失显示了具有 ReLU 激活的神经网络,其相应的线性模型预测公式(11),以及通过重置公式(11)中ν_1 = ν_2 = 0 的线性模型。本文预测的线性模型是一个更好的神经网络的近似。
3.3 扩展到多层和卷积神经网络
最后,作者给出理论和实验分析以证明神经网络和线性模型在训练早期阶段的一致性可以扩展到更复杂的网络架构和数据库上。具体的,考虑一个简单的一维 CNN,包含一个卷积层,没有池化层:
作者使用多层 FC 网络和 CNN 对 CIFAR-10 的二元分类任务("cats" 与 "horses")进行了实验。训练和测试数据的数量分别是 10,000 和 2,000。图像的原始大小为 32×32×3,使用 4×4 平均池化处理将图像缩小为 8×8×3。作者将测试数据的预测残差分解到 V_lin,即输入所覆盖的空间,以及它的补充 (V_lin)^⊥(维数为 2000d)。
对于这两个网络,我们在图 13 (a) 中观察到,网络和线性模型的测试损失在 1,000step 以内几乎是相同的,之后网络开始在 (V_lin)^⊥处改进。在图 13 (b) 中,作者绘制了 3 个随机测试数据的 logit 演变情况,并再次观察到在早期训练阶段的良好一致性。图 13 (c)绘制了网络和线性模型之间的相对 MSE。我们观察到,这两个网络的 MSE 在最初的 1000step 中是很小的,之后就会增长。
图 13. 在早期训练阶段,4 个隐藏层的 CNN/FC 网络与 CIFAR-10 的线性模型之间具有很好的一致性
4 液体的视觉感知:来自深度神经网络的启示 [3]
最后这篇文章的切入角度与前三篇不同,它提出了一个模仿人类视觉系统行为的前馈卷积网络,作者具体分析了不同层次的网络表征("virtual fMRI"),并研究了网络容量(即单元数量)对内部表征的影响。
搞清大脑是如何在视觉上计算复杂的自然物质的物理特性的任务是视觉神经科学领域的一个重大挑战。本文着重研究了液体的感知(the perception of liquids)—由于其极端的可变性和多样化的行为,液体是一类特别具有挑战性的材料。具体的,作者提出了一个可通过图像计算的模型,该模型可以从流体模拟影片中预测人类的平均粘度判断,也可以预测个体观察者在各种观察条件下的粘度判断。作者训练了一个人工神经网络,从 10 万个 20 帧的模拟中估计粘度,并发现这些模型在经历相对较少的训练步骤后(在它们达到最佳性能之前)就能很好地预测人类的感知。也就是说,在本文选择的这一视觉神经科学的研究问题中,人工神经网络也展现出了明显的“早期关键学习期”的特征。这表明,虽然人类的粘度感知非常好,但理论上还可能有更好的表现。
此外,作者在文中使用 "虚拟电生理学 (virtual electrophysiology)" 深入分析网络,揭示了网络用于估计粘度的许多不同特征。作者发现这些特征受网络参数空间大小的影响很大,但最终的预测性能几乎没有变化。这意味着在神经网络模型和人类视觉系统之间进行直接推断时需要非常谨慎。不过,本文介绍的方法还是能够为比较人类和神经网络提供一个可参考的系统性的框架。
4.1 问题背景介绍
几个世纪以来,研究人员一直试图解开人类视觉系统的工作机制—人类视觉系统能够在难以想象的广泛图像中成功识别复杂、自然的物体和材料。其中,一个特别有趣的视觉能力是人类对液体的感知。液体可以展现出一系列不同的外观,因为它们的形状极易变化,既受内部物理参数的影响,如粘度,也受外部力量的影响,如重力。区分不同液体的最重要的物理特性是粘度。迄今为止,仍然没有一个可通过图像计算的模型能够预测液体或其粘度的感知。本文作者尝试利用深度神经网络(DNNs)的最新进展来开发这样一个模型,探测模型的内部运作机制以推断出关于人类视觉系统如何刺激粘度的新假设。
在目前的机器学习中,大多数关于人工神经网络的工作都集中在获得在特定任务中的最佳性能。相比之下,本文的研究并不是开发一个在数学上最适合估计粘度的神经网络,而是开发一个最接近于模仿人类视觉系统行为的前馈卷积网络。为了评估模型与人类的相似程度,要求观察者根据影片对粘度做出判断,而这些影片也会直接展示给经过训练的神经网络以输出判断结果。
本文使用的神经网络具有适用于处理影片数据的 "慢速融合(slow-fusion)" 架构(与静态帧相对)[14]。在一个由计算机生成的流体模拟动画影片的数据库上训练该模型,这些动画影片长 20 帧,描述了液体在 10 个不同的场景类别中的互动,诱发了各种各样的行为(倾倒、搅拌、洒落等,如图 14 所示)。训练目标是估计模拟中的物理粘度参数。为了测试通用性,作者在训练期间未使用第十个场景(Scene 10),保留训练阶段中每个场景中 0.8% 的模拟动画影片用来进行验证。训练标签与模拟的 16 个不同的物理粘度步骤相对应。作为比较,人类观察者执行了一项粘度评级任务,他们观看了 800 个这些场景,并对场景分配了对应的感知粘度标签。神经网络是基于物理粘度标签上训练的,而不是人类的评分。但是,作者使用了贝叶斯优化网络的超参数(例如,学习率,动量)和层的具体设置(核大小,过滤器的数量)来确定与人类在 800 个感知的粘度标签上有良好关联的网络。训练时间相对较短,只有 30 个 epochs(整个训练库的 30 次重复)。得到这些网络后,作者分析了它们的内部表征,以确定导致类人行为的特征。
图 14. 十个不同的 stimuli 场景。场景中模拟了不同的液体相互作用,如倾泻、下雨、搅拌和浸泡。光学材料特性和照明图是随机分配的,白色平面和方形水库保持不变。
作者的主要分析和发现如下。为了确定我们是否得到了一个足够接近人类表现的模型,首先我们在逐个 stimuli 的基础上比较了网络的预测和人类的感知判断。作者发现,为估计物理粘度而训练的网络确实能够预测人类的平均粘度判断,且与人类个体的判断大致相同。人类就是这样根据视觉 stimuli 展示来学习执行不同的视觉任务的,所以这样一个在物理标签和计算机模拟上训练的网络能够预测人类的表现并不是一件非常简单的事。作者还发现,经过早期训练阶段,网络就能够输出很好的预测结果。
第二,在确定该网络能够模拟人类的表现后,作者试图通过分析该网络各个阶段的单个单元的反应特性(虚拟电生理学)来深入了解该网络的内部运作情况。具体做法是:(a)比较他们对一组手工设计的特征和真实场景属性的反应,(b)确定最强烈或最弱地驱动单元的 stimuli,以及 (c) 通过激活最大化直接将特征可视化。这些分析表明,许多单元被调整为可解释的时空和颜色特征。然而,作者也发现存在一组独特的单元,这一组单元具有较复杂反应特性(即其反应很难被我们所考虑的任何特征所解释),而这些单元对网络的性能特别重要。作者的分析还表明,手工设计的特征的线性组合本身不足以解释人类的粘度感知,这也进一步体现了额外单元的重要性。
第三,作者分析了整个层次的网络表征("虚拟 fMRI"),并研究了网络容量(即单元数量)对内部表征的影响。作者得出的主要结论有:(1) 沿着网络的层次结构,从低层次的图像描述符逐渐过渡到更高层次的特征,以及(2) 内部表征对单元数量的依赖程度与整体性能和预测人类判断的能力无关。
最后,作者在整个网络的层面上比较了表征以确认在同一数据库上训练的同一架构的 100 个实例是否产生了类似的内部表征(虚拟个体差异)。结果确实显示出高度的相似性,但随着网络层次的加深相似性略有下降(即,低层次的表征在不同的网络中几乎是相同的,但是在训练的后期阶段的差异会增大)。作者还将本文模型与其他数据库上(预)训练的网络架构进行了比较,发现在本文使用的特定训练库上训练本文所使用的网络架构可以产生与人类判断最接近的判断结果。
4.2 总体比较
4.2.1 人类的粘度评级
首先,作者尝试确定在计算机模拟液体的过程中,为估计物理粘度参数而训练的神经网络是否能够预测人类的主观粘度判断。为了做到这一点,作者首先测试了人类在粘度评级任务中的表现,以生成可与神经网络进行比较的感知判断。16 名观察者分别对 800 部液体动画影片的粘度进行评分,10 个场景类别中涵盖了 16 个粘度等级。在每个场景类别中,用不同的随机参数(如发射器速度、几何体大小或不同的照明条件)模拟了五种变化。具体关于模拟的方法本文不再赘述,感兴趣的读者可以阅读原文进行了解。粘度评分是通过 stimuli 物下方的反应滑块完成的,允许观察者报告每种液体的流动或粘稠程度。在训练期间,观察者会看到四个示例,其中包括最大和最小的粘度示例,以帮助他们确定他们的评级。
图 15 给出了人类观察员的结果(蓝线)。在整个过程中,给出的报告数值是每个场景的五个变化中的平均值。一些场景(例如,场景 1)的表现明显好于其他场景(例如,场景 4 和场景 6)。总的来说,物理粘度解释了人类评分中 68% 的变异(R^2 = 0.68,F(1,158) = 337,p < .001)。
图 15. (A) 10 个不同场景的粘度等级。X 轴显示的是物理粘度等级(1-16)。y 轴显示的是五个变化中的平均感知 / 预测的粘度。误差带显示的是平均值的标准误差(SEM)。蓝线是人类的粘度评级,红线是 DNN 的粘度预测。对角线上的虚线表示真实情况。DNN 没有在这里预测的任何 stimuli 上进行训练,场景 10(红色)被完全排除在训练库之外,以测试对其他场景的通用性;(B) X 轴显示了 Y 轴上 10 个场景中每个场景的均方根误差。这是人类观察和网络预测之间的误差。红色虚线显示的是各场景的平均误差,绿色虚线显示的是 1000 个随机抽取的观察结果的误差。
4.2.2 网络预测结果
在确定了人类在一系列条件下的表现后,我们接下来训练神经网络,目标是测试这种训练是否能够生成模仿人类判断的成功和失败模式的内部表征。具体网络结构见图 16。图 15A 给出了一个神经网络的预测结果(红线)。总的来说,该模型在解释物理粘度方面的表现与人类观察者大致相同(R^2=0.73,F(1,158)=437,P<0.001)。重要的是,该网络能很好地预测不同场景下粘度感知的差异。例如,像人类一样,该网络在场景 5 中表现良好,而在场景 4 中则表现不佳。因此,该模型正确地预测了人类感知的成功和失败。事实上,网络的预测和人类的平均判断之间的 RMSE 只有 1.50 个粘度单位(图 15B)。
图 16. 慢速融合网络结构。输入包括一个 20 帧的 64×64×3 图像的动画。包括三个连续的卷积阶段,所有神经激活都是在 ReLU 层测量的,其中的响应被合并到 parallel layers。dropout 层在训练期间以 50% 的概率将输入元素随机设置为零。
为了更好地了解网络之间的可变性,作者训练了 100 个相同的网络实例,其中只有随机初始化和训练 stimuli 的随机顺序是不同的。作者表示,本文中使用的神经网络是在误差方面能最好地预测感知粘度的网络。从图 17 中的实验结果可以看出,该网络的不同实例具有非常相似的性能。
图 17.(A)单个观察者的均方根误差(蓝色),单独训练的 DNN 网络中最终的网络有一个黑色的轮廓(红色),绿点显示了基于 1000 次随机抽样的随机性能的引导估计。如果数据点在图的下半部分,则真值的误差要大于人类的平均值或感知的粘度。(B)相同类型的图表显示了皮尔逊相关性(Pearson correlation)而不是 RMSE。在真值是控制变量的情况下,与人类平均值进行部分相关。如果数据点在图的下半部分,则与真值的相关性大于人类平均值或感知粘度的相关性。(C)与 B 相同的图,只有部分相关,其中对于物理真值,人类的平均值是一个显示独立相关性的控制变量。
粘度估计任务是非常具有挑战性的,尽管如此,神经网络仍然能够捕获人类判断的一些核心特征的空间和时间图像信息。有趣的是,进一步的训练实际上降低了网络预测人类感知粘度的能力(图 18)。在早期训练阶段的 epoch 30 左右是一个关键时刻,之后过拟合开始增加(即蓝色曲线与绿色曲线分离)。
图 18. 在 26 个单独训练的网络中,随着训练时间的增加(X 轴),展示平均训练和验证误差的变化(Y 轴)。本研究中使用的 100 个网络只训练了 30 个 epochs,因为随着训练的继续,感知的粘度预测误差会增加。
由上述分析,作者表示本文开发了一个图像可计算模型,实现了在一个具有挑战性的材料感知任务中预测人类的感知。特别是,开发这种模型的一种方法是用数万部影片训练神经网络来估计 ground-truth 物理粘度,同时通过贝叶斯优化来优化网络的超参数,使预测 800 个实验 stimuli 物的感知粘度的误差最小。此外,作者发现,通过相对较短的 30 个 epochs 的训练即可获得很好的训练结果,此后进一步的训练则会降低性能。作者表示,这一发现可以帮助克服 “只有拥有足够的标记数据才能训练模型” 的挑战,并允许我们测试特定的学习目标和训练库在人类表现中的作用。
4.3 神经活动
在确定这些网络能够为人类的感知判断提供了一个很好的模型之后,作者接下来研究它们的内部运作方式。具体来说,为了更好地了解网络所进行的计算,作者对单元级(unit-level)和层级(layer-level)的激活进行了表征相似性分析(RepresentationalSimilarity Analysis,RSA),并进行了网络间激活的比较(Centred Kernel Alignment,CKA)。
为了得到与网络反应的详细情况相关的信息(类似于单细胞电生理学)作者在单个单元的水平上进行了 RSA,映射出网络中的每个单元如何代表所有 800 个实验 stimuli 之间的关系,并将这些与基于图像和高级预测器进行比较(图 19A)。
具体来说,对于 800 个 stimuli 中的每一个 stimuli,作者从网络中收集单个单元的神经激活模式;从每个影片中计算出的图像特征值;以及与每个 stimuli 相关的高级特征(例如,感知的粘度、场景标签,图 19B)。计算 800 个 stimuli 中的每一个与所有其它 stimuli 之间的差异,并存储在一个表征差异矩阵(Representational Dissimilarity Matrix,RDM;图 19C)中。
然后,我们衡量每个图像特征的 RDM 与来自网络中特定单元的 RDM 之间的关联程度。对于卷积层中的每个单元,在 18 维的预测器空间中都有一个对应的位置。图 19D 显示了四个示例单元的 18 个预测器的一个子集,以及预测器的 RDM 和一个单元的激活 RDM 之间的相关性。为了更清楚地了解单元的具体功能,我们将最小和最大限度地激活单元的 stimuli 可视化展示(如图 19E)。
图 19.(A) 单元级分析的 RSA 工作流程。(B) 两个 stimuli 与所产生的图像度量输出的示例。重影效应(the ghosting effect)显示了随时间变化的运动。多特征指标,如运动能量和 GIST,失去了空间结构。(C)与 B 相同的图像指标的 RDM 实例。每行 / 列代表一个 stimuli,颜色表示每对 stimuli 之间在相应图像指标方面的距离。每个 RDM 都与单个单元的激活 RDM 相关,在本例中是 Unit237。(D) 最接近四个群组中心的单元的 RSA 相关性的选择。整个数据库中的两个 stimuli 为 D 的单元创造了最小和最大的激活反应。
为进一步了解驱动单个单元活动的因素,作者应用激活最大化来可视化每个单元的响应函数(图 20)。慢速融合结构的平行通路(parallel pathways)允许每条通路捕获特定时间的特征。这种关于时间和空间信息的自由的编码方式,加上较小的内核,产生的可视化结果往往是抽象的和难以解释的。第 1 层和第 2 层有不同的时间长度,可部分访问完整的图像序列(即 L1=8 帧,L2=12 帧,L3 和 L4=20 帧的完整序列)。根据视觉检查,我们发现第一层主要包含不同时间频率和方向的简单运动相关特征。颜色起了一些作用,不同程度的亮度也被编码。第二层的特征编码了一系列具有时间和颜色变化的纹理,包括具有不同方向的脉动和流动的空间 - 时间纹理。在第 3 层,特征包括不同空间和时间位置的强烈对比的纹理。然而,反应变得越来越抽象,很难想象这样的单元是真正预测粘度的,这也表明了表征是高度分布的(即依赖许多单元的群体活动,而不是特定粘度或流动模式的 "祖母细胞(grandmother cells)")。全连接的第 4 层的视觉效果主要描述了具有时间上重复出现的颜色模式的噪声斑块,这些颜色模式在各单元之间是同步的。这种同步性也发生在不同的种子图像上,表明这些颜色的敏感性在第 4 层的各个单元中都有类似的编码。针对这一现象,作者提出了一个问题:时间上的颜色序列是否可能是网络功能的一个重要线索?我们都知道,对于人类来说粘度感知在很大程度上与颜色无关。不过,继续实验我们发现,当我们使用灰度 stimuli 时,网络的预测误差只增加了 7%。这表明颜色只为粘度估计提供了有限的信息。因此,作者表示,第 4 层各单元的颜色敏感性的同步时间波动仍然难以解释。
图 20. 每个层的激活最大化结果的静态快照。全连接层 4(FC4)有 4096 个单元,随机挑选了 100 个单元用于此图。
最后,聚焦到我们这篇文章讨论的深度学习中的关键学习期问题,本文网络只训练了 30 个 epochs,这是一个相对较短的时间。作者发现,在第 30 个 epoch 之后,感知到的粘度预测结果越来越差,网络开始过拟合。在第 30 个 epoch 后,带有物理粘度标签的训练误差和带有物理粘度标签的验证误差之间的差异越来越大。
作者讨论了这一发现的原因和意义。作者首先猜测,人类的表现与训练的关系是呈 U 型近似的。不过,作者说这可能只是本文所用的训练库上展示出来的一个假象。这里考虑的模型完全是在计算机模拟的液体中训练的,虽然在本文给出的模拟环境中成功的模拟了人类的学习能力,但是在更多的、更大的或自然的训练数据中,可能会随着训练的持续反而提高对人类性能的近似能力(即不会观察到对人类性能的 U 形近似),也即与本文提出的关键学习期并不吻合。
作者也提出了另一种可能性,即我们这篇文章讨论的 “关键学习期” 的存在。人类观察者使用的线索是那些网络也倾向于首先学习的线索。有可能这些线索是数据库中最容易辨别或最稳健的线索。随着训练的继续,网络在物理粘度估计目标方面继续改进,可能是通过学习数据库中特有的更微妙的线索来实现,而人类视觉系统根本无法辨别或对这些线索不太敏感。神经网络学习的早期阶段的其它研究也发现,关键的学习期与生物网络相似[1],有证据表明,在训练早期阶段,神经连接大致上处于记忆形成阶段,此后神经可塑性下降,只有通过重组或遗忘较少的预测性权重而发生小得多的变化。这使得早期阶段(<10 epoch)成为一个特别关键的时期,这一时期完成对数据库中最主要的信息的编码。在本文的案例中,这一时期的定义是感知到的粘度误差下降特别大。这与我们的猜测一致,即在早期训练中编码的最明显的线索与人类使用的感知粘度线索一致。
5 小结
本文讨论了深度学习中的关键学习期问题,即在深度神经网络的训练过程中,早期阶段与其它阶段具有不同的 “特点”。第 2-4 篇文章从不同的角度证实了 DNNs 中可能确实存在“关键学习期”,当然这种“关键学习期” 可能仅仅展示为线性 / 非线性性能的不同,也可能展示为模型学习能力的不同。
在我们参考引用的文章中,给出了大量的、角度不同的实验结果展示深度神经网络中 “关键学习期” 的存在。不过,几位作者在文中都表示了,确实没有确切的、可推广的理论分析以支撑普遍的关键学习期存在且发挥作用的说法。甚至如第四篇文章作者猜测,模型的性能有可能最终展示为 U 型,即,在大量的、自然的、高质量的数据存在的情况下,是否有可能在不断训练的后期性能反而提升?而目前看到的 “关键学习期” 可能还是训练数据本身的质量受限所造成的?
深度学习中的关键学习期问题还是一个开放性的问题,我们也会在以后的文章中关注这一领域的研究进展,希望能够在实现模型性能提升的同时,慢慢地发现和了解模型的内在的特性。
本文参考引用的文献
[1] Alessandro Achille, Matteo Rovere, Stefano Soatto, CRITICAL LEARNING PERIODS IN DEEP NETWORKS, ICLR 2019., https://arxiv.org/abs/1711.08856
[2] Takao K Hensch. Critical period regulation. Annual review of neuroscience, 27:549–579, 2004.
[3] van Assen JJR, Nishida S, Fleming RW (2020) Visual perception of liquids: Insights from deep neural networks. PLoS Comput Biol 16(8): e1008018. https://doi.org/10.1371/journal.pcbi.1008018
[4] Hu W , Xiao L , Adlam B , et al. The Surprising Simplicity of the Early-Time Learning Dynamics of Neural Networks. arXiv e-prints, 2020. https://arxiv.org/abs/2006.14599
[5] Jastrzebski S , Szymczak M , Fort S , et al. The Break-Even Point on Optimization Trajectories of Deep Neural Networks. ICLR 2020.https://arxiv.org/abs/2002.09572
[6] David Taylor et al. Critical period for deprivation amblyopia in children. Transactions of the ophthalmological societies of the United Kingdom, 99(3):432–439, 1979.
[7] Donald E Mitchell. The extent of visual recovery from early monocular or binocular visual deprivation in kittens. The Journal of physiology, 395(1):639–660, 1988.
[8] Pasko Rakic, Jean-Pierre Bourgeois, Maryellen F Eckenhoff, Nada Zecevic, and Patricia S Goldman-Rakic. Concurrent overproduction of synapses in diverse regions of the primate cerebral cortex. Science, 232(4747):232–235, 1986.
[9] Ravid Shwartz-Ziv and Naftali Tishby. Opening the black box of deep neural networks via information. arXiv preprint arXiv:1703.00810, 2017.
[10] Gr´egoire Montavon, Mikio L Braun, and Klaus-Robert M¨uller. Kernel analysis of deep networks. Journal of Machine Learning Research, 12(Sep):2563–2581, 2011.
[11] Eric I Knudsen. Sensitive periods in the development of the brain and behavior. Journal of cognitive neuroscience, 16(8):1412–1425, 2004.
12] Dumitru Erhan, Yoshua Bengio, Aaron Courville, Pierre-Antoine Manzagol, Pascal Vincent, and Samy Bengio. Why does unsupervised pre-training help deep learning? Journal of Machine Learning Research, 11(Feb):625–660, 2010.
[13] Greg Yang, Jeffrey Pennington, Vinay Rao, Jascha Sohl-Dickstein, and Samuel S. Schoenholz. A mean field theory of batch normalization. CoRR, abs/1902.08129, 2019.
[14] Karpathy A, Toderici G, Shetty S, Leung T, Sukthankar R, Fei-Fei L. Large-scale video classification with convolutional neural networks. In: Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. 2014. p. 1725–1732.
分析师介绍:
本文作者为Wu Jiying,工学博士,毕业于北京交通大学,曾分别于香港中文大学和香港科技大学担任助理研究员和研究助理,现从事电子政务领域信息化新技术研究工作。主要研究方向为模式识别、计算机视觉,爱好科研,希望能保持学习、不断进步。