放弃反向传播后,Geoffrey Hinton参与的前向梯度学习重磅研究来了

简介: 放弃反向传播后,Geoffrey Hinton参与的前向梯度学习重磅研究来了


图灵奖得主 Geoffrey Hinton 等研究者让前向梯度学习变得实用了。


我们知道,在人工智能领域里,反向传播是个最基本的概念。


反向传播(Backpropagation,BP)是一种与最优化方法(如梯度下降)结合使用的,用来训练人工神经网络的常见方法。该方法计算对网络中所有权重计算损失函数的梯度。这个梯度会反馈给最优化方法,用来更新权值以最小化损失函数。



简而言之,BP 的核心思路其实就是负反馈,我们试图用这种方式实现神经网络系统面对给定目标的自动迭代、校准。随着算力、数据和更多技术改进的提升,在 AI 领域人们使用反向传播训练的多层神经网络在部分任务上已经足以与人类竞争。


很多人把这项技术的发现归功于深度学习先驱、2019 年图灵奖得主 Geoffrey Hinton,但 Hinton 本人表示,自己的贡献在于明确提出了反向传播可以学习有趣的内部表征,并让这一想法推广开来:「我通过让神经网络学习词向量表征,使之基于之前词的向量表征预测序列中的下一个词实现了这一点。」


其例证在于 Nature 1986 年发表的论文《Learning representations by back-propagating errors》上。



无论如何,反向传播技术推动了现代深度学习的发展。但曾被冠以「反向传播之父」的 Geoffrey Hinton,近年来却经常表示自己在构思下一代神经网络,他对于反向传播「非常怀疑」,并提出「应该抛弃它并重新开始」。


可以说自 2017 年起,Hinton 就已开始寻找新的方向。机器之心先前曾介绍 Hinton 在前向 - 前向网络方面的思考(近万人围观 Hinton 最新演讲:前向 - 前向神经网络训练算法,论文已公开)。


最近,我们又看到了重要的进展。近日,由 Mengye Ren、Simon Kornblith、Renjie Liao、Geoffrey Hinton 完成的论文被工智能顶会 ICLR 2023 接收。



前向梯度学习通常用于计算含有噪声的方向梯度,是一种符合生物学机制、可替代反向传播的深度神经网络学习方法。然而,当要学习的参数量很大时,标准的前向梯度算法会出现较大的方差。


基于此,图灵奖得主 Geoffrey Hinton 等研究者提出了一系列新架构和算法改进,使得前向梯度学习对标准深度学习基准测试任务具有实用性。



论文链接:https://arxiv.org/abs/2210.03310

GitHub 链接:https://github.com/google-research/google-research/tree/master/local_forward_gradient


该研究表明,通过将扰动(perturbation)应用于激活而不是权重,可以显著减少前向梯度估计器的方差。研究团队通过引入大量局部贪心损失函数(每个损失函数只涉及少量可学习参数)和更适合局部学习的新架构 LocalMixer(受 MLPMixer 启发),进一步提高了前向梯度的可扩展性。该研究提出的方法在 MNIST 和 CIFAR-10 上与反向传播性能相当,并且明显优于之前 ImageNet 上的无反向传播算法。



当前,大多数深度神经网络都使用反向传播算法(Werbos, 1974; LeCun, 1985; Rumelhart et al., 1986)进行训练,该算法通过从损失函数向每一层反向传播误差信号来有效地计算权重参数的梯度。尽管人工神经网络最初受到生物神经元的启发,但反向传播一直被认为不符合生物学机理,因为大脑不会形成对称的反向连接或执行同步计算。从工程的角度讲,反向传播与大规模模型的并行性不兼容,并且限制了潜在的硬件设计。这些问题表明我们需要一种截然不同的深度网络学习算法。


Hinton 等研究者重新审视了权重扰动的替代方法 —— 活动扰动(activity perturbation,Le Cun et al., 1988; Widrow & Lehr, 1990; Fiete & Seung, 2006),探索了该方法对视觉任务训练的普遍适用性。


该研究表明:活动扰动能比权重扰动产生方差更低的梯度估计,并且能够为该研究提出的算法提供基于连续时间速率(continuous-time rate-based)的解释。


研究团队通过设计具有大量局部贪心损失函数的架构,解决了前向梯度学习的可扩展性问题,其中将网络隔离为局部模块,从而减少了每个损失函数的可学习参数量。与仅沿深度维度添加局部损失的先前工作不同,该研究发现 patch-wise 和 channel-group-wise 损失函数也非常关键。最后,受 MLPMixer (Tolstikhin et al., 2021) 的启发,该研究设计了一个名为 LocalMixer 的网络。LocalMixer 具有线性 token 混合层和分组通道(channel),以更好地与局部学习兼容。


该研究在监督和自监督图像分类问题上评估了其局部贪婪前向梯度算法。在 MNIST 和 CIFAR-10 上,该研究提出的学习算法性与反向传播性能相当,而在 ImageNet 上,其性能明显优于其他使用不对称前向和后向权重的方案。虽然该研究提出的算法在更大规模的问题上还达不到反向传播算法的性能,但局部损失函数设计可能是生物学上合理的学习算法,也将成为下一代模型并行计算的关键因素。


该研究分析了前向梯度估计器的期望和方差的特性,并将分析重点放在了权重矩阵的梯度上,具体的理论分析结果如下表 1 所示,批大小为 N 时,独立扰动(independent perturbation)可以将方差减少为 1/N,而共享扰动(shared perturbation)具有由平方梯度范数支配的常数方差项。然而,当执行独立的权重扰动时,矩阵乘法不能进行批处理,因为每个样本的激活向量都要与不同的权重矩阵相乘。相比之下,独立的活动扰动算法允许批量矩阵乘法。



与权重扰动相比,活动扰动的方差更小,因为扰动元素的数量是输出单元的数量,而不是整个权重矩阵的大小。活动扰动的唯一缺点是存储中间激活需要一定量的内存。


此外,该研究发现在具有 ReLU 激活的网络中,可以利用 ReLU 稀疏性来进一步减少方差,因为未激活的单元梯度为零,因此不应该扰动这些单元。


用局部损失函数进行扩展



相关文章
|
22天前
|
机器学习/深度学习 安全 算法
Bengio团队新论文!KL正则化有漏洞,强化学习新策略:不要做我可能不会做的事情
近日,蒙特利尔大学Yoshua Bengio团队发表论文,探讨了强化学习中智能体奖励与设计者效用差异导致的状态分布问题,提出“不要做我可能不会做的事情”策略,通过避免采取受信任政策中可能不采取的行动,有效改善了状态分布,但该策略需依赖受信任政策且可能增加计算成本。
25 5
|
2月前
|
机器学习/深度学习 数据可视化
KAN干翻MLP,开创神经网络新范式!一个数十年前数学定理,竟被MIT华人学者复活了
【10月更文挑战第12天】MIT华人学者提出了一种基于Kolmogorov-Arnold表示定理的新型神经网络——KAN。与传统MLP不同,KAN将可学习的激活函数放在权重上,使其在表达能力、准确性、可解释性和收敛速度方面表现出显著优势,尤其在处理高维数据时效果更佳。然而,KAN的复杂性也可能带来部署和维护的挑战。论文地址:https://arxiv.org/pdf/2404.19756
57 1
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习还不如浅层网络?RL教父Sutton持续反向传播算法登Nature
【9月更文挑战第24天】近年来,深度学习在人工智能领域取得巨大成功,但在连续学习任务中面临“损失可塑性”问题,尤其在深度强化学习中更为突出。加拿大阿尔伯塔大学的研究人员提出了一种名为“持续反向传播”的算法,通过选择性地重新初始化网络中的低效用单元,保持模型的可塑性。该算法通过评估每个连接和权重的贡献效用来决定是否重新初始化隐藏单元,并引入成熟度阈值保护新单元。实验表明,该算法能显著提升连续学习任务的表现,尤其在深度强化学习领域效果明显。然而,算法也存在计算复杂性和成熟度阈值设置等问题。
79 2
|
6月前
|
机器学习/深度学习 人工智能 算法
谷歌DeepMind:GPT-4高阶心智理论彻底击败人类!第6阶推理讽刺暗示全懂了
【6月更文挑战第10天】谷歌DeepMind团队的最新论文显示,GPT-4在高阶心智理论任务中超越了人类水平,这是AI在理解和推理人类心理状态上的重大突破。研究人员通过MoToMQA测试套件评估了大型语言模型,发现GPT-4在第6阶推理上超过成人表现。这一进展意味着AI能更好地理解用户意图,提升交互体验,但也引发了关于操纵与控制人类以及模型是否真正理解心理状态的担忧。论文链接:https://arxiv.org/pdf/2405.18870
82 3
|
人工智能 算法
Facebook出手!自适应梯度打败人工调参
Facebook出手!自适应梯度打败人工调参
|
机器学习/深度学习 算法 数据挖掘
清华、上交等联合发表Nature子刊:「分片线性神经网络」最新综述!
清华、上交等联合发表Nature子刊:「分片线性神经网络」最新综述!
176 0
清华、上交等联合发表Nature子刊:「分片线性神经网络」最新综述!
|
机器学习/深度学习 算法 网络架构
放弃反向传播后,Geoffrey Hinton参与的前向梯度学习重磅研究来了(2)
放弃反向传播后,Geoffrey Hinton参与的前向梯度学习重磅研究来了
|
机器学习/深度学习 自然语言处理 算法
NeurIPS 2022 | 四分钟内就能训练目标检测器,商汤基模型团队是怎么做到的?
NeurIPS 2022 | 四分钟内就能训练目标检测器,商汤基模型团队是怎么做到的?
116 0
|
机器学习/深度学习 人工智能 编解码
理论到应用,朱军教授带团队解读扩散概率模型
理论到应用,朱军教授带团队解读扩散概率模型
320 0
|
机器学习/深度学习 计算机视觉 C++
CVPR 2022|解耦知识蒸馏,让Hinton在7年前提出的方法重回SOTA行列(1)
CVPR 2022|解耦知识蒸馏,让Hinton在7年前提出的方法重回SOTA行列
215 0
下一篇
DataWorks