深度学习模型已成为科学和工程领域的普遍工具。然而,它们的能源需求现在越来越限制它们的可扩展性。深度学习加速器旨在高效地执行深度学习,通常针对推理阶段,并且通常通过利用传统电子设备之外的物理基板。迄今为止的方法一直无法应用反向传播算法来原位训练非常规的新型硬件。反向传播的优势使其成为事实上的大规模神经网络训练方法,因此这一缺陷构成了主要障碍。在这里,康奈尔大学的研究人员介绍了一种混合原位-计算机算法,称为物理感知训练,它应用反向传播来训练可控的物理系统。正如深度学习通过由数学函数层构成的深度神经网络,来实现计算那样,该方法允许研究人员训练由可控物理系统层构成的深度物理神经网络,即使物理层与传统人工神经网络层缺乏任何数学同构。为了证明该方法的普遍性,研究人员训练了基于光学、力学和电子学的各种物理神经网络,以实验性地执行音频和图像分类任务。物理感知训练将反向传播的可扩展性与原位算法可实现的缺陷和噪声的自动缓解相结合。物理神经网络具有比传统电子处理器更快、更节能地执行机器学习的潜力,更广泛地说,可以赋予物理系统自动设计的物理功能,例如机器人材料和智能传感器。该研究以「Deep physical neural networks trained with backpropagation」为题,于 2022 年 1 月 26 日发布在《Nature》。与人工智能的许多历史发展一样,深度神经网络(DNN)的广泛采用部分是由协同硬件组成的。2012 年,在早期研究的基础上,Krizhevsky 团队表明反向传播算法,可以使用图形处理单元有效地执行,以训练大型 DNN 进行图像分类。自 2012 年以来,DNN 模型的计算需求增长迅速,超过了摩尔定律。现在,DNN 越来越受到硬件能效的限制。新兴的 DNN 能量问题激发了特殊用途的硬件:DNN「加速器」大部分基于硬件物理和 DNN 中的数学运算之间的直接数学同构。一些加速器提案使用传统电子之外的物理系统,例如光学和模拟电子交叉阵列。大多数设备都针对深度学习的推理阶段,这在商业部署中占深度学习能源成本的 90%,尽管越来越多的设备也在处理训练阶段。图示:PNN 简介。(来源:论文)然而,通过为严格的、逐个操作的数学同构设计硬件,来实现训练有素的数学变换,并不是执行高效机器学习的唯一方法。相反,研究人员可以直接训练硬件的物理转换来执行所需的计算。在这里,研究人员将这种方法称为物理神经网络(PNN),以强调训练的是物理过程,而不是数学运算。这种区别不仅仅是语义上的:通过打破传统的软件-硬件划分,PNN 提供了从几乎任何可控的物理系统构建神经网络硬件的可能性。正如任何模拟复杂物理系统演变的人所了解的那样,物理转换通常比数字仿真更快,且消耗更少的能量。这表明如果最直接地利用这些物理转换的 PNN,可能会比传统范式更有效地执行某些计算,从而为可扩展、更节能和更快的机器学习提供途径。图示:使用宽带光学 SHG 实验实现的示例 PNN。(来源:论文)PNN 尤其适用于类似 DNN 的计算,远远超过数字逻辑甚至其他形式的模拟计算。正如它们对自然数据的稳健处理所预期的那样,DNN 和物理过程具有许多结构相似性,例如层次结构、近似对称性、噪声、冗余和非线性。随着物理系统的发展,它们执行的转换有效地等效于 DNN 中常用的数学运算的近似、变体或组合,例如卷积、非线性和矩阵向量乘法。因此,使用受控物理变换序列,研究人员可以实现可训练的分层物理计算,即深度 PNN。虽然通过直接训练物理转换来构建计算机的范式起源于进化的计算材料,但它今天正在各个领域出现,包括光学、自旋电子纳米振荡器、纳米电子器件和小型量子计算机。一个密切相关的趋势是物理储层计算(PRC),其中未经训练的物理「储层」的转换由可训练的输出层线性组合。尽管 PRC 利用通用物理过程进行计算,但它无法实现类似 DNN 的分层计算。相比之下,训练物理转换本身的方法原则上可以克服这一限制。为了通过实验训练物理变换,研究人员经常依赖无梯度学习算法。基于梯度的学习算法,例如反向传播算法,被认为对于大规模 DNN 的高效训练和良好泛化至关重要。因此,出现了在物理硬件中实现基于梯度的训练的建议。然而,这些鼓舞人心的提议却做出了排除许多物理系统的假设,例如线性、无耗散演化或梯度动力学很好地描述了系统。最普遍的建议通过在计算机上进行训练来克服这些限制,即完全在数值模拟中学习。尽管计算机训练的普遍性赋予了力量,但非线性物理系统的模拟很少足够准确,无法使计算机训练的模型准确地转移到真实设备。图示:物理意识培训。(来源:论文)在这里,康奈尔大学的团队演示了一个使用反向传播直接训练任意物理系统来执行 DNN 的通用框架,即 PNN。他们的方法是通过一种混合原位 - 计算机算法实现的,称为物理感知训练(PAT)。PAT 允许研究人员在任何物理输入-输出转换序列上高效准确地执行反向传播算法。他们通过使用三个不同的系统实验性地执行图像分类,来证明这种方法的普遍性:驱动金属板的多模机械振荡、非线性电子振荡器的模拟动力学和超快光学二次谐波产生 (SHG)。研究人员获得了准确的分层分类器,该分类器利用了每个系统独特的物理变换,并从本质上减轻了每个系统的独特噪声过程和缺陷。尽管 PNN 与传统硬件大相径庭,但很容易将它们集成到现代机器学习中。实验表明,PNN 可以通过物理-数字混合架构与传统硬件和神经网络方法无缝结合,其中传统硬件学习使用 PAT 与非传统物理资源进行机会合作。最终,PNN 提供了将机器学习的能源效率和速度提高多个数量级的途径,以及自动设计复杂功能设备(例如功能性纳米颗粒、机器人和智能传感器)的途径。讨论结果表明,训练可控的物理系统来执行 DNN 计算是可行的。原则上,许多通常不用于计算的系统似乎提供了执行部分机器学习推理计算的能力,比传统硬件更快、更节能几个数量级。但是,有两个注意事项需要注意。首先,由于潜在的对称性和其他约束,一些系统可能非常适合加速共享相同约束的受限类计算。其次,使用 PAT 训练的 PNN 只能在推理期间提供显著优势,因为 PAT 使用数字模型。因此,在混合网络中,研究人员希望这样的 PNN 可以作为传统通用硬件的资源,而不是完全替代。
图示:具有不同物理系统的图像分类。(来源:论文)
现场训练硬件的技术和可靠的计算机训练方法弥补了这些弱点。使用原位学习算法训练的设备将完全在硬件中执行学习,有可能实现比当前方法更快、更节能的学习。此类设备适用于需要频繁再培训的环境。但是,为了同时执行学习和推理,这些设备比仅推理硬件具有更具体的硬件要求,这可能会限制它们可实现的推理性能。计算机训练可以训练设备的许多物理参数,包括在制造过程中永久设置的参数。由于生成的硬件不会执行学习,因此可以对其进行优化以进行推理。尽管已经实施了准确、大规模的计算机培训,但仅使用模拟电子设备就可以实现这一目标,因为模拟电子设备可以使用精确的模拟和受控的制造过程。PAT 可用于无法避免模拟与现实差距的环境中,例如,如果硬件可能是在制造公差的限制下设计的、在通常的制度之外运行或基于传统电子设备以外的平台。PAT 的改进可以扩展 PNN 的效用。例如,PAT 的反向传递可以被直接预测物理系统参数更新的神经网络所取代。使用 PNN 实现这个「教师」神经网络将允许在没有数字帮助的情况下进行后续训练。到目前为止,这项工作的重点是 PNN 作为机器学习加速器的潜在应用,但 PNN 在其他应用中也很有前景,特别是那些处理或生成物理而非数字数据的应用。PNN 可以对其物理域内的数据执行计算,从而允许智能传感器在转换到电子域之前对信息进行预处理(例如,低功耗、麦克风耦合电路经过调整以识别特定的热门词)。由于许多传感器可实现的灵敏度、分辨率和能量效率,受到信息到数字电子领域的转换以及在数字电子中处理该数据的限制,因此 PNN 传感器应该具有优势。更广泛地说,使用 PAT,可以简单地训练物理系统的复杂功能。尽管机器学习和传感是重要的功能,但它们只是 PAT 和 PNN 概念可以应用的众多功能中的两个。论文链接:https://www.nature.com/articles/s41586-021-04223-6相关报道:https://techxplore.com/news/2022-01-physical-machine-learning.html