【博士每天一篇文献-综述】Brain-inspired learning in artificial neural networks a review-阿里云开发者社区

阅读时间：2023-12-6

1 介绍

年份：2024
作者：Samuel Schmidgall，约翰霍普金斯大学博士生；Rojin Ziaei，马里兰大学学生
期刊： APL Machine Learning
引用量：17

论文探讨了如何将生物学上更可信的机制，例如突触可塑性、神经调节、突触后电位、神经发生和胶质细胞的作用，整合到ANNs中以提升网络的性能。这些机制的整合旨在模拟生物大脑的学习过程，从而带来潜在的优势和挑战，这也是论文深入探讨的重点。
为了实现这一目标，论文首先比较了ANNs和脉冲神经网络（SNNs），强调了SNNs通过引入时间概念来更精确地模拟生物神经元行为的能力。这种时间维度的引入为ANNs提供了一种新的动态学习方式，更接近于生物大脑的处理机制。接着，论文介绍了几种受大脑启发的学习算法，包括Hebbian学习和基于脉冲时间依赖性可塑性（STDP）的学习规则。这些算法的设计灵感来源于大脑中神经元的连接强度如何根据它们的活动模式和时间关系而变化。
论文还讨论了两种主要的权重优化方法：误差驱动的全局学习和受大脑启发的局部学习。全局学习通过传播误差信号来调整网络权重，而局部学习则利用局部信息来更新突触权重，这种方法更符合生物神经系统的局部可塑性特征。
此外，论文还探讨了元学习的概念，即通过优化学习算法本身来自动化搜索更有效的学习规则。这包括可微分的可塑性和在脉冲神经元中的可塑性，这些方法通过元优化来调整学习规则，以适应不同的学习任务。论文进一步讨论了大脑启发式学习在多个领域的潜在应用，包括神经形态计算、机器人学习、终身学习和在线学习。这些应用展示了大脑启发式学习算法在实际问题中的广泛适用性和重要性。
最后，论文强调了人工智能和神经科学之间的相互作用，指出ANNs不仅可以作为工程创新的工具，也有助于深入理解大脑的复杂机制。通过在ANNs中采用更生物学上真实的学习规则，不仅可以推动人工智能的发展，也能够为神经科学研究提供新的视角和工具。

2 创新点

生物学机制的整合：探讨了如何将突触可塑性、神经调节、神经发生等生物学机制整合到ANNs中，以增强网络的学习能力和适应性。
脉冲神经网络（SNNs）的讨论：对比了ANNs和SNNs，并讨论了SNNs如何通过引入时间概念来更精确地模拟生物神经元的行为，这为ANNs的设计提供了新的视角。
大脑启发式学习算法：介绍了Hebbian学习和STDP等学习规则，并探讨了它们在ANNs中的应用，这些算法的设计灵感直接来源于大脑的学习过程。
权重优化方法的比较：讨论了误差驱动的全局学习和受大脑启发的局部学习两种主要的权重优化方法，并比较了它们的优劣。
元学习在优化学习算法中的应用：探讨了通过元学习来优化学习算法的可能性，包括可微分的可塑性和在脉冲神经元中的可塑性，这是对传统学习规则的重要补充。
跨领域应用的探讨：分析了大脑启发式学习在神经形态计算、机器人学习、终身学习和在线学习等领域的潜在应用，展示了这些算法的广泛适用性。
人工智能与神经科学的互动：强调了ANNs作为理解大脑复杂机制的模型的潜力，以及这种理解如何反过来促进人工智能的发展。
未来研究方向的指引：论文不仅回顾了现有的研究成果，还指出了未来研究的有前景的途径，为该领域的研究者提供了方向。
对现有学习规则的挑战：通过提出大脑启发式学习算法可能存在的一般化问题，鼓励研究者探索更有效的学习规则，以提高ANNs的性能和适应性。

3 相关研究

3.1 相关概念

（1）突触可塑性 (Synaptic plasticity)：
指经验能够修改神经回路功能的能力。特指基于活动修改突触传递强度的能力，是大脑适应新信息的主要调查机制。分为短期和长期突触可塑性，分别作用于不同时间尺度，对感官刺激的短期适应和长期行为改变及记忆存储至关重要。
（2）神经调节 (Neuromodulation)：
指化学信号分子（神经递质或激素）对神经活动的调节。能够改变神经回路的兴奋性和突触强度，对神经功能有短长期影响。涉及多种神经递质，如乙酰胆碱、多巴胺和血清素，与注意力、学习和情绪等功能相关。
（3）突触后电位 (Metaplasticity)：
指对突触可塑性的调节，即“突触可塑性的可塑性”。通过改变神经元或突触的生理状态来调整突触产生可塑性的能力。在记忆稳定性、学习和调节神经兴奋性方面起基本作用。
（4）神经发生 (Neurogenesis)：
指新形成的神经元被整合进现有神经回路的过程。主要在胚胎发育期间活跃，但在成年期也会发生，尤其是在某些脑区如海马形成区。环境因素如运动和压力被证明可以改变神经发生率，其在支持大脑中的学习中扮演重要角色。
（5）胶质细胞 (Glial Cells)：
胶质细胞在支持学习和记忆中发挥关键作用，通过在突触调节神经递质信号。包括星形胶质细胞和微胶质细胞，前者可以释放和重吸收神经递质，后者参与组织修复和再生。胶质细胞还参与突触强度的结构变化，尽管其确切作用和机制仍在研究中。
（6）ANNs与SNNs
ANNs最大的限制之一是在功耗方面不高效，并且不擅长处理动态和嘈杂的数据。此外，ANNs不能在训练期之外学习（例如在部署期间），数据假设为独立同分布（IID）形式，没有时间性，这并不反映物理现实中信息高度的时间和空间相关性。这些限制导致它们在大规模部署时需要大量的能量，并且在集成到边缘计算设备（如机器人和可穿戴设备）时也面临挑战。
SNNs具有更大的优势，包括更好的能源效率，处理嘈杂和动态数据的能力，以及更有韧性和容错性的计算能力。
（7）启发式学习算法在人工神经网络中实现和应用的直观理解
截屏2024-05-18 下午6.52.58.png
分别是前馈神经网络（Feedforward Neural Network）、突触可塑性算法（Synaptic Plasticity Algorithms）、三因素可塑性（Three-Factor Plasticity）、反馈对齐算法（Feedback Alignment Algorithm）、反向传播（Backpropagation）。

前馈神经网络： 该网络通过将输入信息向下传播来计算输出。输出的具体值由突触系数（synaptic weights）的权重决定。为了改善给定输入的任务输出，需要对突触权重进行调整。
突触可塑性算法： 突触可塑性算法是模拟大脑根据活动加强或减弱神经元之间连接的能力的计算模型，从而促进学习和记忆的形成。
三因素可塑性：三因素可塑性指的是一种突触可塑性模型，其中神经连接强度的变化由三个因素决定：前突触活动、后突触活动和一个调节信号。这有助于更细腻和适应性的学习过程。
反馈对齐算法： 反馈对齐算法是一种训练人工神经网络的技术，它使用随机的、固定的反馈连接而不是对称的权重矩阵，证明了成功的学习可以在没有精确反向传播的情况下发生。
反向传播： 是机器学习和人工智能中的一个基础算法，用于通过计算网络中权重相对于损失函数梯度来训练神经网络。
（8）生物的和人工的前突触和后突触神经元的图解，以及前向传播方程的描述

3.2 两种突触可塑性模型

3.2.1 Hebbian 学习规则

（1）数学模型
Hebbian学习规则由Donald Hebb在1949年首次提出，Hebbian学习规则认为，如果两个神经元同时活动，它们之间的突触连接应该被加强。这种规则通常用于无监督学习算法，目的是在没有明确反馈的情况下识别输入数据中的模式。Hebbian学习规则的一个简单数学表达式是：

$$\Delta w_{ij} = \eta x_i x_j $$

其中， $ \Delta w_{ij} $是神经元i和j之间权重的变化，η是学习率，xi和 xj分别是神经元i和j的激活水平。
（2）Hebbian学习规则的局限性
基本的Hebbian规则可能导致不稳定，因为如果两个神经元的激活水平最初只是弱正相关，规则会增加它们之间的权重，进而强化这种相关性，导致权重进一步增加。为了解决这个问题，可以采用一些稳定化方法，如限制权重的增长或采用更复杂的规则。
（3）改进的Hebbian学习
算法思想是将Hebbian学习规则与奖励机制结合起来以实现强化学习。首先将Hebbian更新与奖励直接相乘，但这种方法存在稳定性问题，因为它不能可靠地跟踪输入、输出和奖励之间的实际协方差。为了解决这个问题，然后提出了节点扰动规则，该规则通过引入随机扰动到神经激活中，并使用这些扰动而不是原始激活来进行权重更新，从而推动网络朝着奖励方向学习。这种方法不仅能够在生物学上合理地实现，而且还能够使网络从稀疏和延迟的奖励中学习复杂的认知或运动任务，实际上实现了REINFORCE算法，为强化学习提供了一种有效的解决方案。

3.2.2 STDP

STDP（Spike-Timing Dependent Plasticity）：STDP是一种理论模型，它允许基于神经元脉冲的相对时间来修改它们之间连接的强度。与Hebbian学习规则不同，STDP考虑了前突触和后突触脉冲的精确时间。STDP建议，如果前突触神经元在后突触神经元之前脉冲，它们之间的连接应该被加强；反之，则应该被削弱。STDP在多种生物系统中被观察到，并在神经回路的发展和可塑性中，包括学习和记忆过程中发挥关键作用。
STDP的数学公式：STDP的数学表达式比Hebbian学习规则更复杂，并且可以根据具体实现而有所不同。一个常见的公式是：
$$Δw_ij = \begin{cases} A^+ \exp\left(-\frac{\Delta t}{\tau^+}\right) & \text{if } \Delta t > 0 \\ -A^- \exp\left(\frac{\Delta t}{\tau^-}\right) & \text{if } \Delta t < 0 \end{cases} $$

其中，$ \Delta w{ij} $是神经元i和j之间权重的变化，Δt是前突触和后突触脉冲之间的时间差异，A+和A-分别是增强和抑制的幅度，τ+和τ−分别是增强和抑制的时间常数。

3.3 ANNs的权重优化方法

3.3.1 反向传播(Backpropagation）

定义：反向传播是一种强大的误差驱动的全局学习方法，用于调整神经网络中的连接权重，以产生期望的目标行为。
过程：该算法包括前向传播和后向传播两个阶段。在前向传播中，输入在网络中传播并计算输出。在后向传播中，计算预测输出和真实输出之间的误差，并通过网络反向传播这些误差来计算损失函数相对于网络权重的梯度。
优化：使用这些梯度通过优化算法（如随机梯度下降）来更新网络权重，目的是最小化损失函数。
挑战：反向传播虽然取得了巨大成功，但也存在一些挑战，如灾难性遗忘（网络在训练新数据时会突然忘记之前学到的信息）和计算成本高昂，尤其是在训练深层网络时。

3.3.2 进化和遗传算法(Evolutionary and genetic algorithms）

定义：进化算法和遗传算法是一类全局学习算法，它们受到自然选择过程的启发，旨在通过模拟进化过程来优化神经网络的权重。
过程：在遗传算法中，初始化一组具有随机权重的神经网络，并根据特定任务或问题评估每个网络的性能。性能较好的网络被选中用于繁殖，产生具有微小权重变化的后代。这个过程在多代中重复进行，使得最佳性能网络的特征在后代中更可能被保留。
优势：这些算法能够高效地搜索广阔的参数空间，适用于参数数量众多或搜索空间复杂的问题。它们不需要可微分的目标函数，适用于目标函数难以定义或计算的场景。
挑战：这些算法的主要限制包括评估和进化大量网络所需的高计算成本，以及算法可能会陷入局部最优或过快收敛，导致次优解。此外，随机变异的使用可能导致学习过程中的不稳定性。

4 受大脑启发的学习表示

局部学习算法（Local learning algorithms）

局部学习算法的核心思想是利用网络中局部可用的信息来更新突触权重，而不是依赖于全局或远程的信息。这与生物神经系统中的学习过程相似，其中每个神经元基于其周围的活动来调整其突触连接。
常见算法
- Hebbian学习：基于Hebbian理论，当两个神经元同时激活时，它们之间的突触连接会被加强。
- Spike-Timing Dependent Plasticity (STDP)：根据前突触和后突触尖峰的时间差异来调整突触权重，强调时间依赖性。
- 反馈对齐（Feedback Alignment, FA）：使用固定随机矩阵代替反向传播中的权重矩阵，以实现局部学习。
应用：
- 机器人学习：在机器人控制系统中，局部学习算法可以实时调整行为，以适应环境变化。
- 神经形态计算：在设计模拟大脑结构和功能的硬件时，局部学习算法有助于实现高效的信息处理。
- 终身学习：在需要持续学习新技能和知识的应用中，局部学习算法支持模型不断进步，同时保留以前的知识。

反向传播衍生的局部学习（Backpropagation-derived local learning）
- 模拟反向传播的数学属性，但与通过整个网络传播误差信号的传统反向传播不同，它们基于局部误差梯度来更新权重。原理是在局部范围内模拟全局误差信号，通过使用固定随机矩阵或其他方法来近似误差梯度，而不是通过网络反向传播真实的误差信号。权重更新依赖于局部连接的神经元活动和通过局部学习规则计算出的误差估计。
- 代表算法
  - Feedback Alignment (FA)：FA算法使用固定随机矩阵代替反向传播中的权重矩阵，允许从直接连接传递错误信号，避免了真实的反向传播。
  - Direct Feedback Alignment (DFA)：DFA简化了权重传输链，直接将输出层的错误连接到每个隐藏层。
  - Sign-Symmetry (SS)：SS算法与FA类似，但反馈权重在符号上保持对称。
- 优势
  - 计算效率：局部学习算法通常比全局反向传播更高效，因为它们减少了信息传递的需要。
  - 在线学习：这些算法支持在线学习，可以在新数据到达时立即更新权重。
  - 生物学合理性：与需要全局信息的反向传播相比，局部学习算法更符合生物神经系统的工作方式。
泛化（Generalization properties）

泛化是指学习算法在新的、未见过的数据上的表现能力。
研究了反向传播衍生的局部学习规则的泛化属性，发现与完整优化过程相比，局部近似的泛化性能较差。

元优化的可塑性规则（Meta-optimized plasticity rules）

在神经网络中，突触可塑性规则决定了突触权重如何根据输入信号和网络活动进行调整。元优化可塑性规则通过优化这些调整机制来改善网络的学习性能。使用元学习技术，如梯度下降或进化算法，来自动调整可塑性规则的参数，以提高学习效率和性能。

可微分的可塑性（Differentiable plasticity）

是一种结合了神经网络权重的动态变化（可塑性）与梯度下降优化过程的方法。可微分的可塑性允许在前向传播过程中动态地调整权重，模拟了生物神经系统中的突触可塑性。可微分性意味着可以通过计算梯度来优化模型参数。可微分的可塑性意味着突触权重的变化可以被纳入到标准的反向传播算法中。

脉冲神经元的可塑性（Plasticity with spiking neurons）

在尖峰神经网络（Spiking Neural Networks, SNNs）中实现突触可塑性机制。
算法实现
- 可微分可塑性：通过设计可微分的突触更新规则，可以在SNNs中实现与反向传播兼容的权重更新。
- 替代梯度方法：在尖峰神经元中，由于尖峰的离散性质，直接应用反向传播可能不可行。因此，研究者开发了替代的梯度估计方法，如替代梯度下降（Surrogate Gradients）。

RNNs和Transformers中的可塑性（ Plasticity in RNNs and Transformers）
- 在RNNs和Transformers中引入如STDP（Spike-Timing Dependent Plasticity）等生物启发的学习规则，可以增强网络的学习能力和适应性。
进化和遗传元优化（Evolutionary and genetic meta-optimization）

进化和遗传算法已被用于优化各种应用中的可塑性规则参数，进化和遗传算法包括以下方面
- 优化网络权重：通过模拟自然选择的过程来找到最优的权重配置。
- 发现新的学习规则：自动发现或调整权重更新规则，以提高学习效率和性能。
- 调整超参数：自动调整学习率、批大小、网络层数等超参数。

自参考元学习（Self-referential meta-learning）

自参考元学习扩展了元学习层次，允许神经网络以递归方式修改其所有参数，包括元学习器本身。
自参考元学习通常涉及两个层次的学习，一个用于执行特定任务的学习器（如神经网络），和一个用于调整学习器参数的元学习器。与传统的元学习不同，自指元学习允许元学习器不仅修改学习器的参数，还可以修改自身的参数，从而实现更高级别的学习。通过这种方式，模型可以自我改进其学习算法，不断优化其学习过程。
应用场景：
- 连续学习：在连续学习环境中，模型需要不断学习新任务，同时保留之前学到的知识。自参考元学习可以帮助模型更好地平衡新旧知识的获取。
- 小样本学习：在只有少量样本可用的情况下，自参考元学习可以帮助模型快速适应新任务。
- 自适应控制：在机器人学和其他需要实时适应的领域，自指元学习可以提供一种灵活的控制策略。

元优化学习规则的泛化（Generalization of meta-optimized learning rules）

指通过元学习（meta-learning）得到的学习规则在不同任务和环境中应用时的表现。
泛化评估
- 任务泛化：元优化学习规则应能够使模型在不同类型的任务上都表现良好，而不仅仅是在训练时见过的任务上。
- 环境泛化：模型应该能够在不同的环境设置中保持稳定的表现，即使这些环境在训练时并未被明确考虑。
- 数据泛化：元优化学习规则应提高模型对新数据的适应能力，减少对特定数据分布的依赖。

5 脑启发的应用领域

（1）神经形态计算（Neuromorphic Computing）
神经形态计算代表了计算系统设计的范式转变，目标是创建模仿生物大脑结构和功能的硬件。例如，Intel的Loihi、IBM的TrueNorth和SpiNNaker等平台提供了专门的硬件架构，用于实现脉冲神经网络（SNNs）和脑启发式学习算法。
（2）机器人学习（Robotic learning）
脑启发式学习在神经网络中的应用，使机器人能够更加灵活地学习和适应环境。
（3）终身和在线学习（Lifelong and online learning）
脑启发式学习算法使神经网络能够持续学习和适应，随着时间的推移提高性能。
（4）走向理解大脑（Toward understanding the brain）

4 思考

论文讲解了几种脑启发的研究理论，与当前ANNs的结合和启发，说明了当前脑启发的关键理论。但是没有一一罗列介绍启发后的算法原理及模型结构，介绍得比较粗略。

【博士每天一篇文献-综述】Brain-inspired learning in artificial neural networks a review

1 介绍

2 创新点