【博士每天一篇文献-综述】Biological underpinnings for lifelong learning machines-阿里云开发者社区

阅读时间：2023-12-17

1 介绍

年份：2015
作者：Dhireesha Kudithipudi，Mario Aguilar-Simon，其中通讯作者Josh Bongard教授也是另一篇论文的通讯作者《Neural modularity helps organisms evolve to learn new skills without forgetting old skills》
期刊：Nature Machine Intelligence
引用量：161
Kudithipudi D, Aguilar-Simon M, Babb J, et al. Biological underpinnings for lifelong learning machines[J]. Nature Machine Intelligence, 2022, 4(3): 196-210.

本文探讨生物系统终身学习的能力，并尝试理解这些能力背后的生物学机制。作者们回顾了在机器学习领域中，如何通过模仿这些生物学机制来开发能够终身学习的人工智能系统。这些系统被称为终身学习机器（Lifelong Learning Machines, L2M），它们能够像生物体一样不断地从经验中学习并适应新环境，同时保留以前学到的知识。神经科学家和其他生物学家提出了一些机制来解释这种能力，机器学习研究人员已经尝试在人工系统中模仿这些机制，并取得了不同程度的成功。本文认为通过结合多种生物学启发的机制，而不是仅仅关注其中一小部分，可以开发出具有更大自主性和终身学习能力的新一代人工智能系统。

2 创新点

终身学习的关键特征识别文章首先定义了终身学习机器（L2M）应具备的六项关键特征，包括知识转移与适应性、克服灾难性遗忘、利用任务相似性、任务不可知学习、噪声容忍性以及资源效率和可持续性。
生物学机制的深入探讨文章深入探讨了支持终身学习的生物学机制，包括神经生成、情景重放、突触的超塑性、神经调节、上下文依赖感知和门控、层级分布式系统、脑外认知、可重构生物体以及多感官整合等。
生物启发模型的综述文章回顾了当前生物启发的终身学习模型的最新研究进展，这些模型尝试在人工系统中实现类似于生物体的终身学习能力。
跨学科视角文章结合了神经科学、生物学、心理学、工程学和人工智能等领域的知识，提供了一个跨学科的视角来理解终身学习。
未来研究方向的提出文章不仅总结了目前的研究成果，还提出了未来研究的方向和挑战，包括开发更现实的测试环境、计算效率高的终身学习架构，以及通过新硬件基板（如神经形态加速器）推进这一领域的发展。
生物启发算法的具体应用案例文章提供了生物启发算法在终身学习中的应用案例，如神经调节在机器学习系统中的应用，以及基于生物学的重放机制如何帮助深度神经网络抵抗灾难性遗忘。
综合性资源利用策略文章讨论了如何在终身学习系统中高效利用计算资源和存储资源，包括通过神经生成、情景重放和突触超塑性等机制来控制模型的资源需求。
推动多学科合作的倡议文章强调了多学科合作的重要性，以促进生物学、神经科学、心理学、工程和人工智能等领域的研究人员共同解决终身学习机器的复杂问题。

3 相关研究

3.1 终身学习的特征（目标）

终身学习机器（Lifelong Learning Machines, L2M）目标是构建类似于生物体的系统，该系统能够永不停止的学习，随着经验的积累性能得到提升，并且尽可能的降低能源和计算/存储资源的需求。有六个目标。

转移与适应（Transfer and adaptation）L2M需要能够转移和重用知识以提高性能，并且能够迅速适应新环境，无需离线重新训练。这些能力对于部署在现实世界中的模型至关重要，因为情况和环境条件可能会有相当大的变化。一些专注于少量样本学习（从少数样本中学习）和元学习（快速学习概念）的研究已经尝试解决适应性问题。
克服灾难性遗忘（Overcoming catastrophic forgetting）机器学习模型的一个常见问题是在训练新任务时无法保留以前学到的知识，这被称为“灾难性遗忘”。当网络参数被改变以优化当前任务的性能，而没有充分保护以前的知识时，就会发生这种情况。这不是内存不足的问题，而是重写记忆区域的问题。在获取新技能时不忘记旧技能的挑战被称为稳定性-可塑性困境。
利用任务相似性（Exploiting task similarity）L2模型需要学习多个任务。以前的研究表明，学习多个任务并促进它们之间的信息转移可以提高性能。正向转移指的是将以前学到的技能应用到新任务上，而反向转移则是当学习新任务时提高了对以前学习任务的性能。实现这种正向和反向转移的一种方法是组合性——将复杂任务分解成更基本的组成部分，这些部分可以重用于相关任务。识别和重用子任务的能力将加速转移和适应。
任务不可知学习（Task-agnostic learning）在现实世界中部署的L2模型不能依赖于一个预言者来告诉它们何时从一项任务切换到另一项任务，或者在任何给定情况下适用哪些先前学到的任务，但必须能够在没有这些信息的情况下表现良好。我们称之为“任务不可知学习”。在当前最先进的机器学习中，一些模型在训练和推理期间需要完全的任务识别，而其他模型只需要在任务切换时被告知。L2M必须能够在没有任务识别信息的情况下进行推理。
噪声容忍性（Noise tolerance）通常，最先进的AI模型都是在收集和清洗过的数据集上训练的，以优化训练，并且如果在推理过程中遇到的数据与训练数据有显著差异，它们的表现就不会太好。以前的工作集中在构建健壮的模型，但还没有在终身学习的背景下进行探索。L2M必须能够处理与训练数据不同的数据，这些差异可能是由于环境的变异性或代理者自身的传感器造成的。
资源效率和可持续性（Resource efficiency and sustainability）为了让机器学习模型在其服务寿命期间持续学习，需要认真考虑资源限制。例如，一个需要记住（例如，在数据库中）其过去所有经历的系统将需要不断增长的存储容量（例如，在重放缓冲区中），尽管有尝试在更长的时间尺度上压缩需要存储的内容。同样，提供持续的清洁训练数据源，可能甚至是规范化的，也是不切实际的。学习时间不应该压倒系统或减慢其推理速度。此外，系统可用的不同任务或行为的数量也不应该影响其实时响应。终身学习的全面成功衡量标准仍在不断发展中，并且是一个积极的研究领域。我们在补充信息中讨论了一些文献中常用的度量标准。请注意，这个列表是以任务为中心的，因为它侧重于代理可能想要在世界中执行的有用任务。正如在自监督学习、好奇心驱动的强化学习和开放性学习的研究中一样，可能还有额外的任务（由特定的目标或奖励函数驱动，例如，减少预测未来的不确定性），代理可能会执行这些任务，但它们不是特定于有用任务的。然而，即使在这些情况下，上述终身学习的特征仍然适用；例如，在探索或自由游戏期间，代理仍然不应该灾难性地忘记旧任务，所学到的技能仍然可以用来提高对有用任务的性能。

3.2 终身学习的生物机制

（1）神经生成（Neurogenesis）
神经生成是成人大脑中新神经元的产生过程。它主要在早期发育期间活跃，但在整个生命周期中持续发生。成人的神经生成主要发生在海马体的齿状回和侧脑室的室管膜下区。神经生成被认为有助于在不牺牲旧记忆的情况下学习新记忆，并且可能在婴儿发展期间发挥重要作用，以适应新信息和技能。
（2）情景重放（Episodic replay）
情景重放是指在睡眠或休息期间，之前在清醒状态下发生的神经活动模式重新出现的现象。这有助于记忆巩固，并且研究表明睡眠对于学习和记忆至关重要。
（3）突触超塑性（Metaplasticity）
突触超塑性是指突触可塑性本身的可变性，即突触根据其先前的修饰历史和最近的神经活动，改变其对进一步修饰的敏感性。这意味着突触的可塑性是动态的，可以根据过去的经验来调整其对未来刺激的反应能力。它涉及到突触连接的强化或弱化，这取决于神经活动的模式和频率。允许突触根据其历史活动水平调整其对新学习的反应，从而有助于防止新记忆的形成对旧记忆的干扰。超塑性中的一个关键概念是异突触调节（heterosynaptic modulation），这指的是一个突触的活动可以影响其他突触的可塑性。这种调节对于突触巩固至关重要，允许快速学习但慢遗忘。
（4）神经调节（Neuromodulation）
神经调节是指通过神经调节剂（如乙酰胆碱、多巴胺、去甲肾上腺素和5-羟色胺）对神经活动和可塑性的调节。这些化学物质影响学习过程，帮助大脑适应预期和意外的不确定性，支持快速学习和记忆编码。
（5）上下文依赖的感知和门控（Context-dependent perception and gating）
在生物系统中，上下文在调节、过滤和整合新信息中起着重要作用。上下文门控通过选择性地激活神经元亚群，减少类似经历之间的干扰，有助于快速学习新刺激并控制反应。
（6）层级分布式系统（Hierarchical distributed systems）
许多生物体具有非中心化的大脑或极小的大脑。这些控制架构表现为层级系统，允许在身体各处的多个神经元网络中分布式处理和学习，每个网络内部连接紧密，但网络间的连接相对稀疏。
（7）脑外认知（Cognition outside the brain）
许多生物系统展示了在没有神经系统的情况下学习、预测和适应新挑战的能力。这包括通过非神经生物电网络或亚细胞过程（如转录网络）进行计算的生物组织和生物分子网络。
（8）可重构生物体（Reconfigurable organisms）
生物体在环境和细胞属性发生巨大变化时仍能保持一致性和适应性功能。例如，蝌蚪即使在眼睛位置异常的情况下也能进行有效的视觉学习，显示出大脑可能适应新架构的能力。
（9）多感官整合（Multisensory integration）
生物体是天生的感觉运动系统，其运动行为受到多种感觉信号的指导。如何整合这些分布、非线性、非共位、嘈杂且有延迟的感觉信号以实现多功能运动功能，是一个活跃的研究领域。

3.3 终身学习6大特征的相关研究

（1）转移与适应（Transfer and adaptation）
转移与适应指的是系统能够将在一个任务中学到的知识应用到另一个任务上，并对新环境或变化快速适应的能力。生物学启发的算法。

如基于神经调节（Neuromodulation）的模型，可以增强系统的这种能力，使系统能够在面对新任务或环境变化时，利用已有的知识进行快速学习和适应。【78, 79, 84-86，88，89，157，158, 159, 160】
如上下文依赖的感知和门控（Context-dependent perception and gating）通过追踪上下文的变化并在训练和/或推理时使用这些信息来调节网络，可以提高L2代理的性能。【168-180】

（2）克服灾难性遗忘（Overcoming catastrophic forgetting）
灾难性遗忘是指在学习新任务时，系统可能会丢失之前学到的知识。为了克服这个问题，研究者们模仿了大脑中的上下文依赖的感知和门控（Context-dependent perception and gating）、神经生成（Neurogenesis）、情景重放（Episodic replay）、神经调节（Neuromodulation）、突触超塑性、上下文依赖的感知和门控（Context-dependent perception and gating）等机制，开发了能够在学习新知识的同时保留旧知识的模型。

上下文依赖的感知和门控（Context-dependent perception and gating）
- 上下文依赖的门控被用来通过改善网络对不同任务模式表征的分离来减轻灾难性遗忘。
- 【168】
神经生成（Neurogenesis）
- 神经生成，特别是在海马体的齿状回，被认为支持在不牺牲旧记忆的情况下学习新记忆。
- 通过添加新神经元来表示新记忆，同时保持现有神经元的完整性。
- 已有多个终身学习机器（L2M）机制通过按需添加新神经元来模仿神经生成。
- 【169-174】
情景重放（Episodic replay）
- 基于与睡眠和重放相关的生物学见解，模仿睡眠或添加内部生成的重放可以提高深度神经网络对灾难性遗忘的抵抗力。
- 【54，175，176，177，178，170，180】
突触超塑性（Metaplasticity）
- 研究人员从生物突触的时间变化性中获得灵感，在机器学习模型中实现突触超塑性。
- 一个突触超塑性的级联模型显著减少了灾难性遗忘。
- 最近的模型使用二进制权重和实数值隐藏状态，能够顺序学习复杂数据集，而不忘之前学习的内容。
- 【67，89，181，182，183，184，185】
神经调节（Neuromodulation）
- 在模拟和机器人记忆任务中，神经调节被用来决定新刺激是新颖且不熟悉的（即创建新模式），还是新颖且熟悉的（即整合到现有模式中）。
- 神经调节信号不确定性也被用来在编码记忆时调节稳定性-可塑性困境，从而克服灾难性遗忘。
- 【79，164，78】

（3）利用任务相似性（Exploiting task similarity）
当不同任务之间存在相似性时，系统可以通过识别和利用这些相似性来提高学习效率。例如，通过上下文依赖的感知和门控机制，系统能够区分不同任务的表征，从而在学习新任务时重用相关的旧知识。

上下文依赖的感知和门控：
- 齿状回的解耦作用适用于多种架构和认知理论，例如在自动编码器中发现的解耦和分解表征，以及上下文依赖的模式。
- 【165，166，79，164】
少样本复杂物体学习：
- 可以通过胶囊网络捕捉基于部分间关系的整体组合，这促成了Omniglot数据集的形成。
- 【186，187】
层级分布式系统：
- 尽管分层架构通常是系统工程的一部分，但将这些概念应用于学习系统存在组合挑战，因为层次结构中的多样性使得构建一个能够灵活捕捉整个组合多样性空间的系统变得困难。
- 【188，189，190，191】
多感官整合：
- 利用多种感官输入增强机器人导航和对身体配置及其与环境关系的感知。例如，一种生物启发的尖峰多感官神经网络能够基于多感官整合识别物体，并根据声音输入想象从未见过的画面。
- 【192，152，155，193】
可重构生物体：
- 从生物体皮肤取出的细胞，在新环境中切除并重组后，能够自组装成一个活跃的结构，利用新环境中的相似性来实现运动和与同种个体及附近物体的交互。
- 【139，147，194】
脑外认知：
- 非神经组织中的生物电网络启发了对L2M系统的调节和再生功能的建模。计算AI系统可以通过模拟已知的非神经生物电通信机制来模仿和利用这些动态。
- 【195，196，197】

（4）任务不可知学习（Task-agnostic learning）
任务不可知学习是指系统能够在没有明确任务信息的情况下进行学习。这种能力对于现实世界的部署尤为重要，因为任务的边界往往是模糊的。通过使用如元学习等技术，系统可以学习如何学习，从而在面对未知任务时表现出更好的泛化能力。

上下文依赖的感知和门控：
- 生物系统经常通过选择性注意力调节感知，并且能够推断任务信息。上下文依赖的感知和门控可以利用网络信息（局部或全局），来推断上下文的转变或识别上下文信息。一个例子是基于网络误差检测上下文转变的方法。
- 【70，161】
突触超塑性（Metaplasticity）：
- 许多基于突触超塑性的方法，特别是那些旨在通过限制重要突触的可塑性来保护知识的方法，在训练期间需要任务变化通知，以决定何时更新每个突触的估计重要性。一些研究实现了突触超塑性作为一个功能，它只使用每个突触局部的信息，而不需要任务信息。
- 【7，181，183，184，185，198】

（5）噪声容忍性（Noise tolerance）
噪声容忍性是指系统在面对这些噪声时仍能保持性能的能力。通过模仿生物体的多感官整合和神经调节等机制，可以提高系统对噪声的鲁棒性。比如神经调节（neuromodulation）、多感官整合（multisensory integration）、层级分布式系统（hierarchical distributed systems）、可重构生物体（reconfigurable organisms）和情景重放（episodic replay）等机制被用来提高L2系统的噪声容忍性。层级系统可以学习更高层次的控制策略来适应噪声，减少其对低层次控制器输出的影响，从而产生能在嘈杂环境中表现良好的算法。通过突触巩固机制，可以滤除噪声和偶然的相关性，该机制提取输入输出流中的原因效应。最后，从生物体分离的细胞能够自组织成一个新的功能性原型有机体，无需微观管理，它们在细胞数量和位置以及环境条件方面能够承受高水平的噪声，以可靠地构建一个可移动的、具有再生功能的系统。
【78, 158, 199】【113, 162】【139, 147】【176, 177】【199，200】
（6）资源效率和可持续性（Resource efficiency and sustainability）
资源效率和可持续性关注的是系统如何在有限的计算资源和存储容量下持续学习。这包括开发如网络剪枝、知识蒸馏等技术，以减少模型的内存占用，同时保持其学习能力。通过这种方式，系统能够在资源受限的环境中有效地学习新任务，同时避免过度增长的资源需求。

神经生成（Neurogenesis）
- 神经生成允许系统整合新信息，但需要避免无控制的生长。区分新信息可以帮助判断是否需要进一步的神经生成以及其程度。在模拟迷宫环境中，网络修剪机制也被证明是有效的。
- 【201, 174, 202】
情景重放（Episodic replay）
- 重放或排练先前学到的信息是L2中一个有效且广泛使用的工具。重放的主要关注点是其计算效率和可扩展性。受神经科学启发的深度学习近期工作表明，为避免遗忘，只重放一小部分数据可能已足够。只重放与新学习相似的旧记忆，或重放过去经历的抽象、高级别表征。重放与新学习交错进行可以减少表示先前学习信息所需的资源量。
- 【53, 54, 175, 176, 179, 180, 203, 204】
突触超塑性（Metaplasticity）
- 基于突触超塑性的方法，也称为参数正则化方法，已被证明能够在不增加内存和计算能力资源要求的情况下减少灾难性遗忘。这些方法的表现力是固定的，它们无法学习任意长的任务序列。
- 【89, 181–183, 198, 205】

3.4 数据集

图像识别数据集：这些数据集通常包含多种类别的图像，用于训练和测试模型在视觉识别任务中的终身学习能力。
- 参考文献【7,54,70,78,84, 88,89,160,165, 166,168,171,172, 175，176，177,179,181,183,185,198,201, 202,234】
环境交互数据集：这类数据集涉及与环境的交互，可能用于强化学习或机器人学习任务，其中智能体必须学习如何在环境中导航或执行特定任务。
- 参考文献【78,79,157,159, 160,163,170,171, 174,180,182,184, 192】
生物模拟数据集：这些数据集可能来源于生物学研究，用于模拟生物过程或行为，以研究机器学习模型如何模拟这些过程。
- 参考文献【139,147,195,196,197】
机器人数据集：机器人学习任务中使用的数据集，可能包括传感器数据、运动执行数据等，用于训练机器人执行复杂动作或适应新环境。
- 参考文献【113,152,160, 164,189,190 】
其他数据集：可能包括各种特定于任务的数据集，用于研究模型在不同领域的终身学习能力。
- 参考文献【53,67,85,86,155, 158,161,162,167, 169,173,188,191, 193,199,200,203】

4 图解析

（1）生物机制解决的挑战

图中表示了，不同的生物学机制可能支持和促进终身学习的不同挑战。其中神经生成（Neurogenesis）和上下文依赖的感知和门控（Context-dependent perception and gating）是能够解决终身学习中的最多问题。图中表示左侧列出的生物学机制被认为有助于实现顶部对应的终身学习关键特征，注意并不意味着单一机制本身就足以实现该特征。
（2）小鼠中新产生的神经元迁移到特定的脑区

描述了新产生的神经前体细胞在侧脑室开始它们的迁移过程。红色的rostral migratory stream (RMS)，即前端迁移流，这是新产生的神经前体细胞（neuroblasts）从侧脑室（lateral ventricle, LV）的室管膜下区迁移到嗅球（olfactory bulb, OB）的路径。这些细胞沿着RMS继续迁移，最终到达嗅球。在嗅球内，这些神经前体细胞分化成熟，形成特定的神经元群体，特别是内部神经元。
（3）啮齿动物海马体中的情景重放（Episodic replay）现象

在动物清醒并活动时，海马体内的地点细胞（hippocampus place cells）会根据动物访问的空间位置顺序地发放信号。海马体的局部场电位（local field potential, LFP）显示出theta波振荡。
在睡眠和休息期间（以及有时在活跃行为期间的短暂停顿时），海马体的LFP显示出“涟漪”活动（即100-200赫兹的短暂脉冲振荡）。在这些涟漪活动期间，神经元会迅速重放之前行为中发生的序列。这种行为期间观察到的活动序列重放也被发现在其他脑区，以压缩（如图中所示）或未压缩的形式出现。
通过展示清醒和睡眠状态下海马体地点细胞的活动模式，说明了大脑如何在动物休息时重放之前的经历。这种现象被认为与记忆巩固有关，是学习和记忆研究中的一个关键机制。
（4）脑中的神经调节系统

描述了神经调节剂的来源，这些调节剂主要在大脑的皮层下区域产生。乙酰胆碱（Acetylcholine）主要在无名质（substantia innominata, S）和内侧隔核（medial septum, M）产生。多巴胺（Dopamine）主要在腹侧被盖区（ventral tegmental area, VTA）和黑质致密部（substantia nigra compacta, SNc）产生。去甲肾上腺素（Noradrenaline）主要在蓝斑核（locus coeruleus, LC）产生。5-羟色胺（Serotonin）主要在背侧（dorsal, DR）和内侧（medial, MR）的拉普斯核（raphe nuclei）产生。这些神经调节剂的产生区域向大脑和神经系统的大范围区域发出投射。
每种神经调节剂的活动与环境刺激有关：
- 乙酰胆碱水平似乎与注意力努力（attentional effort）有关。
- 多巴胺水平似乎与奖赏预期（reward anticipation）有关。
- 去甲肾上腺素水平似乎与惊讶或新奇（surprise or novelty）有关。
- 5-羟色胺水平似乎与风险评估和冲动性（risk assessment and impulsiveness）有关。
描述了两种类型的神经调节：
- 相位神经调节（Phasic neuromodulation）：推动有机体朝向更加利用性（exploitative）和果断（decisive）的行为。
- 持续性神经调节（Tonic neuromodulation）：推动有机体朝向更加探索性（exploratory）或好奇（curious）的行为。

（5）生物系统如何利用多个动态交互层级

阐释了生物系统如何通过不同层级的相互作用来实现有效的控制和学习。这种分层的动态交互模型对于理解生物体如何在复杂环境中有效行动具有重要意义。
（6）非神经生物电网络（BioElectric Network, BEN）的网络结构及应用

图a中是由节点组成的网络架构，这些节点代表非神经细胞，它们通过表示间隙连接的边相互连接。BEN是一种用于再生和修复过程中控制生长和形态的机制，且该机制具有学习能力。在应用中，包含BEN网络的代理（模拟其身体）和人工神经网络（模拟其大脑）可以学习适应环境，即使在大脑被移除后也能继续学习。

5 思考

（1）终身学习的生物机制大多归因于大脑中的过程，但也有一些来自在大脑之外的细胞内和细胞间的活动。
（2）异突触调节（heterosynaptic modulation）指的是一个突触的活动可以影响其他突触的可塑性。这种调节对于突触巩固至关重要，允许快速学习但慢遗忘。
（3）提出的6个关键特征，是终身学习的6大挑战，如果一个算法能够同时解决这6个问题，是很完美的。
（4）从图2中可以知道，从神经生成（Neurogenesis）和上下文依赖的感知和门控（Context-dependent perception and gating）的角度去做终身学习的研究，能够最多解决终身学习中的问题。

【博士每天一篇文献-综述】Biological underpinnings for lifelong learning machines

1 介绍

2 创新点