阅读时间:2023-12-5
1 介绍
年份:2019
作者:German I. Parisi,IBM;Ronald Kemker,美国太空军
期刊: Neural networks
引用量:2919
这篇综述性论文探讨了神经网络在终身学习(lifelong learning)领域的研究进展。论文分为三个部分,第一个部分是基本概念。第二部分是连续学习的方法分类及基准介绍,第三部分是对于未来研究方向的探讨。
- 生物学启发的终身学习相关概念
- 稳定性-可塑性困境(Stability–Plasticity Dilemma)
- Hebbian可塑性和稳定性(Hebbian plasticity and stability)
- 互补学习系统(The complementary learning systems)
- 学习不忘(Learning without forgetting)
- 终身学习方法分类及基准
- 终身机器学习(Lifelong machine learning)
- 正则化方法(Regularization approaches)
- 动态架构(Dynamic architectures)
- 互补学习系统和记忆重放(Complementary learning systems and memory replay)
- 基准测试和评估指标(Benchmarks and evaluation metrics)
- 未来展望
- 通往自主代理(Towards autonomous agents)
- 发展和课程学习(Developmental and curriculum learning)
- 转移学习(Transfer learning)
- 好奇心和内在动机(Curiosity and intrinsic motivation)
- 多感官学习(Multisensory learning)
2 创新点
- 综合性评述:总结现有的终身学习方法,探讨了这些方法如何缓解神经网络中的灾难性遗忘问题。
- 生物学启发的视角:论文从生物学的角度出发,分析了人类和动物大脑中终身学习的相关机制,并探讨了如何将这些机制应用于计算模型和神经网络架构中。
- 多维度的分析:论文不仅关注了网络结构和算法的改进,还涉及了记忆巩固、知识转移、内在动机以及多感官学习等多个维度。
- 灾难性遗忘的解决策略:提出了多种解决灾难性遗忘的策略,包括正则化方法、动态架构、互补学习系统和记忆重放等。
- 自主代理和机器人的应用:论文强调了终身学习对于自主代理和机器人的重要性,并讨论了如何将这些学习机制应用于更复杂、更符合现实世界条件的场景。
- 评估指标和基准测试:讨论了评估连续学习模型性能的指标和基准测试。
- 跨学科的视角:论文结合了神经科学、心理学、认知科学等领域的研究,提供了一个跨学科的视角来理解和推进终身学习在人工智能中的应用。
3 相关研究
3.1 相关概念
(1)稳定性-可塑性困境(stability–plasticity dilemma)
这是一个概念,描述了神经系统需要在稳定性(保持已学习的信息)和可塑性(适应新信息的能力)之间找到平衡的挑战。指的是如何在保持已学习知识的稳定性的同时,使系统具备适应新知识的能力,以避免在新学习过程中发生灾难性遗忘。如果一个系统过于稳定,它可能无法学习新事物;如果过于可塑,它可能无法保留已学习的信息,容易发生灾难性遗忘。参考【Ditzler et al., 2015; Mermillod et al., 2013】
(2)稳态可塑性(Homeostatic plasticity)
稳态可塑性是一种神经可塑性的形式,它指的是神经系统在长期活动中维持其稳定性和功能的一种调节机制。稳态可塑性确保神经网络在学习和适应环境变化时,不会发生过度的或不适当的变化,从而保持神经活动在一个健康的动态范围内。这种可塑性涉及到多种机制,如突触缩放(synaptic scaling)和元可塑性(meta-plasticity),它们可以调整突触的强度,以响应长期的神经活动水平。
这是解决稳定性-可塑性困境的一种机制,它通过调节神经系统的可塑性来维持其功能和稳定性。稳态可塑性是一种保护机制,它可以防止神经系统因为过度的学习和记忆形成而变得不稳定,同时也防止因为过度的稳定性而导致无法适应新环境。
(3)自下而上的感官驱动(Bottom-up sensory drive)
指从感官器官(如眼睛、耳朵)开始,通过感官通路向大脑皮层传递信息的过程。信息首先由感官感受器接收,然后通过较低级的神经回路传递到大脑皮层,这些回路处理基本的感觉信息,如颜色、形状、声音等。自下而上的处理是数据驱动的,意味着它依赖于外部刺激的直接输入。
(4)自上而下的反馈(Top-down feedback)
指的是从大脑皮层的高级区域向较低级的感知和处理区域发送的信号或信息。这种反馈可以基于先前的经验、期望、注意力或任务相关的上下文信息,影响感官信息的解释和处理。自上而下的加工涉及对感官输入的高级解释,如识别熟悉的物体或面孔,或根据上下文做出预测。
(5)Hebbian plasticity and stability
指的是通过Hebbian学习规则增强神经元间连接的可塑性机制,同时利用稳态可塑性机制如突触缩放和元可塑性来维持神经网络的稳定性,从而支持大脑对环境变化的适应和学习。在 Hebbian 系统中,稳定性通常是通过增加额外的约束来实现的,例如限制单个突触权重的上限或平均神经活动。稳态可塑性的稳态机制包括突触缩放和元可塑性,它们直接影响突触强度。参考【Davis, 2006; Turrigiano, 2011】
(6)神经地图(Neural maps)
神经地图是大脑中的一种组织结构,它们是由神经元和它们之间的连接组成的网络,这些网络以一种拓扑的方式排列,以表示和处理来自感官输入或其他大脑区域的信息。
(7)神经地图组织(Organization of neural maps)
神经地图组织是指这些神经地图中神经元的排列和连接方式。在神经科学中,神经地图的概念用于描述大脑如何通过神经元网络的空间排列来编码和处理信息。
- 体感皮层地图(Somatosensory map):在大脑中,体感皮层的神经元按照身体部位的物理位置排列,形成了一个身体表面的感觉表示,通常被称为“触觉同感区图”。
- 视觉皮层地图(Retinotopic map):在视觉系统中,神经元根据它们所响应的视觉场位置排列,形成了一个关于视觉空间的拓扑映射。
- 听觉皮层地图(Tonotopic map):在听觉皮层中,神经元根据它们对声音频率的敏感度排列,形成了一个声音频率的映射。
(8)自组织(self-organization)
自组织是指神经元网络通过学习和经验而形成的结构和功能,而不是由遗传硬编码决定的。
(9)互补学习系统(Complementary learning systemsCLS)
互补学习系统(CLS)理论提出了大脑中海马体和新皮层在学习和记忆巩固中的互补作用,其中海马体负责快速学习和短期记忆,而新皮层则负责长期记忆和知识的泛化。
3.2 基于正则化的连续学习方法
(1)生物原理
不同塑性水平的突触状态级联(a cascade of states with different levels of plasticity)是指在神经系统中,突触连接的强度可以处于多种不同状态,这些状态具有不同的可塑性或改变的能力。这里的“级联”意味着这些状态是有序排列的,形成了一个连续的序列,在这个序列中,突触的可塑性可以从低到高或从高到低变化。描述大脑如何通过调整突触的可塑性来保护已经学习的信息(巩固的知识),同时仍然保持学习新信息的能力。
- 低塑性状态:突触连接的强度较难改变,这有助于保留长期记忆和已经学习的技能,因为这些连接不容易被新的学习所改变或覆盖。
- 高塑性状态:突触连接的强度可以较容易地改变,这有助于快速学习和适应新信息,但也可能导致已有记忆的遗忘。
(2)代表算法
- Learning without Forgetting (LwF)
- 简介:通过知识蒸馏技术,优化新任务的参数时,保持已学习任务的网络预测不变,从而减少对旧知识的遗忘。
- 论文:Li and Hoiem (2016)
- Elastic Weight Consolidation (EWC)
- 简介:对旧任务相关权重的变化施加二次惩罚,以减缓这些权重的学习速度,保护之前学习的知识。
- 论文:Kirkpatrick et al. (2017)
- Synaptic Intelligence
- 简介:允许突触估计它们对解决已学习任务的重要性,并惩罚对最重要突触的变化,以减少新任务学习时的遗忘。
- 论文:Zenke, Poole et al. (2017)
- AR1 Model
- 简介:结合了架构和正则化策略,通过在批次中逐步减少权重变化的幅度,特别是在中间层,以减少遗忘。
- 论文:Maltoni and Lomonaco (2018)
- Ensemble Methods
- 简介:训练多个分类器并将它们组合起来生成预测,以此来减少灾难性遗忘。
- 论文:Ren, Wang, Li, and Gao (2017); Coop, Mishtal, and Arel (2013); Fernando et al. (2017)
- PathNet
- 简介:使用遗传算法找到神经网络中的最优路径进行复制和变异,以此来发现哪些网络部分可以用于学习新任务,同时避免遗忘。
- 论文:Fernando et al. (2017)
3.3 基于动态架构的方法
(1)原理
"Dynamic architectures"是指能够根据新信息动态调整其结构的神经网络架构。这些架构能够通过增加新的神经元或网络层来适应新的学习任务,从而减轻灾难性遗忘的问题。
(2)代表算法
- Progressive Networks(PNN)
○ 简介:Progressive Networks通过为每个新任务分配一个新的子网络来保留之前学习的知识。这种方法通过创建一个预训练模型池,每个任务都有一个对应的模型。当新任务出现时,会创建一个新的神经网络,并学习与现有任务的横向连接。
○ 论文:Rusu, A. A., Rabinowitz, N. C., Desjardins, G., Soyer, H., Kirkpatrick, J., Kavukcuoglu, K., et al. (2016). Progressive Neural Networks. - Incremental Training of Denoising Autoencoders
○ 简介:这种算法通过添加新的神经元来减少高损失样本的重建误差,并随后将这些神经元与现有神经元合并,以防止冗余和过拟合。
○ 论文:Zhou, G., Sohn, K., & Lee, H. (2012). Online incremental feature learning with denoising autoencoders. - Neurogenesis Deep Learning (NDL)
○ 简介:NDL模型在自编码器中添加新的神经单元以适应新的MNIST数字,并使用内在重放(一种生成模型,用于伪重演)来保留保留旧信息所需的权重。
○ 论文:Draelos, T. J., Miner, N. E., Lamb, C. C., Vineyard, C. M., Carlson, K. D., James, C. D., et al. (2017). Neurogenesis Deep Learning. - Dynamically Expanding Networks (DEN)
○ 简介:DEN通过在线方式训练,通过选择性重训练来扩展网络容量,并使用群组稀疏正则化来决定每层需要添加多少神经元。
○ 论文:Yoon, J., Yang, E., Lee, J., & Hwang, S. J. (2018). Lifelong learning with dynamically expandable networks. - Self-Organizing Incremental Neural Network (SOINN)
○ 简介:结合预训练的CNN和SOINN,利用CNN的表示能力,并允许分类网络根据任务要求连续增长。
○ 论文:Part, J. L., & Lemon, O. (2016, 2017). Incremental online learning of object classes using a combination of self-organizing incremental neural networks and deep convolutional neural networks.
3.4 互补学习系统和记忆重放的连续学习方法
(1)原理
模拟了记忆巩固和检索,其中记忆和概括的互补任务由哺乳动物海马体和新皮层的相互作用介导。
(2)代表算法
- Dual-Memory Systems
- 简介:启发于大脑的海马体和新皮层的互补学习系统,通过双权重方法来存储长期和短期知识,以减轻灾难性遗忘。
- 论文:Hinton and Plaut (1987)
- Pseudo-Recurrent Dual-Memory Framework
- 简介:使用伪递归连接和伪重放机制,通过在记忆中心之间转移记忆来实现连续学习。
- 论文:French (1997)
- Hypothesis Testing Plasticity (HTP)
- 简介:通过假设测试可塑性,利用短期和长期可塑性来巩固新信息,基于因果关系的假设测试。
- 论文:Soltoggio (2015)
- GeppNet and GeppNet+STM
- 简介:使用自组织映射(SOM)和短期记忆(STM)来选择性地进行学习,并在训练阶段和睡眠阶段之间交错重放新知识。
- 论文:Gepperth and Karaoguz (2015)
- Deep Generative Replay
- 简介:结合深度生成模型和任务解决器,通过生成伪数据来重放先前学习任务的信息,从而实现连续学习。
- 论文:Shin, Lee, Kim, and Kim (2017)
- Evolvable Neural Turing Machine (ENTM)
- 简介:通过逐步分配额外的外部记忆组件,使网络能够存储长期记忆,并通过进化网络的拓扑和权重来找到最佳结构。
- 论文:Lüders, Schläger, and Risi (2016)
- Gradient Episodic Memory (GEM)
- 简介:使用情景记忆来存储观察到的示例的子集,并通过将先前任务的损失作为不等式约束来避免其增加,从而减少灾难性遗忘。
- 论文:Lopez-Paz and Ranzato (2017)
- FearNet
- 简介:受到哺乳动物大脑在恐惧条件反射期间的回忆和巩固的启发,使用海马体网络和前额叶皮层网络来分别处理短期和长期记忆,并在睡眠阶段进行知识巩固。
- 论文:Kemker and Kanan (2018)
- Dual-Memory Self-Organizing Architecture
- 简介:使用循环自组织神经网络作为互补记忆,通过竞争性Hebbian学习和任务相关信号来调节结构可塑性,实现视频中的时空表示的终身学习。
- 论文:Parisi et al. (2018)
- Synaptic Relevance Estimation
- 简介:在训练过程中估计突触的重要性,并在新任务学习中保护对旧任务重要的突触权重。提出了一种方法,允许突触在在线学习过程中估计它们对任务的重要性。
- 论文:Zenke, Poole et al. (2017)
3.4 评价指标和基准数据集
- 训练和评估协议:正向转移(一个任务对后续任务的影响)和反向转移(当前任务对之前任务的影响)。参考【Lopez-Paz, D., & Ranzato, M. (2017). Gradient episodic memory for continual learning】
- 评估准则:参考【Measuring catastrophic forgetting in neural networks.】
- 数据排列(Data Permutation):这个实验要求模型在训练时同时处理原始数据集及其排列版本。这测试了模型在顺序变化的情况下学习新信息的能力,并期望模型在学习排列数据时不会忘记原始数据。
- 增量式类别学习(Incremental Class Learning):在这个实验中,模型需要逐个类别地增量学习新任务。这测试了模型在学习新类别时保留已学习类别信息的能力。
- 多模态学习(Multimodal Learning):这个实验要求同一个模型顺序地学习具有显著不同特征表示的不同数据集。例如,模型可能首先学习一个图像分类数据集,然后学习一个音频分类数据集。这测试了模型处理不同模态输入并适应新模态的能力。
- 知识转移:评估模型在不同任务之间转移知识的能力,包括正向转移(先前任务对后续任务的影响)和反向转移(当前任务对之前任务的影响)。
- 性能保持:在连续学习过程中,模型需要保持对先前学习任务的性能,同时学习新任务。
- 灾难性遗忘的量化:开发和使用量化指标来衡量模型在学习新任务时遗忘旧任务的程度。
- 存储和计算效率:评估模型在学习新任务时对存储和计算资源的需求,特别是在需要存储大量旧任务数据时。
- 泛化能力:评估模型对新任务的泛化能力,包括其对未见过的类别或场景的适应性。
- 鲁棒性:评估模型在面对非平稳数据分布和现实世界噪声时的鲁棒性。
- 可扩展性:评估模型在面对任务数量增加时的性能和效率,以及其扩展到更复杂任务的能力。
- 数据集:MNIST、CUB-200和CORE50
- MNIST:手写数字数据集。
- Caltech-UCSD Birds-200 (CUB-200):由200种不同鸟类组成的数据集,包含从不同角度观察到的鸟类图像。
- AudioSet:由YouTube视频构建的数据集,包含10秒的声音片段,涵盖632个类别,超过200万个注释。
- CORE50:用于持续的对象识别,包括50个类别的对象,并在背景、照明、模糊、遮挡、姿态和尺度上存在变化。
4 思考
论文对于一些生物启发连续学习的相关概念进行了详细说明,但是对连续学习算法的汇总较为浅薄,只是提到了部分研究。论文更多对于未来研究方向的探讨。
更新更完整的综述,参考论文【A Comprehensive Survey of Continual Learning: Theory, Method and Application】