【博士每天一篇文献-算法】On tiny episodic memories in continual learning

简介: 本文研究了在连续学习环境中使用小型情节记忆来解决灾难性遗忘问题,通过实证分析发现经验重播(ER)方法在连续学习中的表现优于现有最先进方法,并且重复训练对过去任务的小型记忆可以提升泛化性能。

阅读时间:2023-10-22

1 介绍

在连续学习中,智能体通过利用先前的经验从一系列任务中学习,并将知识传递给未来的任务。为了成功执行先前的任务,学习者需要记住如何执行它们。一种使学习者具备这种能力的方法是通过存储一个小的记忆,称为情节记忆,该记忆存储了来自先前任务的一些示例,并在训练未来任务时重播这些示例。作者通过实证分析了在每个训练样本仅出现一次的连续学习设置中,小型情节记忆的有效性。他们发现一种称为经验重播(ER)的简单基准方法,它在当前任务的示例和存储在情节记忆中的示例上进行训练,明显优于用于连续学习的现有最先进方法,无论是否使用情节记忆。此外,对过去任务的小型记忆进行重复训练不会损害泛化性能,反而会提高泛化性能。

2 创新点

引入了一个小型的情节性记忆,通过将之前的任务的示例存储在这个记忆中,并在训练后续任务时重新播放这些示例,从而解决了连续学习中的灾难性遗忘问题。

3 算法

存储一个称为情节记忆的小型记忆,它存储了来自之前任务的几个示例,并在训练未来任务时重放这些示例。
存储的来自之前任务的几个示例可以通过两种方式进行:

  1. 经验回放-蓄水池采样(Reservoir Sampling): 这种方法在整个数据流中随机选择一些数据点来存储在记忆中。通过这种方法,可以保持对之前任务的一些样本进行回放,以供未来任务的训练使用。经验表明,水塘采样在记忆容量较大时效果最好。
  2. 环形缓冲区(Ring Buffer): 这种方法为每个任务分配了一组FIFO(First-In-First-Out)缓冲区,每个类别有一个缓冲区。缓冲区的大小是预先设定的,它保留了每个类别最近的若干观察样本。与水塘采样不同,环形缓冲区不会在训练过程中更改来自早期任务的样本,这可能导致更强的过拟合。然而,在训练的早期阶段,由于每个类别的缓冲区大小保持不变,存储器不能充分利用。然而,这种简单的抽样策略保证了记忆中所有类别的平等表示,这在记忆很小时特别重要。

4 实验分析和结果

四个常用的基准数据集。Permuted MNIST 、Split CIFAR 、Split miniImageNet、Split CUB。
采用的模型有FINETUN、EWC、A-GEM、MER
在这里插入图片描述

  • FINETUNE是一种模型,它在没有任何正则化和情节记忆的情况下进行持续训练,并且使用上一个任务的参数初始化新任务的参数。
  • EWC是一种基于正则化的方法,通过限制对于过去任务性能至关重要的参数的学习来避免灾难性遗忘。
  • A-GEM是一种使用情节记忆作为优化约束的模型。
  • MER是一种利用情节记忆并使用近似当前任务梯度和先前任务梯度点积的损失来避免遗忘的模型。

根据实验结果,当任务之间相关度较小时,即旋转角度差小于20度时,即使没有记忆,通过在T2上的训练也可以改善对T1的泛化性能。然而,当在D2和M1上进行训练时,无论两个任务之间的相关性如何,T1的泛化性能都优于FINETUNE方法,即仅使用D2进行训练。
实验还比较了不同的记忆更新策略,其中经验表明对于小型情节性记忆,基于样本均衡的采样方法效果最好,而对于更大的记忆,基于蓄水池采样(Reservoir Sampling)的方法效果最好。此外,综合使用蓄水池采样和基于环形缓冲区的方法可以在记忆中保留充足的样本的同时实现良好的随机性。

5 待研究问题

什么样的最佳输入最能减轻预期遗忘,并寻找在记忆完全填满时从记忆中删除样本的最佳策略。

6 代码

https://github.com/firehose-dataset/congrad?utm_source=catalyzex.com

目录
相关文章
|
7月前
|
机器学习/深度学习 人工智能 资源调度
【博士每天一篇文献-算法】连续学习算法之HAT: Overcoming catastrophic forgetting with hard attention to the task
本文介绍了一种名为Hard Attention to the Task (HAT)的连续学习算法,通过学习几乎二值的注意力向量来克服灾难性遗忘问题,同时不影响当前任务的学习,并通过实验验证了其在减少遗忘方面的有效性。
122 12
|
7月前
|
机器学习/深度学习 算法 计算机视觉
【博士每天一篇文献-算法】持续学习经典算法之LwF: Learning without forgetting
LwF(Learning without Forgetting)是一种机器学习方法,通过知识蒸馏损失来在训练新任务时保留旧任务的知识,无需旧任务数据,有效解决了神经网络学习新任务时可能发生的灾难性遗忘问题。
409 9
|
7月前
|
存储 机器学习/深度学习 算法
【博士每天一篇文献-算法】连续学习算法之RWalk:Riemannian Walk for Incremental Learning Understanding
RWalk算法是一种增量学习框架,通过结合EWC++和修改版的Path Integral算法,并采用不同的采样策略存储先前任务的代表性子集,以量化和平衡遗忘和固执,实现在学习新任务的同时保留旧任务的知识。
172 3
|
15天前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于GRU网络的MQAM调制信号检测算法matlab仿真,对比LSTM
本研究基于MATLAB 2022a,使用GRU网络对QAM调制信号进行检测。QAM是一种高效调制技术,广泛应用于现代通信系统。传统方法在复杂环境下性能下降,而GRU通过门控机制有效提取时间序列特征,实现16QAM、32QAM、64QAM、128QAM的准确检测。仿真结果显示,GRU在低SNR下表现优异,且训练速度快,参数少。核心程序包括模型预测、误检率和漏检率计算,并绘制准确率图。
83 65
基于GRU网络的MQAM调制信号检测算法matlab仿真,对比LSTM
|
2天前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于生物地理算法的MLP多层感知机优化matlab仿真
本程序基于生物地理算法(BBO)优化MLP多层感知机,通过MATLAB2022A实现随机数据点的趋势预测,并输出优化收敛曲线。BBO模拟物种在地理空间上的迁移、竞争与适应过程,以优化MLP的权重和偏置参数,提升预测性能。完整程序无水印,适用于机器学习和数据预测任务。
|
2天前
|
资源调度 算法 数据可视化
基于IEKF迭代扩展卡尔曼滤波算法的数据跟踪matlab仿真,对比EKF和UKF
本项目基于MATLAB2022A实现IEKF迭代扩展卡尔曼滤波算法的数据跟踪仿真,对比EKF和UKF的性能。通过仿真输出误差收敛曲线和误差协方差收敛曲线,展示三种滤波器的精度差异。核心程序包括数据处理、误差计算及可视化展示。IEKF通过多次迭代线性化过程,增强非线性处理能力;UKF避免线性化,使用sigma点直接处理非线性问题;EKF则通过一次线性化简化处理。
|
3天前
|
算法 数据安全/隐私保护
基于二次规划优化的OFDM系统PAPR抑制算法的matlab仿真
本程序基于二次规划优化的OFDM系统PAPR抑制算法,旨在降低OFDM信号的高峰均功率比(PAPR),以减少射频放大器的非线性失真并提高电源效率。通过MATLAB2022A仿真验证,核心算法通过对原始OFDM信号进行预编码,最小化最大瞬时功率,同时约束信号重构误差,确保数据完整性。完整程序运行后无水印,展示优化后的PAPR性能提升效果。
|
6天前
|
机器学习/深度学习 数据采集 算法
基于PSO粒子群优化的CNN-LSTM-SAM网络时间序列回归预测算法matlab仿真
本项目展示了基于PSO优化的CNN-LSTM-SAM网络时间序列预测算法。使用Matlab2022a开发,完整代码含中文注释及操作视频。算法结合卷积层提取局部特征、LSTM处理长期依赖、自注意力机制捕捉全局特征,通过粒子群优化提升预测精度。适用于金融市场、气象预报等领域,提供高效准确的预测结果。
|
6天前
|
算法 数据安全/隐私保护
基于Big-Bang-Big-Crunch(BBBC)算法的目标函数最小值计算matlab仿真
该程序基于Big-Bang-Big-Crunch (BBBC)算法,在MATLAB2022A中实现目标函数最小值的计算与仿真。通过模拟宇宙大爆炸和大收缩过程,算法在解空间中搜索最优解。程序初始化随机解集,经过扩张和收缩阶段逐步逼近全局最优解,并记录每次迭代的最佳适应度。最终输出最佳解及其对应的目标函数最小值,并绘制收敛曲线展示优化过程。 核心代码实现了主循环、粒子位置更新、适应度评估及最优解更新等功能。程序运行后无水印,提供清晰的结果展示。
|
8天前
|
算法 数据挖掘 数据安全/隐私保护
基于CS模型和CV模型的多目标协同滤波跟踪算法matlab仿真
本项目基于CS模型和CV模型的多目标协同滤波跟踪算法,旨在提高复杂场景下多个移动目标的跟踪精度和鲁棒性。通过融合目标间的关系和数据关联性,优化跟踪结果。程序在MATLAB2022A上运行,展示了真实轨迹与滤波轨迹的对比、位置及速度误差均值和均方误差等关键指标。核心代码包括对目标轨迹、速度及误差的详细绘图分析,验证了算法的有效性。该算法结合CS模型的初步聚类和CV模型的投票机制,增强了目标状态估计的准确性,尤其适用于遮挡、重叠和快速运动等复杂场景。