【博士每天一篇文献-算法】Memory augmented echo state network for time series prediction

简介: 本文介绍了一种记忆增强的回声状态网络(MA-ESN),它通过在储层中引入线性记忆模块和非线性映射模块来平衡ESN的记忆能力和非线性映射能力,提高了时间序列预测的性能,并在多个基准数据集上展示了其优越的记忆能力和预测精度。

阅读时间:2023-11-24

1 介绍

年份:2023
作者:济南大学,刘千文、李范俊
期刊: Neural Computing and Applications
引用量:0
这篇论文介绍了记忆增强的回声状态网络(MA-ESN),旨在平衡ESN的记忆能力和非线性映射能力,以提高时间序列预测的性能。传统的ESNs具有较高的记忆能力,但其非线性映射能力有限,导致在复杂时间序列上的预测表现较差。MA-ESN通过在储层中引入线性记忆模块和非线性映射模块的新组合方式来实现这种平衡。线性记忆模块改善了记忆能力,而非线性映射模块保持了网络的非线性映射。该文章还提供了MA-ESN的训练算法、理论稳定性分析以及计算复杂性分析。实验证明,MA-ESN在基准时间序列数据集上的记忆能力和预测性能方面优于传统的ESNs和一些类似的ESN变体。此研究的贡献包括提出了储层的特殊设计方法、在理论上分析了MA-ESN的稳定性,并通过设计两个独立模块实现了记忆-非线性的分离机制。文章最后提出了未来的研究方向。

2 创新点

(1)提出了称为记忆增强回声状态网络(MA-ESN)的改进版本,旨在平衡ESNs的记忆能力和非线性映射能力,从而提高时间序列预测性能。
(2)通过在储层中引入线性记忆模块和非线性映射模块的新方式组合,实现了MA-ESN的这种平衡。引入记忆-非线性分离机制。线性记忆模块提高了记忆能力,而非线性映射模块保留了网络的非线性映射。
(3)提供了MA-ESN的训练算法、理论上的稳定性分析以及计算复杂性分析。
(4)实验结果表明,MA-ESN在基准时间序列数据集上的记忆容量和预测性能方面优于典型的ESNs和一些类似的ESN变种。

3 相关研究

(1)(2010) Echo state networks with filter neurons and a delay & sum readout.
ESN引入了延迟和读数以获得更大的MC,其主要思想是在储层和输出层之间添加可训练的延迟。
(2)2016) A new echo state network with variable memory length
改进MC,Shuxian Lun等人提出了一种可变内存长度回声状态网络(VML-ESN),其内存长度由输入信号的自相关自动确定
(3)Crowd counting by using Top-k relations: a mixed ground-truth CNN framework.
马千利等人提出了一种回声记忆增强网络(EMAN),通过引入稀疏可学习权重的注意力机制来提高ESN的长期记忆能力。
(4)(2007) Optimization and applications of echo state networks with leaky integrator neurons.
为了改善ESN的MC,泄漏的积分器单元于设计储层。
(4) (2020)Long-short term echo state network for time series prediction
提出了长短时回波状态网络(LS-ESNs)来提高ESN的存储能力,其中不同的跳跃连接被引入不同的储库。虽然上面提到的这些方法提高了ESN的内存能力,但它们不可避免地增加了额外的可训练参数。
(5)2017) Difference between memory and prediction in linear recurrent networks
仅增加RNN的MC并不能带来更好的复杂时间序列预测性能,需要保持一定的非线性映射能力[15]。
(6) (2010) Memory versus non-linearity in reservoirs
ESNs库中内存和非线性之间的权衡存在问题。
(7)(2019) Linear memory networks. ICANN 2019: Theoretical Neural Computation.
为了提高RNN学习顺序数据中长期依赖关系的能力,提出了一种线性记忆网络(LMN),将循环层显式地分为功能和记忆分量,这可以通过具有特殊初始化的标准反向传播算法进行优化。
(8)2013) Reservoir computing and extreme learning machines for non-linear time-series data analysis.
为了有效地平衡ESN的记忆-非线性权衡问题,Butcher等人提出了一种新的架构,通过结合一个储层和两个前馈层,将一个储层与两个前馈层相结合,命名为具有随机静态投影(RSP)的储层。
(9)(2017) Reservoir computing beyond memory-nonlinearity trade-off
从理论上分析了储层计算的内存-非线性权衡,并通过在混合储层(混合储层)中同时引入线性和非线性激活函数来提高信息处理能力。

4 算法

图2显示了所提出的内存-非线性分离机制,其中V、VHidden、VMemory、VMemory、VOutput分别表示输入空间、隐藏空间、最后一时刻的内存空间、当前时刻的内存空间和输出空间,VMemory和Vemory之间的连接处的黑色小方块表示时间延迟。两个模块独立工作并相互服务。线性存储模块M作为自编码器,用于记忆非线性映射模块H的输出序列,同时,非线性映射模块通过非线性激活函数将线性存储模块的输入信号和编码输出组合在一起,形成新的特征。只有线性存储模块的输出用于形成网络的输出。

  • 非线性映射模块是一种前馈神经网络,可从输入信号生成新特征。
  • 线性存储模块的输出通过非线性激活函数,同时线性存储模块负责以线性循环方式记忆非线性映射模块的输出序列。

截屏2024-02-28 下午1.29.29.png

5 实验分析

5.1 稳定性分析

(1)确保MA-ESN具有回声状态特性(Echo State Property,ESP),以确保网络的动态稳定性。
(2)引入利普希茨条件的定义,以确保激活函数满足Lipschitz条件,其中Lipschitz系数L大于等于1。
(3)确保线性记忆模块的记忆状态之间的距离随时间收缩,以保持MA-ESN的ESP。
(4)给出保证MA-ESN具有ESP的充分条件,包括最大奇异值和满足一定条件的激活函数利普希茨系数。

5.2 计算复杂度

(1)MA-ESN中的储层的计算复杂度包括两个方面:

  • 储层的计算复杂度可表示为Cres = Ch + Cm = O( TNxNh + 2TNhNm + SDTN^2m )

其中,T、Nx、Nh、Nm和SD分别代表信号的长度,输入神经元的数量,非线性映射模块的大小,线性存储器模块的大小和稀疏度。

  • MA-ESN的输出权重的计算复杂度可表示为Creg = O( TNyP + (T + P + Ny)P^2 )

(2)比较A-ESN和ESNs的计算复杂度,可以得出MA-ESN的计算复杂度比ESNs小。其中MA-ESN的复杂度可以表示为:CMA-ESN = O( 3TN^2m + N^3m ),而CESNs = O( TN^2m + N^3m )。由此可见,MA-ESN的复杂度大将近3倍。

5.3 数据集验证

数据集:10阶NARMA系统(10-order NARMA )、Lorenz系统(the Lorenz system)、太阳黑子时间序列(the Sunspot time series)、每日最低温度(daily minimum temperatures)和NCAA2022数据集(the NCAA2022 data set )。

5.3.1 记忆能力

  • 对典型的ESNs和一些具有特殊记忆机制的ESN变种进行比较。与典型ESN、LSTM、RSP、VML-ESN、LS-ESNs、混合储层和CESN相比,MA-ESN的MC分别提高了49.8%、74.6%、7.7%、48.1%、12.5%、7.2%和23.0%。
  • 通过创建无结构序列来测试MA-ESN的记忆能力,评估其在1维随机序列上的表现。
  • 评估各个模型从k=1到k=200的k-delay记忆能力。
  • 通过比较各模型的记忆能力,得出MA-ESN将储存器分成非线性映射模块和线性存储模块的方式可以显著提高网络的记忆容量。

6 思考

文中用到了很多数据集,可是只对比了多个数据集的记忆容量MC。预测误差上都没有对比,有可能通过引入非线性模块,提高了非线性能力和记忆容量,但是牺牲了预测精度。在后面的实验结果中,都只是绘制了单个模型的预测误差,没有对比多个模型的。
说明计算记忆容量的方式参考论文【short term memory in echo state networks】。

目录
相关文章
【博士每天一篇文献-算法】连续学习算法之HAT: Overcoming catastrophic forgetting with hard attention to the task
本文介绍了一种名为Hard Attention to the Task (HAT)的连续学习算法,通过学习几乎二值的注意力向量来克服灾难性遗忘问题,同时不影响当前任务的学习,并通过实验验证了其在减少遗忘方面的有效性。
144 12
【博士每天一篇文献-算法】持续学习经典算法之LwF: Learning without forgetting
LwF(Learning without Forgetting)是一种机器学习方法,通过知识蒸馏损失来在训练新任务时保留旧任务的知识,无需旧任务数据,有效解决了神经网络学习新任务时可能发生的灾难性遗忘问题。
530 9
【博士每天一篇文献-算法】连续学习算法之HNet:Continual learning with hypernetworks
本文提出了一种基于任务条件超网络(Hypernetworks)的持续学习模型,通过超网络生成目标网络权重并结合正则化技术减少灾难性遗忘,实现有效的任务顺序学习与长期记忆保持。
107 4
【博士每天一篇文献-算法】连续学习算法之RWalk:Riemannian Walk for Incremental Learning Understanding
RWalk算法是一种增量学习框架,通过结合EWC++和修改版的Path Integral算法,并采用不同的采样策略存储先前任务的代表性子集,以量化和平衡遗忘和固执,实现在学习新任务的同时保留旧任务的知识。
200 3
基于和声搜索优化算法的机器工作调度matlab仿真,输出甘特图
本程序基于和声搜索优化算法(Harmony Search, HS),实现机器工作调度的MATLAB仿真,输出甘特图展示调度结果。算法通过模拟音乐家即兴演奏寻找最佳和声的过程,优化任务在不同机器上的执行顺序,以最小化完成时间和最大化资源利用率为目标。程序适用于MATLAB 2022A版本,运行后无水印。核心参数包括和声记忆大小(HMS)等,适应度函数用于建模优化目标。附带完整代码与运行结果展示。
基于AES的遥感图像加密算法matlab仿真
本程序基于MATLAB 2022a实现,采用AES算法对遥感图像进行加密与解密。主要步骤包括:将彩色图像灰度化并重置大小为256×256像素,通过AES的字节替换、行移位、列混合及轮密钥加等操作完成加密,随后进行解密并验证图像质量(如PSNR值)。实验结果展示了原图、加密图和解密图,分析了图像直方图、相关性及熵的变化,确保加密安全性与解密后图像质量。该方法适用于保护遥感图像中的敏感信息,在军事、环境监测等领域具有重要应用价值。
基于免疫算法的最优物流仓储点选址方案MATLAB仿真
本程序基于免疫算法实现物流仓储点选址优化,并通过MATLAB 2022A仿真展示结果。核心代码包括收敛曲线绘制、最优派送路线规划及可视化。算法模拟生物免疫系统,通过多样性生成、亲和力评价、选择、克隆、变异和抑制机制,高效搜索最优解。解决了物流仓储点选址这一复杂多目标优化问题,显著提升物流效率与服务质量。附完整无水印运行结果图示。
基于免疫算法的最优物流仓储点选址方案MATLAB仿真
基于GA遗传优化TCN-GRU时间卷积神经网络时间序列预测算法matlab仿真
本项目基于MATLAB2022a开发,提供无水印算法运行效果预览及核心程序(含详细中文注释与操作视频)。通过结合时间卷积神经网络(TCN)和遗传算法(GA),实现复杂非线性时间序列的高精度预测。TCN利用因果卷积层与残差连接提取时间特征,GA优化超参数(如卷积核大小、层数等),显著提升模型性能。项目涵盖理论概述、程序代码及完整实现流程,适用于金融、气象、工业等领域的时间序列预测任务。
基于遗传优化算法的多AGV栅格地图路径规划matlab仿真
本程序基于遗传优化算法实现多AGV栅格地图路径规划的MATLAB仿真(测试版本:MATLAB2022A)。支持单个及多个AGV路径规划,输出路径结果与收敛曲线。核心程序代码完整,无水印。算法适用于现代工业与物流场景,通过模拟自然进化机制(选择、交叉、变异)解决复杂环境下的路径优化问题,有效提升效率并避免碰撞。适合学习研究多AGV系统路径规划技术。
基于GA遗传算法的斜拉桥静载试验车辆最优布载matlab仿真
本程序基于遗传算法(GA)实现斜拉桥静载试验车辆最优布载的MATLAB仿真,旨在自动化确定车辆位置以满足加载效率ηq(0.95≤ηq≤1.05)的要求,目标是使ηq尽量接近1,同时减少加载车辆数量和布载耗时。程序通过迭代优化计算车辆位置、方向、类型及占用车道等参数,并展示适应度值收敛过程。测试版本为MATLAB2022A,包含核心代码与运行结果展示。优化模型综合考虑车辆总重量、间距及桥梁允许载荷密度等约束条件,确保布载方案科学合理。