阅读时间:2023-10-25
1 介绍
年份:2022
作者:孙晨曦;宋莫贤;蔡德润;张宝峰;洪申达;李红艳,机器感知重点实验室,北京大学
期刊:IEEE Transactions on Artificial Intelligence
引用量:5
回声状态网络(Echo State Networks,ESNs)ESNs是一种递归神经网络(Recurrent Neural Network,RNN),ESNs被视为梯度下降训练的RNN的替代方法。全面介绍了ESN的设计和应用,并将其分为经典ESN、DeepESN和组合模型。
在深度学习的背景下,BP(误差反向传播)是RNN训练中最重要的成就之一,但只取得了部分成功。其局限性之一是分叉导致了训练不收敛、计算成本高和局部最小值较差等问题。梯度爆炸问题经常在训练过程中出现,导致难以保证结果的稳定性。BP的一些改进已经解决了长期记忆的问题。但是,除非网络经过特殊设计,否则很难进行RNN训练。长短期记忆(LSTM)和门控循环单元(GRU)是缓解RNN缺点的先进设计。但是,当输入序列的长度超过一定限制时,梯度仍然会消失。同时,每个LSTM单元有四个全连接层,如果时间跨度很大且网络很深,计算会非常耗时。而且参数过多会导致过拟合问题。
储层计算(Reservoir computing,RC)作为训练RNN的梯度下降方法的一种替代方法,在过去的十年中出现了。循环储层网络(Echo State Network,ESN)是重要的RC模型之一,实用性强、概念简单且易于实现。它可以通过使用最小二乘问题作为替代训练方法来避免不收敛和计算成本高的问题。
经典的ESN在储层中采用多个高维投影,具有强大的非线性映射能力来捕捉输入动力学。经典模型最早明确地在大脑皮质纹状体处理回路的神经科学模型中阐述。ESN在温和条件下享有所谓的回声状态特性(echo state property),确保初始条件的影响在有限的瞬态之后消失。具有更相似短期历史的输入将引发更接近的回声状态,从而确保储层的动力稳定性。
最近,深层循环储层网络(Deep Echo State Network,DeepESN)的引入使得可以独立研究分层RNN体系结构的状态动力学属性,与学习方面分离开来。对DeepESN模型的研究具有双重目的。一方面,它可以揭示深度学习的分层RNN体系结构的固有属性。另一方面,它可以设计出极其高效训练的深度神经网络来处理时间数据。同时,随着深度学习的发展,许多研究将ESN与深度学习模型结合起来,在特定应用中取得了最先进的性能。
2 算法模型
2.1 经典ESN
一个典型的ESN由一个输入层、一个循环层(储层,由大量的稀疏连接的神经元组成)和一个输出层组成。ESN适用于处理非线性动态系统中的混沌序列
2.2 DeepESN
DeepESN是利用深度学习(DL)框架堆叠多个ESN(Echo State Networks)而成的网络。它由输入层、动力学堆叠的储层组件和输出层组成。
2.3 ESN组合模型
这种组合有两个优点:(1)它可以集成深度学习和储层计算等模型的优点,如DeepESNs;(2)它可以利用不同的模型结构处理不同的数据形式,并实现更多的任务。
3 应用领域
(1)工业应用:在能源领域,ESN应用于燃料电池预测、电池健康监测、油田生产平台控制、气体预测、风力发电和光伏发电预测。在制造业中,ESN应用于电机控制、异常和故障的检测和诊断、移动、卫星、无线和5G系统。
(2)医疗应用:ESN应用于从生命体征中学习特征,包括基于脑电图(EEG)、心电图(ECG)和磁共振成像(MRI)的检测、诊断和预后;ESN应用于疾病诊断,包括帕金森病、败血症、心房颤动、口腔癌等。
(3)时空应用:在交通应用中,ESN应用于交通预测、目的地预测、共享单车应用和行人计数;在天文学和气象学中,ESN应用于太阳辐射预测、气象预测、温度预测、水/流量预测和风速预测。
(4)金融应用:ESN应用于股票数据挖掘、股票价格预测、股票交易系统控制和金融数据预测。
(5)环境辅助生活应用(AAL):该任务旨在识别人们在日常环境中的行为。例如,通过监测人们活动的规律性,AAL可以增强智能家居服务的个性化程度。在这种情况下,采用ESN方法论从传感器信息流中发现相关模式的兴趣不断增长。
(6)计算机视觉(CV):对于图像处理,ESN应用于图像分割、图像恢复和面部表情识别;对于射频和音频处理,ESN应用于视频标注、音频分类和语音识别;对于3D数据处理,ESN应用于3D动作模式索引和活动/手势识别。
(7)自然语言处理:ESN应用于句子处理、语法结构学习、词嵌入和词义消歧。
(8)机器人技术:ESN应用于机器人导航、机器人轨迹控制和进化机器人学。
4 实验分析
(1) 超参数调整是一种优化ESN网络超参数的方法。通过使用遗传算法来优化ESN的超参数,可以得到更好的性能和预测结果。根据实验结果,得到了以下发现:
- 对于不同数据集,尤其是对于规律的物理系统(如MG和SILSO)的预测值来说,使用相同的ESN结构(固定神经元)时,最优的超参数设置差别较小。
- 对于一个ESN模型,如果设置 N ∈ [50, 400](其中N表示储备池中的单元数),并将输入权重 w in 设置为1,正则项系数λ设置为0.001,模型的性能始终表现良好。
- 对于DeepESN模型,使用统一的超参数设置或者为每个储备池设置不同的超参数对预测结果影响不大。因此,为了提高效率,可以将所有储备池设置为相同的超参数。
(2)针对MLP、CNN、RNNs(RNN、LSTM、GRU)和ESNs(ESN、leaky-ESN、DeepESN、LS-ESN、TE-ESN)进行了比较,结果如表VI、VII和VIII所示:
- 对于序列数据,递归结构模型的性能更好,无论是用于回归还是分类任务。ESNs在预测可以通过数学方式定义的时间序列时表现更好。
- 对于预测/回归任务,ESNs表现出色,特别是在预测可以数学定义的混沌系统时。但是,在更复杂的系统(如人类生物系统)下,它们的性能可能稍微下降。
- 对于分类任务,ESNs并不是最准确的模型。DeepESN的准确性与其他深度学习模型类似。
- 组合模型的性能优于单一模型,特别是对于具有不同结构的模型,MLP+ESN、CNN+ESN比RNN + ESN更能提高准确性。
5 思考
有改进的ESN,将改进的ESN重新做一遍ESN的工作,是不是一个创新?找到改进的ESN结构的模型。