阅读时间:2023-12-14
1 介绍
Hattori M. A biologically inspired dual-network memory model for reduction of catastrophic forgetting[J]. Neurocomputing, 2014, 134: 262-268.
年份:2014
作者:服部元信 (服部元信),山梨大学
期刊: Neurocomputing
引用量:24
作者提出了一种新颖的双网络记忆模型,解决灾难性遗忘问题,该模型由两个不同的神经网络组成:海马网络和新皮层网络。信息首先存储在海马网络中,然后转移到新皮层网络。海马网络引入了海马CA3区的神经元混沌行为和齿状回区的神经元更替。CA3区的混沌回忆能够检索海马网络中存储的信息。之后,从海马网络检索出的信息与之前存储的信息交错,并使用伪模式在新皮层网络中进行巩固。计算机模拟结果表明了所提出的双网络记忆模型的有效性。
2 创新点
- 双网络记忆模型:提出了一个新颖的双网络记忆模型,该模型由海马网络和新皮层网络组成,模仿了人类大脑中海马体和新皮层的功能和交互。
- 混沌神经网络:在海马网络的CA3区域引入了混沌行为,这有助于通过混沌回忆动态检索存储的模式,从而减少灾难性遗忘。
- 神经元更替:在齿状回区引入了神经元更替的概念,模拟了生物神经系统中新神经元的生成和旧神经元的消亡,这有助于减少输入模式之间的相似性,增加存储容量。
- 伪模式学习:在新皮层网络中使用伪模式进行学习,这些伪模式是通过随机输入和新皮层网络的输出创建的,有助于将从海马网络提取的信息与之前学习的信息整合,减少遗忘。
- 生物学上的可信度:所提出的海马网络结构和学习规则更加符合生物学原理,例如使用Hebbian学习规则和遗忘因子,以及模拟电生理实验的证据。
- 减少模式间的干扰:通过稀疏编码和神经元更替,减少了模式间的干扰,提高了模型对存储模式的提取能力,尤其是在处理高相关性模式时。
3 相关研究
【Why there are complementary learning systems in the hippocampus and neocortex: insights from the successes and failures of connectionist models of learning and memory】提出新皮层可能被优化用于逐步发现事件和经验的共享结构,海马系统则提供一种机制,用于快速获取新信息而不干扰之前发现的规律性。
论文中模型采用混沌神经网络作为海马网络,海马网络存储的信息通过海马网络的混沌回忆传递到新皮层网络。
4 算法
4.1 网络结构
图中是传统双网络记忆模型的结构,具体来说,它包括海马网络(Hippocampal Network)和新皮层网络(Neocortical Network)。海马网络由混沌神经元组成,负责初步的信息存储。新皮层网络负责长期记忆的存储和整合。海马网络首先接收输入信息,并将这些信息存储起来。随后,这些信息通过某种形式的编码(可能是伪模式)传递给新皮层网络,在那里进行进一步的整合和巩固,形成长期记忆。
展示了用于传统海马网络的训练模式示例。每个训练模式以双极数据的形式表示,黑色像素显示“+1”,白色像素显示“-1”。在学习过程中,为了避免在混沌回忆过程中提取到训练模式的倒置版本,必须在原始模式中添加额外的“-1”值元素。这些额外的元素需要在回忆时被压缩,以确保不会提取到不希望的模式。这种添加额外元素的做法在生物学上是不合理的,因为它需要通过试错来确定添加多少元素,并且这限制了模型的存储容量,特别是对于高度相似的模式。
提出的双网络记忆模型中海马网络的结构。这个海马网络的结构是基于文献【Extraction of patterns from a hippocampal network using chaotic recall】的研究成果,它经过修改以适应任意大小的输入和输出模式。根据描述,海马网络包含五个层次:输入层(Input)、内嗅皮层(EC)、齿状回(DG)、CA3区和输出层(Output)。
4.2 算法步骤
- 海马网络的权重更新:
- 使用Ojas规则更新EC到DG、EC到CA3和DG到CA3的权重:
$$w{ij}(t+1) = w{ij}(t) + \eta (y_j - \bar{y}_j) x_i $$ - 使用带有遗忘因子γ的Hebbian学习更新CA3内部和CA3到输出层的权重:
$$w{ij}(t+1) = \gamma w{ij}(t) + x_i x_j $$
$$w{ij}(t+1) = \gamma w{ij}(t) + x_i y_j$$
其中,$ w_{ij} $是连接权重, $ x_i $和 $ y_j $分别是神经元的输出, η是学习率, γ是遗忘因子。
- 混沌回忆:
- 利用CA3层的混沌行为进行模式检索,状态更新由以下方程控制:
$$ x_{i}(t+1) = f(\eta(t+1) + \zeta(t+1))$$
$$\eta{i}(t+1) = k_m \eta_i(t) + \sum{j=1}^{N} w_{ij} x_j(t) $$
$$ \zeta_{i}(t+1) = k_r \zeta_i(t) - \alpha x_i(t) + a_i $$
其中, $ x_i(t+1) $是第i个神经元在时间t+1的输出,f 是输出函数, η和 ζ 分别是神经元的内部状态, $ k_m $和 $ k_r $是阻尼因子, α 是缩放因子, $ a_i $是外部输入参数。
- 新皮质网络的学习:
- 使用新皮质伪模式I和II来更新新皮质网络的权重,其中伪模式II的创建过程涉及模式元素的反转和网络输出的获取。
- 新皮质伪模式I:这是通过提供一个随机输入到新皮质网络,并记录下网络对该输入的输出来创建的。使用这些伪模式I,网络可以学习如何将随机输入映射到其输出,这有助于网络在不干扰已有记忆的情况下学习新的模式。
- 新皮质伪模式II:这种伪模式的创建过程稍微复杂一些。首先,从海马网络提取的模式通过一定的概率被反转(即模式中的元素被取反)。然后,将这些反转后的模式输入到新皮质网络,并获取网络的输出。重复这个过程,直到获得一组预定义数量的输入和输出对,这些对就构成了伪模式II。
- 神经元更替:
- 在DG区域模拟神经元的更替,通过初始化随机选择的神经元的连接权重来减少输入模式的相似性。
- 性能评估:
- 使用提取率、goodness和完美回忆率来评估网络性能。
- 模拟实验:
- 对不同类型的模式(自联想、异联想和随机模式)进行模拟实验,测试模型在提取和减少灾难性遗忘方面的表现。
5 实验分析
5.1 相关概念
- 自联想学习(Autoassociative Learning):
- 自联想学习是一种神经网络训练方式,其中网络被训练以复制其输入到输出。换句话说,网络学习的是恒等映射(identity mapping),即输出应该与输入完全相同。这种学习类型常用于数据压缩和特征学习,网络试图在较低维度的表示中捕捉输入数据的本质特征。
- 异联想学习(Heteroassociative Learning):
- 异联想学习涉及训练网络将一种模式(输入)关联到另一种不同的模式(输出)。这种学习类型类似于条件反射或经典条件作用,其中网络学习将特定的输入与特定的输出联系起来。例如,如果输入是一系列字母的组合,输出可能是这些字母的某种变换或相关联的另一组数据。
- 随机模式(Random Patterns):
- 随机模式指的是随机生成的数据模式,这些模式没有特定的结构或相关性,或者是在一定范围内随机选择的。在神经网络的训练和测试中,随机模式可以用来评估网络的泛化能力,即网络处理未见过的输入数据的能力。
5.2 自联系学习模式性能分析
(1)实验设置
展示了用于自联想学习的训练模式。自联想学习是指网络学习将输入模式映射到自身作为输出的过程。在这项研究中,使用的训练模式是字母表的字母,每个字母以大写形式呈现,并且每个字母都与一个二维的像素模式相对应。这些模式被用作海马网络和新皮质网络的输入,以训练双网络记忆模型。
(2)海马网络提取自联想模式的提取率
描述的是海马网络提取自联想模式的提取率。提取率是指从随机输入中通过混沌回忆成功提取训练模式的比例。这个指标用来衡量模型从存储在海马网络中的信息中恢复特定模式的能力。
提出的海马网络模型与传统模型相比,在提取率上有显著提高。这表明新模型在从随机输入中恢复训练模式方面更为有效。当训练模式的数量增加时,新模型仍然保持较高的提取率,这表明它在处理大量信息时更为稳健。
(3)双网络模型在自联想模式学习任务中的平均goodness值和完美回忆率
描述的是双网络模型在自联想模式学习任务中的平均goodness值和完美回忆率(perfect recall rate)。
提出的双网络模型在goodness值和完美回忆率方面都优于传统模型。这表明新模型在减少灾难性遗忘和提高长期记忆保持方面更有效。新模型通过在海马网络中引入混沌回忆和神经元更替机制,提高了模式存储的稳定性,从而在新皮质网络中实现了更好的长期记忆。
5.3 异联想模式性能分析
图7展示了用于异联想模式训练的样本模式。这些模式由大写字母及其对应的小写字母组成,通过串联这些字母对来创建训练模式。
在异联想模式下海马网络提取模式的成功率。所提出的海马网络在提取异联想模式方面表现显著优于传统模型。这表明新型网络在处理相关性较低的模式时更为有效,并且能够更好地抵抗训练模式间的相似性对记忆提取的干扰。
展示了在存储了3x5大小的异联想模式后,传统和提出的海马网络通过混沌回忆提取出的模式实例。图(a)代表传统海马网络提取的结果,而图(b)代表所提出的海马网络提取的结果。这些模式按照提取的顺序从左上到右下排列。
结论是提出的海马网络能够完美地提取所有15个模式,而传统海马网络只能准确提取其中的10个。这表明提出的海马网络在提取质量上明显优于传统网络,能够更有效地避免提取过程中的模式反转和错误记忆,从而在长期存储学习模式方面具有显著优势。
对于异联想模式,传统和提出的双网络模型的平均"goodness"值和完美回忆率。
结论是所提出的双网络模型在减少灾难性遗忘方面表现优于传统模型。尽管提出的模型在提取异联想模式的成功率上高于自动联想模式,但平均"goodness"值和完美回忆率却低于自动联想模式,这表明在多层神经网络中保持异联想比获取身份映射更为困难。
5.4 随机模式性能分析
展示了在训练模式的相关性为0.50时,海马网络的提取率以及双网络模型的平均"goodness"值。
展示了当3x5模式的相关性从0.50变化到0.80时,海马网络的提取率和双网络模型的平均"goodness"值。这个变化展示了网络对模式相关性变化的敏感度。
结论是所提出的海马网络在提取随机模式方面具有比传统海马网络更高的提取率,并且对训练模式间的相关性变化更加不敏感。这意味着提出的模型在处理相似模式时更为有效,能够更好地抵抗模式间的干扰。即使在模式相关性较高的情况下,提出的双网络模型在平均"goodness"上也表现出色,表明它在减少灾难性遗忘方面更为有效,能够更准确地回忆出训练模式。
6 思考
(1)本文的新概念、新知识非常多
- Chaotic Neural Network(混沌神经网络):
- 英文:Chaotic Neural Network
- 中文:混沌神经网络
- 解释:一种动态系统,其行为表现出高度的不可预测性和敏感性,能够通过混沌回忆动态地检索存储的模式。
- Complementary Learning Systems (CLS)(互补学习系统):
- 英文:Complementary Learning Systems
- 中文:互补学习系统
- 解释:一种理论框架,提出大脑中存在两个不同的区域——海马体和新皮质,它们以互补的方式参与学习和记忆过程。
- Dual-Network Memory Model(双网络记忆模型):
- 英文:Dual-Network Memory Model
- 中文:双网络记忆模型
- 解释:由两个不同的神经网络组成的模型,一个用于早期处理(海马网络),另一个用于长期存储(新皮质网络)。
- Hippocampal Network(海马网络):
- 英文:Hippocampal Network
- 中文:海马网络
- 解释:在双网络记忆模型中,负责初步信息处理和快速获取新信息的网络,模仿人脑中海马体的功能。
- Neocortical Network(新皮质网络):
- 英文:Neocortical Network
- 中文:新皮质网络
- 解释:在双网络记忆模型中,负责长期信息存储和记忆巩固的网络,模仿人脑中新皮质的功能。
- Neuronal Turnover(神经元更替):
- 英文:Neuronal Turnover
- 中文:神经元更替
- 解释:指在齿状回区域新神经元的生成和旧神经元的消亡,这个过程在文中被用来增加网络的存储容量。
- Pseudopatterns(伪模式):
- 英文:Pseudopatterns
- 中文:伪模式
- 解释:在神经网络中,特别是在双网络模型中,用于信息转移和巩固的学习模式,它们不是直接从训练数据中获得,而是由网络自身生成。
- Goodness(优良度):
- 英文:Goodness
- 中文:优良度
- 解释:一个性能度量指标,用于评估神经网络输出与期望输出匹配的程度,值越高表示匹配越好。
- Perfect Recall Rate(完美回忆率):
- 英文:Perfect Recall Rate
- 中文:完美回忆率
- 解释:表示网络完美存储训练模式数量的指标,即网络能够完全无误回忆出模式的比例。
- Hebbian Learning(赫布学习):
- 英文:Hebbian Learning
- 中文:赫布学习
- 解释:一种学习规则,基于“一起激发的神经元连在一起”(fire together, wire together)的原则,强调同时活跃的神经元之间的连接权重增强。
- Forgetting Factor(遗忘因子):
- 英文:Forgetting Factor
- 中文:遗忘因子
- 解释:在赫布学习中使用的一个参数,用于控制新旧信息的平衡,使得网络可以保留最近学习的信息而遗忘旧信息。
- Chaotic Recall(混沌回忆):
- 英文:Chaotic Recall
- 中文:混沌回忆
- 解释:一种利用混沌神经网络动态检索存储模式的方法,可以在随机输入下提取长时间保持的网络状态。
- Neucom(神经计算):
- 英文:Neucom(可能是Neural Computing的缩写或特定期刊名称)
- 中文:神经计算
- 解释:指使用人工神经网络进行计算和处理信息的领域,涵盖了从基础理论研究到实际应用的广泛议题。
- Autoassociative Patterns(自联想模式):
- 英文:Autoassociative Patterns
- 中文:自联想模式
- 解释:在自联想学习中使用的输入和输出模式相同,网络需要学习如何复制其接收到的模式。
- Heteroassociative Patterns(异联想模式):
- 英文:Heteroassociative Patterns
- 中文:异联想模式
- 解释:在异联想学习中使用的输入和输出模式不同,网络需要学习如何将一种模式映射到另一种不同的模式。
- Correlation of Patterns(模式的相关性):
- 英文:Correlation of Patterns
- 中文:模式的相关性
- 解释:指不同模式之间特征或属性的相似程度,相关性高意味着模式之间有较多的共同点。
- Neurogenesis(神经生成):
- 英文:Neurogenesis
- 中文:神经生成
- 解释:指新神经元的生成过程,文中提到在齿状回区域模拟了这一过程,以增加网络的存储能力。
- K-Winner-Take-All(K胜者全拿):
- 英文:K-Winner-Take-All
- 中文:K胜者全拿
- 解释:一种竞争性网络学习规则,其中只有K个最高激活值的神经元被保留或更新,用于模拟生物神经系统中的选择性激活。
- McCulloch and Pitts Neurons(麦卡洛克-皮茨神经元):
- 英文:McCulloch and Pitts Neurons
- 中文:麦卡洛克-皮茨神经元
- 解释:一种理想化的神经元模型,由Warren Sturgis McCulloch和Walter Pitts在1943年提出,是早期人工神经网络的基础。
- Ojas Rule(奥贾斯规则):
- 英文:Ojas Rule
- 中文:奥贾斯规则
- 解释:一种基于竞争学习的权重调整规则,用于防止权重发散,确保学习过程中权重的稳定性。
- Refractoriness(不应期):
- 英文:Refractoriness
- 中文:不应期
- 解释:神经元在一次激发后短时间内无法再次激发的特性,是神经元生物物理特性之一,在模型中用于模拟这种特性。
- Damping Factors(阻尼因子):
- 英文:Damping Factors
- 中文:阻尼因子
- 解释:在模型中用于控制神经元激发状态的参数,类似于实际神经元的不应期效应。
- External Input Parameter(外部输入参数):
- 英文:External Input Parameter
- 中文:外部输入参数
- 解释:模型中代表从外部环境接收到的信号或刺激的变量。
- Output Function(输出函数):
- 英文:Output Function
- 中文:输出函数
- 解释:将神经元的激活状态转换为输出信号的数学函数,常见的有tanh(双曲正切)等非线性函数。
- Maximal Margin Learning(最大边界学习):
- 英文:Maximal Margin Learning
- 中文:最大边界学习
- 解释:一种学习算法,旨在找到数据点间的最大间隔,常用于支持向量机等机器学习模型中。
- Spurious Memories(错误记忆):
- 英文:Spurious Memories
- 中文:错误记忆
- 解释:在记忆提取过程中,除了正确记忆之外错误或不相关的信息。
- Sensitivity-Stability Dilemma(敏感性-稳定性困境):
- 英文:Sensitivity-Stability Dilemma
- 中文:敏感性-稳定性困境
- 解释:在学习过程中,模型需要在对新信息的敏感性和对已学习信息的稳定性之间找到平衡。
- Feedforward Excitatory Pathway(前馈兴奋路径):
- 英文:Feedforward Excitatory Pathway
- 中文:前馈兴奋路径
- 解释:指信号在神经网络中从前到后的单向传递路径,不涉及反馈连接。
- Correlation(相关性):
- 英文:Correlation
- 中文:相关性
- 解释:度量两个或多个变量之间线性关系强度和方向的统计量。
- Extraction Rate(提取率):
- 英文:Extraction Rate
- 中文:提取率
- 解释:在记忆网络中,成功从随机输入中提取出训练模式的比例。
- Sparse Coding(稀疏编码):
- 英文:Sparse Coding
- 中文:稀疏编码
- 解释:一种编码方式,其中大部分编码单元(如神经元)处于非激活状态,只有少数单元对特定的输入模式响应。