【博士每天一篇文献-算法】NICE Neurogenesis Inspired Contextual Encoding for Replay-free Class Incremental Learn

简介: NICE(Neurogenesis Inspired Contextual Encoding)是一种新型深度神经网络架构,旨在通过模拟生物神经系统的成熟过程来解决类别增量学习中的灾难性遗忘问题,无需重放旧样本即可实现有效的增量学习。

1 介绍

NICE Neurogenesis Inspired Contextual Encoding for Replay-free Class Incremental Learning.pdf
年份:2024
作者:Mustafa Burak Gurb,Constantine Dovrolis,Moorman, Jean,佐治亚理工学院
会议: 2024CPVR
引用量:0
代码:https://github.com/BurakGurbuz97/NICE
Gurbuz M B, Moorman J M, Dovrolis C. NICE: Neurogenesis Inspired Contextual Encoding for Replay-free Class Incremental Learning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 23659-23669.
image.png
image.png

image.png
提出了一种名为 NICE(Neurogenesis Inspired Contextual Encoding)的新型深度神经网络架构,旨在解决动态环境中的增量学习问题,特别是类别增量学习(Class-Incremental Learning, CIL)场景。NICE 方法的关键特点包括三个,分别是神经元成熟阶段、避免神经元间的干扰和上下文检测器。其中神经元成熟阶段,NICE 将网络中的神经元分配为不同的“年龄”,反映它们的成熟水平。避免神经元间的干扰,通过冻结和剪枝操作,确保成熟神经元不会因新数据而改变。上下文检测器,使用逻辑回归模型,根据神经元的激活模式推断测试样本的上下文(即它们属于哪个学习阶段)。
设计了一个上下文检测器,用于识别哪些神经元对样本最具预测性。在测试期间,此检测器预测上下文,并向会引起干扰的某些神经元发送抑制信号。

2 创新点

  1. 基于成熟阶段的神经元分组:NICE通过给神经网络中的神经元分配“年龄”,模拟了生物神经系统中新神经元的成熟过程。神经元根据它们的成熟阶段被组织成不同的组,这有助于在测试时决定使用哪些神经元。
  2. 无需重放的架构方法:与传统的重放方法不同,NICE不依赖于在训练过程中重新访问旧类别的样本。相反,它通过架构设计本身来解决灾难性遗忘(Catastrophic Forgetting, CF)的问题,这在类别增量学习中是一个主要的挑战。
  3. 上下文检测器:NICE引入了一个上下文检测器,它使用逻辑回归模型来推断测试样本属于的学习阶段,基于神经元的激活模式。这种方法允许网络在没有额外信号的情况下,自主决定在特定时间点使用哪些神经元。
  4. 避免神经元间的干扰:通过冻结旧神经元的输入连接和剪枝操作,NICE防止了新数据对旧知识的影响,从而减少了干扰并保护了先前学习的信息。
  5. 零遗忘保证:NICE的设计确保了在正确识别测试样本所属学习阶段的情况下,可以实现零遗忘。这是通过将特定年龄的子网络隔离开来,防止它们在未来更新中发生变化实现的。

3 相关研究

启发:海马体中的神经生成,将成年出生的颗粒细胞不断引入到齿状回中,提供了一种在大多数其他大脑区域中找不到的独特形式的可塑性[2, 3, 46]。随着这些新引入的细胞的成熟,它们有助于形成脱耦的表征,对于上下文辨别起着至关重要的作用[20, 47, 65, 74]。本文在DNN中通过引入不同成熟阶段的神经元来模拟神经发生的特性。

4 算法

4.1 神经元年龄

神经发生:NICE模拟生物神经发生,将神经元初始化为0岁,代表它们是待添加到网络中的过剩容量。随着学习,神经元会定期从0岁过渡到1岁,以确定哪些神经元应永久集成到网络中。
成熟过程:每经过一个学习周期,一些1岁的神经元会保持其年龄,其余的则恢复为0岁。然后所有超过0岁的神经元会增加一岁,表示它们正在成熟。
选择和淘汰:通过优化问题选择保留对总激活贡献最大的最小神经元子集,以决定哪些1岁神经元保留。这个选择过程基于神经元的激活强度,假设激活强度是其重要性的可靠指标。

4.2. 避免神经元间的干扰

按年龄分组:神经元根据其年龄被分组,年龄表示它们被引入的周期。
冻结机制:为了防止新数据破坏旧知识,1岁以上的神经元的传入连接会被冻结,阻止它们进一步学习。
剪枝操作:通过剪枝操作,防止年轻神经元从年老神经元那里接收更新,但保留从旧到新的连接以允许知识传递。
零遗忘保证:通过隔离特定年龄的子网络,保证这些神经元不会改变,实现零遗忘。

4.3 上下文检测器

上下文推断:NICE使用上下文检测器来推断在推理阶段应使用哪些年龄的神经元,类似于海马体中的成熟神经元帮助进行上下文辨别。
激活模式存储:定期存储对最近示例有高激活的神经元的信息,并通过阈值处理生成二进制向量。
条件概率模型:使用逻辑回归模型来学习基于二进制记忆的条件概率,以确定测试样本最属于的学习周期。
上下文检测:给定测试样本,上下文检测器会评估样本的激活模式,并使用条件概率来推断样本的上下文,从而抑制不相关的输出并提高预测准确性。

5 实验分析

(1)阐述当前重放方法存在的缺点
image.png图1展示了两种不同的持续学习方法——Dark Experience Replay (DER) 和 Function Distance Regularization (FDR)——在MNIST数据集上的表现,并说明了当引入两个新类别时的性能变化。图中的虚线垂直线表示新类别的引入点。图的上半部分显示了DER和FDR在MNIST上训练时,随着新类别的引入,它们在前几个类别上的准确性如何变化。图的下半部分则展示了在连续学习FashionMNIST和CIFAR10之后,所有类别的准确率,结果是三个不同随机种子的平均值。
实验结论:
在连续学习任务中,现有的重放技术仍存在遭受了灾难性遗忘,在不同的数据集上,持续学习设置中也存在类似的性能波动问题。重放方法的性能在新数据引入时出现波动,这与它们在架构上没有特别适应连续学习的顺序特性有关。
(2)NICE算法结构图
image.png
图a)神经元年龄转换图:展示了神经元在NICE架构中如何随时间或学习周期成熟和老化。神经元从较年轻的年龄(例如,0岁或1岁)开始,随着学习周期的进行,逐渐增加年龄。以及神经元如何以及在什么条件下从一个年龄转换到另一个年龄。灰色表示为未来保留的神经元,绿色神经元表示正在接收梯度更新的神经元,蓝色神经元表示已经被冻结的神经元。
图b) 网络中的路径及其角色:网络中不同路径的功能,以及它们如何在NICE架构中支持知识传递和避免干扰。路径根据连接的神经元的年龄被分类。年轻神经元的路径更活跃地参与学习,而年老神经元的路径更稳定,用于存储长期记忆。
图c) NICE算法流程图:展示了NICE在训练和测试期间的操作流程,包括如何更新神经元、如何使用上下文检测器以及如何根据神经元的年龄选择性地激活网络部分。包含了NICE的关键步骤,如神经元选择、连接更新、记忆和上下文检测器的维护。
实验结论:
NICE通过动态地管理神经元的年龄和状态,有效地平衡了学习新知识与保留旧知识之间的关系。通过冻结老神经元和激活新神经元,NICE在实验中展示了如何减少灾难性遗忘,同时仍然允许学习新类别。上下文检测器的使用在实验中证明了其在确定何时使用网络的哪一部分进行预测时的重要性,从而提高了模型的整体性能。通过保留灰色神经元,NICE展示了其架构对未来任务的适应性和可扩展性。
(3)上下文检测器的原理图
image.png
展示了NICE模型能够通过分析神经元的激活模式来推断样本的上下文信息,即通过逻辑回归模型计算的条件概率,评估样本属于哪个学习周期。左图展示了一个具有8个神经元的网络的记忆状态示例,其中每个神经元对应一个二进制值,表示在当前学习周期中是否对样本有显著的激活。右图展示了条件概率链式计算的示意图,说明了如何基于存储的激活模式来计算样本属于不同学习周期的概率。
实验结论:NICE模型在测试时通过上下文检测器准确地识别了测试样本的来源周期,从而提高了预测的准确性。
(4)不同方法性能对比
image.png
表明本文算法在减少遗忘和快速适应新数据方面是有效的。
(5)神经元激活状态在不同时期的变化
image.png
展示了在NICE模型中,对于第一周期的类别和其他剩余类别,前250个最具特征重要性的神经元的平均激活情况
顶部和底部的激活水平存在显著差异,这表明这些神经元对它们在训练初期学习过的类别有更强的响应,而对于后期学习的类别响应较弱。第一周期的神经元即使在面对后期类别时仍然保持较高的激活水平,这表明NICE模型在一定程度上成功地保留了先前学习的知识。
(6)使用不同数量的网络层上下文检测,评价模型在上下文检测的准确
image.png
表明单一层不足以捕捉足够的特征信息来准确推断样本的上下文,结合多个层的信息可以提高上下文检测的准确性。
多层网络的上下文检测准确性表明模型具有较好的泛化能力,能够在不同层捕捉和整合信息。
(7)成熟(冻结)神经元的比例变化分析
image.png
展示了在CIFAR10和CIFAR100数据集上进行实验时,网络中成熟(冻结)神经元的比例。
实验结论:表明随着学习更多类别,网络中成熟神经元的比例在增加,即有更多的神经元被冻结。早期层的神经元更快地成熟(即线条上升较快),这表明网络倾向于首先使用简单的特征进行学习,这些特征在早期阶段被快速锁定。后期层的神经元成熟得更慢,这意味着网络在更高层保留了更多的灵活性,以学习更复杂的特征或新类别。随着学习过程的进行,可用神经元的减少成为持续学习的一个限制因素,需要策略来管理神经元资源。

6 思考

(1)将成年出生的颗粒细胞不断引入到齿状回中,这个神经发生特性是迁移。
(2)本文算法和《Rusu A A, Rabinowitz N C, Desjardins G, et al. Progressive neural networks[J]. arXiv preprint arXiv:1606.04671, 2016.》PNN网络结构是一样的本质,套了一个神经启发的壳子重新讲的故事。
(3)算法缺点:网络在设计时需要考虑的容量规划问题,确保有足够的神经元储备来学习预期数量的类别。

目录
相关文章
|
2月前
|
XML JavaScript 前端开发
学习react基础(1)_虚拟dom、diff算法、函数和class创建组件
本文介绍了React的核心概念,包括虚拟DOM、Diff算法以及如何通过函数和类创建React组件。
26 2
|
3月前
|
机器学习/深度学习 人工智能 资源调度
【博士每天一篇文献-算法】连续学习算法之HAT: Overcoming catastrophic forgetting with hard attention to the task
本文介绍了一种名为Hard Attention to the Task (HAT)的连续学习算法,通过学习几乎二值的注意力向量来克服灾难性遗忘问题,同时不影响当前任务的学习,并通过实验验证了其在减少遗忘方面的有效性。
74 12
|
3月前
|
机器学习/深度学习 算法 计算机视觉
【博士每天一篇文献-算法】持续学习经典算法之LwF: Learning without forgetting
LwF(Learning without Forgetting)是一种机器学习方法,通过知识蒸馏损失来在训练新任务时保留旧任务的知识,无需旧任务数据,有效解决了神经网络学习新任务时可能发生的灾难性遗忘问题。
222 9
|
3月前
|
机器学习/深度学习 算法 机器人
【博士每天一篇文献-算法】改进的PNN架构Lifelong learning with dynamically expandable networks
本文介绍了一种名为Dynamically Expandable Network(DEN)的深度神经网络架构,它能够在学习新任务的同时保持对旧任务的记忆,并通过动态扩展网络容量和选择性重训练机制,有效防止语义漂移,实现终身学习。
58 9
|
3月前
|
存储 机器学习/深度学习 算法
【博士每天一篇文献-算法】连续学习算法之HNet:Continual learning with hypernetworks
本文提出了一种基于任务条件超网络(Hypernetworks)的持续学习模型,通过超网络生成目标网络权重并结合正则化技术减少灾难性遗忘,实现有效的任务顺序学习与长期记忆保持。
45 4
|
3月前
|
存储 机器学习/深度学习 算法
【博士每天一篇文献-算法】连续学习算法之RWalk:Riemannian Walk for Incremental Learning Understanding
RWalk算法是一种增量学习框架,通过结合EWC++和修改版的Path Integral算法,并采用不同的采样策略存储先前任务的代表性子集,以量化和平衡遗忘和固执,实现在学习新任务的同时保留旧任务的知识。
87 3
|
23天前
|
算法 安全 数据安全/隐私保护
基于game-based算法的动态频谱访问matlab仿真
本算法展示了在认知无线电网络中,通过游戏理论优化动态频谱访问,提高频谱利用率和物理层安全性。程序运行效果包括负载因子、传输功率、信噪比对用户效用和保密率的影响分析。软件版本:Matlab 2022a。完整代码包含详细中文注释和操作视频。
|
8天前
|
算法 数据挖掘 数据安全/隐私保护
基于FCM模糊聚类算法的图像分割matlab仿真
本项目展示了基于模糊C均值(FCM)算法的图像分割技术。算法运行效果良好,无水印。使用MATLAB 2022a开发,提供完整代码及中文注释,附带操作步骤视频。FCM算法通过隶属度矩阵和聚类中心矩阵实现图像分割,适用于灰度和彩色图像,广泛应用于医学影像、遥感图像等领域。
|
10天前
|
算法 调度
基于遗传模拟退火混合优化算法的车间作业最优调度matlab仿真,输出甘特图
车间作业调度问题(JSSP)通过遗传算法(GA)和模拟退火算法(SA)优化多个作业在并行工作中心上的加工顺序和时间,以最小化总完成时间和机器闲置时间。MATLAB2022a版本运行测试,展示了有效性和可行性。核心程序采用作业列表表示法,结合遗传操作和模拟退火过程,提高算法性能。
|
10天前
|
存储 算法 决策智能
基于免疫算法的TSP问题求解matlab仿真
旅行商问题(TSP)是一个经典的组合优化问题,目标是寻找经过每个城市恰好一次并返回起点的最短回路。本文介绍了一种基于免疫算法(IA)的解决方案,该算法模拟生物免疫系统的运作机制,通过克隆选择、变异和免疫记忆等步骤,有效解决了TSP问题。程序使用MATLAB 2022a版本运行,展示了良好的优化效果。