1 介绍
NICE Neurogenesis Inspired Contextual Encoding for Replay-free Class Incremental Learning.pdf
年份:2024
作者:Mustafa Burak Gurb,Constantine Dovrolis,Moorman, Jean,佐治亚理工学院
会议: 2024CPVR
引用量:0
代码:https://github.com/BurakGurbuz97/NICE
Gurbuz M B, Moorman J M, Dovrolis C. NICE: Neurogenesis Inspired Contextual Encoding for Replay-free Class Incremental Learning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 23659-23669.
提出了一种名为 NICE(Neurogenesis Inspired Contextual Encoding)的新型深度神经网络架构,旨在解决动态环境中的增量学习问题,特别是类别增量学习(Class-Incremental Learning, CIL)场景。NICE 方法的关键特点包括三个,分别是神经元成熟阶段、避免神经元间的干扰和上下文检测器。其中神经元成熟阶段,NICE 将网络中的神经元分配为不同的“年龄”,反映它们的成熟水平。避免神经元间的干扰,通过冻结和剪枝操作,确保成熟神经元不会因新数据而改变。上下文检测器,使用逻辑回归模型,根据神经元的激活模式推断测试样本的上下文(即它们属于哪个学习阶段)。
设计了一个上下文检测器,用于识别哪些神经元对样本最具预测性。在测试期间,此检测器预测上下文,并向会引起干扰的某些神经元发送抑制信号。
2 创新点
- 基于成熟阶段的神经元分组:NICE通过给神经网络中的神经元分配“年龄”,模拟了生物神经系统中新神经元的成熟过程。神经元根据它们的成熟阶段被组织成不同的组,这有助于在测试时决定使用哪些神经元。
- 无需重放的架构方法:与传统的重放方法不同,NICE不依赖于在训练过程中重新访问旧类别的样本。相反,它通过架构设计本身来解决灾难性遗忘(Catastrophic Forgetting, CF)的问题,这在类别增量学习中是一个主要的挑战。
- 上下文检测器:NICE引入了一个上下文检测器,它使用逻辑回归模型来推断测试样本属于的学习阶段,基于神经元的激活模式。这种方法允许网络在没有额外信号的情况下,自主决定在特定时间点使用哪些神经元。
- 避免神经元间的干扰:通过冻结旧神经元的输入连接和剪枝操作,NICE防止了新数据对旧知识的影响,从而减少了干扰并保护了先前学习的信息。
- 零遗忘保证:NICE的设计确保了在正确识别测试样本所属学习阶段的情况下,可以实现零遗忘。这是通过将特定年龄的子网络隔离开来,防止它们在未来更新中发生变化实现的。
3 相关研究
启发:海马体中的神经生成,将成年出生的颗粒细胞不断引入到齿状回中,提供了一种在大多数其他大脑区域中找不到的独特形式的可塑性[2, 3, 46]。随着这些新引入的细胞的成熟,它们有助于形成脱耦的表征,对于上下文辨别起着至关重要的作用[20, 47, 65, 74]。本文在DNN中通过引入不同成熟阶段的神经元来模拟神经发生的特性。
4 算法
4.1 神经元年龄
神经发生:NICE模拟生物神经发生,将神经元初始化为0岁,代表它们是待添加到网络中的过剩容量。随着学习,神经元会定期从0岁过渡到1岁,以确定哪些神经元应永久集成到网络中。
成熟过程:每经过一个学习周期,一些1岁的神经元会保持其年龄,其余的则恢复为0岁。然后所有超过0岁的神经元会增加一岁,表示它们正在成熟。
选择和淘汰:通过优化问题选择保留对总激活贡献最大的最小神经元子集,以决定哪些1岁神经元保留。这个选择过程基于神经元的激活强度,假设激活强度是其重要性的可靠指标。
4.2. 避免神经元间的干扰
按年龄分组:神经元根据其年龄被分组,年龄表示它们被引入的周期。
冻结机制:为了防止新数据破坏旧知识,1岁以上的神经元的传入连接会被冻结,阻止它们进一步学习。
剪枝操作:通过剪枝操作,防止年轻神经元从年老神经元那里接收更新,但保留从旧到新的连接以允许知识传递。
零遗忘保证:通过隔离特定年龄的子网络,保证这些神经元不会改变,实现零遗忘。
4.3 上下文检测器
上下文推断:NICE使用上下文检测器来推断在推理阶段应使用哪些年龄的神经元,类似于海马体中的成熟神经元帮助进行上下文辨别。
激活模式存储:定期存储对最近示例有高激活的神经元的信息,并通过阈值处理生成二进制向量。
条件概率模型:使用逻辑回归模型来学习基于二进制记忆的条件概率,以确定测试样本最属于的学习周期。
上下文检测:给定测试样本,上下文检测器会评估样本的激活模式,并使用条件概率来推断样本的上下文,从而抑制不相关的输出并提高预测准确性。
5 实验分析
(1)阐述当前重放方法存在的缺点
图1展示了两种不同的持续学习方法——Dark Experience Replay (DER) 和 Function Distance Regularization (FDR)——在MNIST数据集上的表现,并说明了当引入两个新类别时的性能变化。图中的虚线垂直线表示新类别的引入点。图的上半部分显示了DER和FDR在MNIST上训练时,随着新类别的引入,它们在前几个类别上的准确性如何变化。图的下半部分则展示了在连续学习FashionMNIST和CIFAR10之后,所有类别的准确率,结果是三个不同随机种子的平均值。
实验结论:
在连续学习任务中,现有的重放技术仍存在遭受了灾难性遗忘,在不同的数据集上,持续学习设置中也存在类似的性能波动问题。重放方法的性能在新数据引入时出现波动,这与它们在架构上没有特别适应连续学习的顺序特性有关。
(2)NICE算法结构图
图a)神经元年龄转换图:展示了神经元在NICE架构中如何随时间或学习周期成熟和老化。神经元从较年轻的年龄(例如,0岁或1岁)开始,随着学习周期的进行,逐渐增加年龄。以及神经元如何以及在什么条件下从一个年龄转换到另一个年龄。灰色表示为未来保留的神经元,绿色神经元表示正在接收梯度更新的神经元,蓝色神经元表示已经被冻结的神经元。
图b) 网络中的路径及其角色:网络中不同路径的功能,以及它们如何在NICE架构中支持知识传递和避免干扰。路径根据连接的神经元的年龄被分类。年轻神经元的路径更活跃地参与学习,而年老神经元的路径更稳定,用于存储长期记忆。
图c) NICE算法流程图:展示了NICE在训练和测试期间的操作流程,包括如何更新神经元、如何使用上下文检测器以及如何根据神经元的年龄选择性地激活网络部分。包含了NICE的关键步骤,如神经元选择、连接更新、记忆和上下文检测器的维护。
实验结论:
NICE通过动态地管理神经元的年龄和状态,有效地平衡了学习新知识与保留旧知识之间的关系。通过冻结老神经元和激活新神经元,NICE在实验中展示了如何减少灾难性遗忘,同时仍然允许学习新类别。上下文检测器的使用在实验中证明了其在确定何时使用网络的哪一部分进行预测时的重要性,从而提高了模型的整体性能。通过保留灰色神经元,NICE展示了其架构对未来任务的适应性和可扩展性。
(3)上下文检测器的原理图
展示了NICE模型能够通过分析神经元的激活模式来推断样本的上下文信息,即通过逻辑回归模型计算的条件概率,评估样本属于哪个学习周期。左图展示了一个具有8个神经元的网络的记忆状态示例,其中每个神经元对应一个二进制值,表示在当前学习周期中是否对样本有显著的激活。右图展示了条件概率链式计算的示意图,说明了如何基于存储的激活模式来计算样本属于不同学习周期的概率。
实验结论:NICE模型在测试时通过上下文检测器准确地识别了测试样本的来源周期,从而提高了预测的准确性。
(4)不同方法性能对比
表明本文算法在减少遗忘和快速适应新数据方面是有效的。
(5)神经元激活状态在不同时期的变化
展示了在NICE模型中,对于第一周期的类别和其他剩余类别,前250个最具特征重要性的神经元的平均激活情况
顶部和底部的激活水平存在显著差异,这表明这些神经元对它们在训练初期学习过的类别有更强的响应,而对于后期学习的类别响应较弱。第一周期的神经元即使在面对后期类别时仍然保持较高的激活水平,这表明NICE模型在一定程度上成功地保留了先前学习的知识。
(6)使用不同数量的网络层上下文检测,评价模型在上下文检测的准确
表明单一层不足以捕捉足够的特征信息来准确推断样本的上下文,结合多个层的信息可以提高上下文检测的准确性。
多层网络的上下文检测准确性表明模型具有较好的泛化能力,能够在不同层捕捉和整合信息。
(7)成熟(冻结)神经元的比例变化分析
展示了在CIFAR10和CIFAR100数据集上进行实验时,网络中成熟(冻结)神经元的比例。
实验结论:表明随着学习更多类别,网络中成熟神经元的比例在增加,即有更多的神经元被冻结。早期层的神经元更快地成熟(即线条上升较快),这表明网络倾向于首先使用简单的特征进行学习,这些特征在早期阶段被快速锁定。后期层的神经元成熟得更慢,这意味着网络在更高层保留了更多的灵活性,以学习更复杂的特征或新类别。随着学习过程的进行,可用神经元的减少成为持续学习的一个限制因素,需要策略来管理神经元资源。
6 思考
(1)将成年出生的颗粒细胞不断引入到齿状回中,这个神经发生特性是迁移。
(2)本文算法和《Rusu A A, Rabinowitz N C, Desjardins G, et al. Progressive neural networks[J]. arXiv preprint arXiv:1606.04671, 2016.》PNN网络结构是一样的本质,套了一个神经启发的壳子重新讲的故事。
(3)算法缺点:网络在设计时需要考虑的容量规划问题,确保有足够的神经元储备来学习预期数量的类别。