阅读时间:2023-12-11
1 介绍
年份:2018
作者:Rohitash Chandra,新南威尔士大学
期刊:Neural Processing Letters,Q3
引用量:48
Chandra R, Gupta A, Ong Y S, et al. Evolutionary multi-task learning for modular knowledge representation in neural networks[J]. Neural Processing Letters, 2018, 47: 993-1009.
本文提出了一种通过模块化网络拓扑进行神经网络(非传统的前馈神经网络,类似于储层网络)中模块化知识表示的多任务学习方法。模仿人脑的模块化结构,将每个任务的知识分割存储在不同的模块中。即使网络中选定模块的一些神经元和连接被破坏或移除,模块化知识表示也将是有效的。作者使用单隐藏层前馈网络演示了该方法学习不同难度级别的选定n位奇偶校验问题,并将其应用于基准模式分类问题。
2 创新点
- 模块化知识表示:提出了一种新的神经网络知识表示方法,模仿人脑的模块化结构,将知识分割存储在不同的模块中,提高了网络的鲁棒性和灵活性。
- 进化式多任务学习(EMTL):结合了多任务学习和神经进化的概念,通过进化算法同时优化多个任务,允许不同任务之间共享和转移知识。
- 统一解决方案空间:提出了一种统一的解决方案空间方法,用于处理不同子任务的异构性,使得具有不同网络拓扑的任务能够在相同的搜索空间中进化。
- 动态问题分解:通过将复杂问题分解为多个子任务,并利用这些子任务的解决方案来构建更复杂的网络拓扑,实现了问题的动态分解和解决方案的逐步构建。
- 知识保留与转移:在网络的某些模块受损时,能够保留其他模块中的知识,并通过多任务学习机制实现知识的有效转移和利用。
- 实验验证:通过在n位奇偶校验问题和UCI机器学习数据集上的实验,验证了所提出方法的有效性,展示了其在不同难度级别问题上的性能。
- 性能比较:与进化式单任务学习(ESTL)方法进行了比较,证明了EMTL在保持性能的同时能够实现模块化知识表示的能力。
3 相关研究
(1)相关概念
垂直文化传递(Vertical Cultural Transmission,简称VCT)策略是指知识和行为模式从一代传递到下一代的过程,这种传递通常是自上而下的,即从父母或其他长辈传递给子女或晚辈。在文化演化和社会学中,这种策略是文化传承的一种形式,强调经验和知识的积累对后代的影响。在EMTL算法中,垂直文化传递的概念被用来指导后代个体与子任务的关联方式。具体来说,当通过交叉和变异操作创建新的后代时,这些后代会随机模仿(或继承)其父母之一的关联策略。这意味着如果一个父代个体与特定的子任务关联,那么其后代在初始化时也更有可能与相同的子任务关联。这种策略有助于保持种群多样性,同时允许有效的知识在子任务之间传递。通过这种方式,算法可以利用先前世代中已经学到的知识,加速学习过程,并提高整体的优化性能。垂直文化传递在多任务学习中是一种有效的策略,可以促进不同任务间的协同进化和知识共享。
4 算法
ESTL是通过一个种群大小为30个个体的进化算法实现的,其中不同的子任务指的是各自的知识模块。它在进化算法中使用直接编码来表示权重,知识模块通过进化式多任务学习进行演化。
图中是不同的子任务使用不同部分的神经元。
进化多任务学习(Evolutionary Multi-Task Learning,简称EMTL)算法步骤如下:
- 定义不同的子任务:根据隐藏神经元的数量来定义不同的子任务。例如,子任务1 (p个隐藏神经元),子任务 2 (q个隐藏神经元),子任务 3 (r个隐藏神经元)。
- 初始化统一搜索空间中的个体:
- 随机地将每个个体与任一子任务(1、2或3)关联。
- 评估每个子任务中的个体,直到达到终止条件。
- 迭代过程:
- 选择和通过交叉和变异创建新的后代。
- 通过模仿为其创建的父代之一,将每个后代与任一子任务关联。
- 仅评估后代与其关联的子任务。
- 从每个子任务中选择(popsize/3)个精英个体进入下一代。
- 处理异质性:主要挑战是处理构成子任务的搜索空间维度的异质性。如果算法1中的三个子任务分别具有维度D1、D2和D3,则统一搜索空间的维度由Dmultitask = max{D1, D2, D3}给出。这样,统一空间中的候选解由Dmultitask个元素的向量特征。
- 评估个体:在评估与第j个子任务关联的个体时,只需从Dmultitask个元素的列表中提取(或参考)Dj个相关元素。
- 选择策略:在多任务学习环境中,每个个体与任一子任务的关联可以节省计算成本,因为对每个子任务详尽评估每个个体可能是昂贵的。在初始种群中,这些关联是随机分配的(同时确保所有子任务的均匀表示),在后续代中采用垂直文化传递策略。
- 算法终止:当完成至少30,000次函数评估时,算法终止。
5 实验分析
(1)实验数据集
用了6种数据集,都是2个类别的分类问题,其中的Instances是样本数。Max-FE是最大函数评估次数,表示算法在终止前允许的最大评估次数,这是用来衡量计算成本的一个指标。
- Ionosphere 数据集:这个数据集包含有关雷达回波的信息,用于识别大气中是否存在离子层。它通常用于二元分类任务。
- Cancer 数据集:这个数据集与乳腺癌有关,包含了细胞核的特征,用于预测良性或恶性肿瘤。
- Heart 数据集:它包含了有关心脏病患者心脏状况的特征,用于预测心脏病的风险。
- Tic-Tac-Toe 数据集:这个数据集基于井字游戏(Tic-Tac-Toe),包含了游戏的不同布局,用于预测游戏的结果。
- Balloon 数据集:这是一个较小的数据集,包含了有关热气球飞行条件的信息,用于预测飞行结果。
- Credit Approval 数据集:这个数据集包含了银行信用审批的记录,用于预测贷款申请是否会被批准。
(2)多任务学习与单任务学习对比
8位偶数奇偶校验问题中,使用5、6、7、8、9个神经元时多任务学习(MT)策略与单任务学习(ST)策略的收敛趋势。多任务学习策略在函数评估次数增加时,相比单任务学习策略,能够收敛到更高质量的解。这意味着多任务学习能够更有效地利用训练数据和网络结构,找到更好的网络权重配置。
(2)不同数据集上子任务的性能对比
- EMTL在所有相应的问题上达到了与ESTL相同的性能水平。这意味着模块化知识表示并没有导致性能质量的下降。
- 在某些情况下,使用附加的知识模块可能会因为它们在训练中占用了计算资源而稍微降低系统的性能。然而,EMTL通过模块化学习保留了知识,并且能够在需要时利用这些模块来指导解空间的演化。
6 思考
(1)和PNN有点相似
本文的算法和《Progressive Neural Networks》中的PNN算法在多任务学习领域都旨在提高模型在面对新任务时的学习能力,同时保留之前学到的知识。本文的算法更侧重于模块化和进化策略,而PNN算法更侧重于通过增加新网络列和利用横向连接来实现知识迁移。
(2)本文的EMTL算法与反向传播(Backpropagation,简称BP)训练算法在更新网络权重方面有区别。
- 学习策略:
- EMTL:采用进化算法来优化网络权重,通过模拟自然选择、交叉和变异等操作来迭代地改进解的质量。
- 反向传播:使用梯度下降(或其他优化算法)来最小化损失函数,通过计算损失相对于权重的梯度来更新权重。
- 权重更新机制:
- EMTL:权重的更新是通过遗传算子实现的,包括选择(选择性能较好的个体)、交叉(在两个或多个个体之间交换遗传信息)和变异(随机改变个体的某些部分)。
- 反向传播:权重的更新是通过计算损失函数关于权重的偏导数来实现的,然后根据这些偏导数和学习率来调整权重。
- 模块化知识表示:
- EMTL:强调模块化的知识表示,允许网络在某些模块受损时仍然保持功能,通过模块化学习可以更好地迁移和重用知识。
- 反向传播:通常不直接处理模块化知识表示,而是在整个网络层面上统一更新权重。
- 全局与局部搜索:
- EMTL:通过进化算法进行全局搜索,可能更擅长跳出局部最小值,但可能需要更多的计算资源。
- 反向传播:通过梯度下降进行局部搜索,通常收敛速度快,但可能陷入局部最小值。
- 适用性:
- EMTL:适用于结构化和模块化的网络设计,特别是当问题可以分解为多个子任务或模块时。
- 反向传播:适用于各种类型的神经网络,特别是当问题可以通过端到端的方式直接从输入映射到输出时。
- 计算效率:
- EMTL:可能需要更多的评估和迭代来找到解,因此在计算上可能不如反向传播高效。
- 反向传播:通常计算效率更高,因为每次迭代只需要一次前向传播和一次反向传播。
- 泛化能力:
- EMTL:通过模块化学习可能提高模型的泛化能力,因为每个模块可以专门学习数据的特定特征。
- 反向传播:泛化能力取决于网络架构、正则化技术和训练数据的多样性。
(4)总结
从图5和图6可以看出来,模块化方法在性能上没有太大优势,作者所以提出的优势是,即使在某些模块受损时,网络仍然可以在安全模式下运行。基础知识模块可以在这种情况下用于操作。
注意,论文中的模块化方法不适合前馈神经网络。