【博士每天一篇文献-算法】Evolutionary multi-task learning for modular knowledge representation in neuralnetworks

简介: 本文提出了一种进化式多任务学习方法(EMTL),用于在神经网络中通过模块化网络拓扑实现模块化知识表示,模仿人脑的模块化结构存储知识,提高了网络的鲁棒性和灵活性,并在奇偶校验问题和基准模式分类任务上验证了其有效性。

阅读时间:2023-12-11

1 介绍

年份:2018
作者:Rohitash Chandra,新南威尔士大学
期刊:Neural Processing Letters,Q3
引用量:48
Chandra R, Gupta A, Ong Y S, et al. Evolutionary multi-task learning for modular knowledge representation in neural networks[J]. Neural Processing Letters, 2018, 47: 993-1009.
本文提出了一种通过模块化网络拓扑进行神经网络(非传统的前馈神经网络,类似于储层网络)中模块化知识表示的多任务学习方法。模仿人脑的模块化结构,将每个任务的知识分割存储在不同的模块中。即使网络中选定模块的一些神经元和连接被破坏或移除,模块化知识表示也将是有效的。作者使用单隐藏层前馈网络演示了该方法学习不同难度级别的选定n位奇偶校验问题,并将其应用于基准模式分类问题。

image.png

image.png
image.png

2 创新点

  1. 模块化知识表示:提出了一种新的神经网络知识表示方法,模仿人脑的模块化结构,将知识分割存储在不同的模块中,提高了网络的鲁棒性和灵活性。
  2. 进化式多任务学习(EMTL):结合了多任务学习和神经进化的概念,通过进化算法同时优化多个任务,允许不同任务之间共享和转移知识。
  3. 统一解决方案空间:提出了一种统一的解决方案空间方法,用于处理不同子任务的异构性,使得具有不同网络拓扑的任务能够在相同的搜索空间中进化。
  4. 动态问题分解:通过将复杂问题分解为多个子任务,并利用这些子任务的解决方案来构建更复杂的网络拓扑,实现了问题的动态分解和解决方案的逐步构建。
  5. 知识保留与转移:在网络的某些模块受损时,能够保留其他模块中的知识,并通过多任务学习机制实现知识的有效转移和利用。
  6. 实验验证:通过在n位奇偶校验问题和UCI机器学习数据集上的实验,验证了所提出方法的有效性,展示了其在不同难度级别问题上的性能。
  7. 性能比较:与进化式单任务学习(ESTL)方法进行了比较,证明了EMTL在保持性能的同时能够实现模块化知识表示的能力。

3 相关研究

(1)相关概念
垂直文化传递(Vertical Cultural Transmission,简称VCT)策略是指知识和行为模式从一代传递到下一代的过程,这种传递通常是自上而下的,即从父母或其他长辈传递给子女或晚辈。在文化演化和社会学中,这种策略是文化传承的一种形式,强调经验和知识的积累对后代的影响。在EMTL算法中,垂直文化传递的概念被用来指导后代个体与子任务的关联方式。具体来说,当通过交叉和变异操作创建新的后代时,这些后代会随机模仿(或继承)其父母之一的关联策略。这意味着如果一个父代个体与特定的子任务关联,那么其后代在初始化时也更有可能与相同的子任务关联。这种策略有助于保持种群多样性,同时允许有效的知识在子任务之间传递。通过这种方式,算法可以利用先前世代中已经学到的知识,加速学习过程,并提高整体的优化性能。垂直文化传递在多任务学习中是一种有效的策略,可以促进不同任务间的协同进化和知识共享。

4 算法

ESTL是通过一个种群大小为30个个体的进化算法实现的,其中不同的子任务指的是各自的知识模块。它在进化算法中使用直接编码来表示权重,知识模块通过进化式多任务学习进行演化。
image.png
图中是不同的子任务使用不同部分的神经元。
进化多任务学习(Evolutionary Multi-Task Learning,简称EMTL)算法步骤如下:

  1. 定义不同的子任务:根据隐藏神经元的数量来定义不同的子任务。例如,子任务1 (p个隐藏神经元),子任务 2 (q个隐藏神经元),子任务 3 (r个隐藏神经元)。
  2. 初始化统一搜索空间中的个体
  • 随机地将每个个体与任一子任务(1、2或3)关联。
  • 评估每个子任务中的个体,直到达到终止条件。
  1. 迭代过程
  • 选择和通过交叉和变异创建新的后代。
  • 通过模仿为其创建的父代之一,将每个后代与任一子任务关联。
  • 仅评估后代与其关联的子任务。
  • 从每个子任务中选择(popsize/3)个精英个体进入下一代。
  1. 处理异质性:主要挑战是处理构成子任务的搜索空间维度的异质性。如果算法1中的三个子任务分别具有维度D1、D2和D3,则统一搜索空间的维度由Dmultitask = max{D1, D2, D3}给出。这样,统一空间中的候选解由Dmultitask个元素的向量特征。
  2. 评估个体:在评估与第j个子任务关联的个体时,只需从Dmultitask个元素的列表中提取(或参考)Dj个相关元素。
  3. 选择策略:在多任务学习环境中,每个个体与任一子任务的关联可以节省计算成本,因为对每个子任务详尽评估每个个体可能是昂贵的。在初始种群中,这些关联是随机分配的(同时确保所有子任务的均匀表示),在后续代中采用垂直文化传递策略。
  4. 算法终止:当完成至少30,000次函数评估时,算法终止。

5 实验分析

(1)实验数据集
image.png
用了6种数据集,都是2个类别的分类问题,其中的Instances是样本数。Max-FE是最大函数评估次数,表示算法在终止前允许的最大评估次数,这是用来衡量计算成本的一个指标。

  1. Ionosphere 数据集:这个数据集包含有关雷达回波的信息,用于识别大气中是否存在离子层。它通常用于二元分类任务。
  2. Cancer 数据集:这个数据集与乳腺癌有关,包含了细胞核的特征,用于预测良性或恶性肿瘤。
  3. Heart 数据集:它包含了有关心脏病患者心脏状况的特征,用于预测心脏病的风险。
  4. Tic-Tac-Toe 数据集:这个数据集基于井字游戏(Tic-Tac-Toe),包含了游戏的不同布局,用于预测游戏的结果。
  5. Balloon 数据集:这是一个较小的数据集,包含了有关热气球飞行条件的信息,用于预测飞行结果。
  6. Credit Approval 数据集:这个数据集包含了银行信用审批的记录,用于预测贷款申请是否会被批准。

(2)多任务学习与单任务学习对比
8位偶数奇偶校验问题中,使用5、6、7、8、9个神经元时多任务学习(MT)策略与单任务学习(ST)策略的收敛趋势。多任务学习策略在函数评估次数增加时,相比单任务学习策略,能够收敛到更高质量的解。这意味着多任务学习能够更有效地利用训练数据和网络结构,找到更好的网络权重配置。
image.pngimage.png
(2)不同数据集上子任务的性能对比

  • EMTL在所有相应的问题上达到了与ESTL相同的性能水平。这意味着模块化知识表示并没有导致性能质量的下降。
  • 在某些情况下,使用附加的知识模块可能会因为它们在训练中占用了计算资源而稍微降低系统的性能。然而,EMTL通过模块化学习保留了知识,并且能够在需要时利用这些模块来指导解空间的演化。

image.png

6 思考

(1)和PNN有点相似
本文的算法和《Progressive Neural Networks》中的PNN算法在多任务学习领域都旨在提高模型在面对新任务时的学习能力,同时保留之前学到的知识。本文的算法更侧重于模块化和进化策略,而PNN算法更侧重于通过增加新网络列和利用横向连接来实现知识迁移。

(2)本文的EMTL算法与反向传播(Backpropagation,简称BP)训练算法在更新网络权重方面有区别。

  1. 学习策略:
  • EMTL:采用进化算法来优化网络权重,通过模拟自然选择、交叉和变异等操作来迭代地改进解的质量。
  • 反向传播:使用梯度下降(或其他优化算法)来最小化损失函数,通过计算损失相对于权重的梯度来更新权重。
  1. 权重更新机制:
  • EMTL:权重的更新是通过遗传算子实现的,包括选择(选择性能较好的个体)、交叉(在两个或多个个体之间交换遗传信息)和变异(随机改变个体的某些部分)。
  • 反向传播:权重的更新是通过计算损失函数关于权重的偏导数来实现的,然后根据这些偏导数和学习率来调整权重。
  1. 模块化知识表示:
  • EMTL:强调模块化的知识表示,允许网络在某些模块受损时仍然保持功能,通过模块化学习可以更好地迁移和重用知识。
  • 反向传播:通常不直接处理模块化知识表示,而是在整个网络层面上统一更新权重。
  1. 全局与局部搜索:
  • EMTL:通过进化算法进行全局搜索,可能更擅长跳出局部最小值,但可能需要更多的计算资源。
  • 反向传播:通过梯度下降进行局部搜索,通常收敛速度快,但可能陷入局部最小值。
  1. 适用性:
  • EMTL:适用于结构化和模块化的网络设计,特别是当问题可以分解为多个子任务或模块时。
  • 反向传播:适用于各种类型的神经网络,特别是当问题可以通过端到端的方式直接从输入映射到输出时。
  1. 计算效率:
  • EMTL:可能需要更多的评估和迭代来找到解,因此在计算上可能不如反向传播高效。
  • 反向传播:通常计算效率更高,因为每次迭代只需要一次前向传播和一次反向传播。
  1. 泛化能力:
  • EMTL:通过模块化学习可能提高模型的泛化能力,因为每个模块可以专门学习数据的特定特征。
  • 反向传播:泛化能力取决于网络架构、正则化技术和训练数据的多样性。

(4)总结
从图5和图6可以看出来,模块化方法在性能上没有太大优势,作者所以提出的优势是,即使在某些模块受损时,网络仍然可以在安全模式下运行。基础知识模块可以在这种情况下用于操作。
注意,论文中的模块化方法不适合前馈神经网络。

目录
相关文章
|
2月前
|
机器学习/深度学习 人工智能 资源调度
【博士每天一篇文献-算法】连续学习算法之HAT: Overcoming catastrophic forgetting with hard attention to the task
本文介绍了一种名为Hard Attention to the Task (HAT)的连续学习算法,通过学习几乎二值的注意力向量来克服灾难性遗忘问题,同时不影响当前任务的学习,并通过实验验证了其在减少遗忘方面的有效性。
59 12
|
2月前
|
机器学习/深度学习 算法 计算机视觉
【博士每天一篇文献-算法】持续学习经典算法之LwF: Learning without forgetting
LwF(Learning without Forgetting)是一种机器学习方法,通过知识蒸馏损失来在训练新任务时保留旧任务的知识,无需旧任务数据,有效解决了神经网络学习新任务时可能发生的灾难性遗忘问题。
146 9
|
2月前
|
存储 机器学习/深度学习 算法
【博士每天一篇文献-算法】连续学习算法之HNet:Continual learning with hypernetworks
本文提出了一种基于任务条件超网络(Hypernetworks)的持续学习模型,通过超网络生成目标网络权重并结合正则化技术减少灾难性遗忘,实现有效的任务顺序学习与长期记忆保持。
40 4
|
2月前
|
存储 机器学习/深度学习 算法
【博士每天一篇文献-算法】连续学习算法之RWalk:Riemannian Walk for Incremental Learning Understanding
RWalk算法是一种增量学习框架,通过结合EWC++和修改版的Path Integral算法,并采用不同的采样策略存储先前任务的代表性子集,以量化和平衡遗忘和固执,实现在学习新任务的同时保留旧任务的知识。
81 3
|
17天前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于MSER和HOG特征提取的SVM交通标志检测和识别算法matlab仿真
### 算法简介 1. **算法运行效果图预览**:展示算法效果,完整程序运行后无水印。 2. **算法运行软件版本**:Matlab 2017b。 3. **部分核心程序**:完整版代码包含中文注释及操作步骤视频。 4. **算法理论概述**: - **MSER**:用于检测显著区域,提取图像中稳定区域,适用于光照变化下的交通标志检测。 - **HOG特征提取**:通过计算图像小区域的梯度直方图捕捉局部纹理信息,用于物体检测。 - **SVM**:寻找最大化间隔的超平面以分类样本。 整个算法流程图见下图。
|
2天前
|
存储
基于遗传算法的智能天线最佳阵列因子计算matlab仿真
本课题探讨基于遗传算法优化智能天线阵列因子,以提升无线通信系统性能,包括信号质量、干扰抑制及定位精度。通过MATLAB2022a实现的核心程序,展示了遗传算法在寻找最优阵列因子上的应用,显著改善了天线接收功率。
|
4天前
|
监控 算法 数据安全/隐私保护
基于三帧差算法的运动目标检测系统FPGA实现,包含testbench和MATLAB辅助验证程序
本项目展示了基于FPGA与MATLAB实现的三帧差算法运动目标检测。使用Vivado 2019.2和MATLAB 2022a开发环境,通过对比连续三帧图像的像素值变化,有效识别运动区域。项目包括完整无水印的运行效果预览、详细中文注释的代码及操作步骤视频,适合学习和研究。
|
12天前
|
算法
基于粒子群算法的分布式电源配电网重构优化matlab仿真
本研究利用粒子群算法(PSO)优化分布式电源配电网重构,通过Matlab仿真验证优化效果,对比重构前后的节点电压、网损、负荷均衡度、电压偏离及线路传输功率,并记录开关状态变化。PSO算法通过迭代更新粒子位置寻找最优解,旨在最小化网络损耗并提升供电可靠性。仿真结果显示优化后各项指标均有显著改善。
|
7天前
|
机器学习/深度学习 算法 数据挖掘
基于GWO灰狼优化的GroupCNN分组卷积网络时间序列预测算法matlab仿真
本项目展示了基于分组卷积神经网络(GroupCNN)和灰狼优化(GWO)的时间序列回归预测算法。算法运行效果良好,无水印展示。使用Matlab2022a开发,提供完整代码及详细中文注释。GroupCNN通过分组卷积减少计算成本,GWO则优化超参数,提高预测性能。项目包含操作步骤视频,方便用户快速上手。
|
8天前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于WOA鲸鱼优化的GroupCNN分组卷积网络时间序列预测算法matlab仿真
本项目展示了一种基于WOA优化的GroupCNN分组卷积网络时间序列预测算法。使用Matlab2022a开发,提供无水印运行效果预览及核心代码(含中文注释)。算法通过WOA优化网络结构与超参数,结合分组卷积技术,有效提升预测精度与效率。分组卷积减少了计算成本,而WOA则模拟鲸鱼捕食行为进行优化,适用于多种连续优化问题。