【博士每天一篇文献-算法】Evolutionary multi-task learning for modular knowledge representation in neuralnetworks

简介: 本文提出了一种进化式多任务学习方法(EMTL),用于在神经网络中通过模块化网络拓扑实现模块化知识表示,模仿人脑的模块化结构存储知识,提高了网络的鲁棒性和灵活性,并在奇偶校验问题和基准模式分类任务上验证了其有效性。

阅读时间:2023-12-11

1 介绍

年份:2018
作者:Rohitash Chandra,新南威尔士大学
期刊:Neural Processing Letters,Q3
引用量:48
Chandra R, Gupta A, Ong Y S, et al. Evolutionary multi-task learning for modular knowledge representation in neural networks[J]. Neural Processing Letters, 2018, 47: 993-1009.
本文提出了一种通过模块化网络拓扑进行神经网络(非传统的前馈神经网络,类似于储层网络)中模块化知识表示的多任务学习方法。模仿人脑的模块化结构,将每个任务的知识分割存储在不同的模块中。即使网络中选定模块的一些神经元和连接被破坏或移除,模块化知识表示也将是有效的。作者使用单隐藏层前馈网络演示了该方法学习不同难度级别的选定n位奇偶校验问题,并将其应用于基准模式分类问题。

image.png

image.png
image.png

2 创新点

  1. 模块化知识表示:提出了一种新的神经网络知识表示方法,模仿人脑的模块化结构,将知识分割存储在不同的模块中,提高了网络的鲁棒性和灵活性。
  2. 进化式多任务学习(EMTL):结合了多任务学习和神经进化的概念,通过进化算法同时优化多个任务,允许不同任务之间共享和转移知识。
  3. 统一解决方案空间:提出了一种统一的解决方案空间方法,用于处理不同子任务的异构性,使得具有不同网络拓扑的任务能够在相同的搜索空间中进化。
  4. 动态问题分解:通过将复杂问题分解为多个子任务,并利用这些子任务的解决方案来构建更复杂的网络拓扑,实现了问题的动态分解和解决方案的逐步构建。
  5. 知识保留与转移:在网络的某些模块受损时,能够保留其他模块中的知识,并通过多任务学习机制实现知识的有效转移和利用。
  6. 实验验证:通过在n位奇偶校验问题和UCI机器学习数据集上的实验,验证了所提出方法的有效性,展示了其在不同难度级别问题上的性能。
  7. 性能比较:与进化式单任务学习(ESTL)方法进行了比较,证明了EMTL在保持性能的同时能够实现模块化知识表示的能力。

3 相关研究

(1)相关概念
垂直文化传递(Vertical Cultural Transmission,简称VCT)策略是指知识和行为模式从一代传递到下一代的过程,这种传递通常是自上而下的,即从父母或其他长辈传递给子女或晚辈。在文化演化和社会学中,这种策略是文化传承的一种形式,强调经验和知识的积累对后代的影响。在EMTL算法中,垂直文化传递的概念被用来指导后代个体与子任务的关联方式。具体来说,当通过交叉和变异操作创建新的后代时,这些后代会随机模仿(或继承)其父母之一的关联策略。这意味着如果一个父代个体与特定的子任务关联,那么其后代在初始化时也更有可能与相同的子任务关联。这种策略有助于保持种群多样性,同时允许有效的知识在子任务之间传递。通过这种方式,算法可以利用先前世代中已经学到的知识,加速学习过程,并提高整体的优化性能。垂直文化传递在多任务学习中是一种有效的策略,可以促进不同任务间的协同进化和知识共享。

4 算法

ESTL是通过一个种群大小为30个个体的进化算法实现的,其中不同的子任务指的是各自的知识模块。它在进化算法中使用直接编码来表示权重,知识模块通过进化式多任务学习进行演化。
image.png
图中是不同的子任务使用不同部分的神经元。
进化多任务学习(Evolutionary Multi-Task Learning,简称EMTL)算法步骤如下:

  1. 定义不同的子任务:根据隐藏神经元的数量来定义不同的子任务。例如,子任务1 (p个隐藏神经元),子任务 2 (q个隐藏神经元),子任务 3 (r个隐藏神经元)。
  2. 初始化统一搜索空间中的个体
  • 随机地将每个个体与任一子任务(1、2或3)关联。
  • 评估每个子任务中的个体,直到达到终止条件。
  1. 迭代过程
  • 选择和通过交叉和变异创建新的后代。
  • 通过模仿为其创建的父代之一,将每个后代与任一子任务关联。
  • 仅评估后代与其关联的子任务。
  • 从每个子任务中选择(popsize/3)个精英个体进入下一代。
  1. 处理异质性:主要挑战是处理构成子任务的搜索空间维度的异质性。如果算法1中的三个子任务分别具有维度D1、D2和D3,则统一搜索空间的维度由Dmultitask = max{D1, D2, D3}给出。这样,统一空间中的候选解由Dmultitask个元素的向量特征。
  2. 评估个体:在评估与第j个子任务关联的个体时,只需从Dmultitask个元素的列表中提取(或参考)Dj个相关元素。
  3. 选择策略:在多任务学习环境中,每个个体与任一子任务的关联可以节省计算成本,因为对每个子任务详尽评估每个个体可能是昂贵的。在初始种群中,这些关联是随机分配的(同时确保所有子任务的均匀表示),在后续代中采用垂直文化传递策略。
  4. 算法终止:当完成至少30,000次函数评估时,算法终止。

5 实验分析

(1)实验数据集
image.png
用了6种数据集,都是2个类别的分类问题,其中的Instances是样本数。Max-FE是最大函数评估次数,表示算法在终止前允许的最大评估次数,这是用来衡量计算成本的一个指标。

  1. Ionosphere 数据集:这个数据集包含有关雷达回波的信息,用于识别大气中是否存在离子层。它通常用于二元分类任务。
  2. Cancer 数据集:这个数据集与乳腺癌有关,包含了细胞核的特征,用于预测良性或恶性肿瘤。
  3. Heart 数据集:它包含了有关心脏病患者心脏状况的特征,用于预测心脏病的风险。
  4. Tic-Tac-Toe 数据集:这个数据集基于井字游戏(Tic-Tac-Toe),包含了游戏的不同布局,用于预测游戏的结果。
  5. Balloon 数据集:这是一个较小的数据集,包含了有关热气球飞行条件的信息,用于预测飞行结果。
  6. Credit Approval 数据集:这个数据集包含了银行信用审批的记录,用于预测贷款申请是否会被批准。

(2)多任务学习与单任务学习对比
8位偶数奇偶校验问题中,使用5、6、7、8、9个神经元时多任务学习(MT)策略与单任务学习(ST)策略的收敛趋势。多任务学习策略在函数评估次数增加时,相比单任务学习策略,能够收敛到更高质量的解。这意味着多任务学习能够更有效地利用训练数据和网络结构,找到更好的网络权重配置。
image.pngimage.png
(2)不同数据集上子任务的性能对比

  • EMTL在所有相应的问题上达到了与ESTL相同的性能水平。这意味着模块化知识表示并没有导致性能质量的下降。
  • 在某些情况下,使用附加的知识模块可能会因为它们在训练中占用了计算资源而稍微降低系统的性能。然而,EMTL通过模块化学习保留了知识,并且能够在需要时利用这些模块来指导解空间的演化。

image.png

6 思考

(1)和PNN有点相似
本文的算法和《Progressive Neural Networks》中的PNN算法在多任务学习领域都旨在提高模型在面对新任务时的学习能力,同时保留之前学到的知识。本文的算法更侧重于模块化和进化策略,而PNN算法更侧重于通过增加新网络列和利用横向连接来实现知识迁移。

(2)本文的EMTL算法与反向传播(Backpropagation,简称BP)训练算法在更新网络权重方面有区别。

  1. 学习策略:
  • EMTL:采用进化算法来优化网络权重,通过模拟自然选择、交叉和变异等操作来迭代地改进解的质量。
  • 反向传播:使用梯度下降(或其他优化算法)来最小化损失函数,通过计算损失相对于权重的梯度来更新权重。
  1. 权重更新机制:
  • EMTL:权重的更新是通过遗传算子实现的,包括选择(选择性能较好的个体)、交叉(在两个或多个个体之间交换遗传信息)和变异(随机改变个体的某些部分)。
  • 反向传播:权重的更新是通过计算损失函数关于权重的偏导数来实现的,然后根据这些偏导数和学习率来调整权重。
  1. 模块化知识表示:
  • EMTL:强调模块化的知识表示,允许网络在某些模块受损时仍然保持功能,通过模块化学习可以更好地迁移和重用知识。
  • 反向传播:通常不直接处理模块化知识表示,而是在整个网络层面上统一更新权重。
  1. 全局与局部搜索:
  • EMTL:通过进化算法进行全局搜索,可能更擅长跳出局部最小值,但可能需要更多的计算资源。
  • 反向传播:通过梯度下降进行局部搜索,通常收敛速度快,但可能陷入局部最小值。
  1. 适用性:
  • EMTL:适用于结构化和模块化的网络设计,特别是当问题可以分解为多个子任务或模块时。
  • 反向传播:适用于各种类型的神经网络,特别是当问题可以通过端到端的方式直接从输入映射到输出时。
  1. 计算效率:
  • EMTL:可能需要更多的评估和迭代来找到解,因此在计算上可能不如反向传播高效。
  • 反向传播:通常计算效率更高,因为每次迭代只需要一次前向传播和一次反向传播。
  1. 泛化能力:
  • EMTL:通过模块化学习可能提高模型的泛化能力,因为每个模块可以专门学习数据的特定特征。
  • 反向传播:泛化能力取决于网络架构、正则化技术和训练数据的多样性。

(4)总结
从图5和图6可以看出来,模块化方法在性能上没有太大优势,作者所以提出的优势是,即使在某些模块受损时,网络仍然可以在安全模式下运行。基础知识模块可以在这种情况下用于操作。
注意,论文中的模块化方法不适合前馈神经网络。

目录
相关文章
|
3月前
|
机器学习/深度学习 人工智能 资源调度
【博士每天一篇文献-算法】连续学习算法之HAT: Overcoming catastrophic forgetting with hard attention to the task
本文介绍了一种名为Hard Attention to the Task (HAT)的连续学习算法,通过学习几乎二值的注意力向量来克服灾难性遗忘问题,同时不影响当前任务的学习,并通过实验验证了其在减少遗忘方面的有效性。
74 12
|
3月前
|
机器学习/深度学习 算法 计算机视觉
【博士每天一篇文献-算法】持续学习经典算法之LwF: Learning without forgetting
LwF(Learning without Forgetting)是一种机器学习方法,通过知识蒸馏损失来在训练新任务时保留旧任务的知识,无需旧任务数据,有效解决了神经网络学习新任务时可能发生的灾难性遗忘问题。
222 9
|
3月前
|
存储 机器学习/深度学习 算法
【博士每天一篇文献-算法】连续学习算法之HNet:Continual learning with hypernetworks
本文提出了一种基于任务条件超网络(Hypernetworks)的持续学习模型,通过超网络生成目标网络权重并结合正则化技术减少灾难性遗忘,实现有效的任务顺序学习与长期记忆保持。
45 4
|
3月前
|
存储 机器学习/深度学习 算法
【博士每天一篇文献-算法】连续学习算法之RWalk:Riemannian Walk for Incremental Learning Understanding
RWalk算法是一种增量学习框架,通过结合EWC++和修改版的Path Integral算法,并采用不同的采样策略存储先前任务的代表性子集,以量化和平衡遗忘和固执,实现在学习新任务的同时保留旧任务的知识。
87 3
|
23天前
|
算法 安全 数据安全/隐私保护
基于game-based算法的动态频谱访问matlab仿真
本算法展示了在认知无线电网络中,通过游戏理论优化动态频谱访问,提高频谱利用率和物理层安全性。程序运行效果包括负载因子、传输功率、信噪比对用户效用和保密率的影响分析。软件版本:Matlab 2022a。完整代码包含详细中文注释和操作视频。
|
8天前
|
算法 数据挖掘 数据安全/隐私保护
基于FCM模糊聚类算法的图像分割matlab仿真
本项目展示了基于模糊C均值(FCM)算法的图像分割技术。算法运行效果良好,无水印。使用MATLAB 2022a开发,提供完整代码及中文注释,附带操作步骤视频。FCM算法通过隶属度矩阵和聚类中心矩阵实现图像分割,适用于灰度和彩色图像,广泛应用于医学影像、遥感图像等领域。
|
10天前
|
算法 调度
基于遗传模拟退火混合优化算法的车间作业最优调度matlab仿真,输出甘特图
车间作业调度问题(JSSP)通过遗传算法(GA)和模拟退火算法(SA)优化多个作业在并行工作中心上的加工顺序和时间,以最小化总完成时间和机器闲置时间。MATLAB2022a版本运行测试,展示了有效性和可行性。核心程序采用作业列表表示法,结合遗传操作和模拟退火过程,提高算法性能。
|
10天前
|
存储 算法 决策智能
基于免疫算法的TSP问题求解matlab仿真
旅行商问题(TSP)是一个经典的组合优化问题,目标是寻找经过每个城市恰好一次并返回起点的最短回路。本文介绍了一种基于免疫算法(IA)的解决方案,该算法模拟生物免疫系统的运作机制,通过克隆选择、变异和免疫记忆等步骤,有效解决了TSP问题。程序使用MATLAB 2022a版本运行,展示了良好的优化效果。
|
10天前
|
机器学习/深度学习 算法 芯片
基于GSP工具箱的NILM算法matlab仿真
基于GSP工具箱的NILM算法Matlab仿真,利用图信号处理技术解析家庭或建筑内各电器的独立功耗。GSPBox通过图的节点、边和权重矩阵表示电气系统,实现对未知数据的有效分类。系统使用MATLAB2022a版本,通过滤波或分解技术从全局能耗信号中提取子设备的功耗信息。
|
10天前
|
机器学习/深度学习 算法 5G
基于MIMO系统的SDR-AltMin混合预编码算法matlab性能仿真
基于MIMO系统的SDR-AltMin混合预编码算法通过结合半定松弛和交替最小化技术,优化大规模MIMO系统的预编码矩阵,提高信号质量。Matlab 2022a仿真结果显示,该算法能有效提升系统性能并降低计算复杂度。核心程序包括预编码和接收矩阵的设计,以及不同信噪比下的性能评估。
26 3