【博士每天一篇文献-算法】Evolutionary multi-task learning for modular knowledge representation in neuralnetworks

简介: 本文提出了一种进化式多任务学习方法(EMTL),用于在神经网络中通过模块化网络拓扑实现模块化知识表示,模仿人脑的模块化结构存储知识,提高了网络的鲁棒性和灵活性,并在奇偶校验问题和基准模式分类任务上验证了其有效性。

阅读时间:2023-12-11

1 介绍

年份:2018
作者:Rohitash Chandra,新南威尔士大学
期刊:Neural Processing Letters,Q3
引用量:48
Chandra R, Gupta A, Ong Y S, et al. Evolutionary multi-task learning for modular knowledge representation in neural networks[J]. Neural Processing Letters, 2018, 47: 993-1009.
本文提出了一种通过模块化网络拓扑进行神经网络(非传统的前馈神经网络,类似于储层网络)中模块化知识表示的多任务学习方法。模仿人脑的模块化结构,将每个任务的知识分割存储在不同的模块中。即使网络中选定模块的一些神经元和连接被破坏或移除,模块化知识表示也将是有效的。作者使用单隐藏层前馈网络演示了该方法学习不同难度级别的选定n位奇偶校验问题,并将其应用于基准模式分类问题。

image.png

image.png
image.png

2 创新点

  1. 模块化知识表示:提出了一种新的神经网络知识表示方法,模仿人脑的模块化结构,将知识分割存储在不同的模块中,提高了网络的鲁棒性和灵活性。
  2. 进化式多任务学习(EMTL):结合了多任务学习和神经进化的概念,通过进化算法同时优化多个任务,允许不同任务之间共享和转移知识。
  3. 统一解决方案空间:提出了一种统一的解决方案空间方法,用于处理不同子任务的异构性,使得具有不同网络拓扑的任务能够在相同的搜索空间中进化。
  4. 动态问题分解:通过将复杂问题分解为多个子任务,并利用这些子任务的解决方案来构建更复杂的网络拓扑,实现了问题的动态分解和解决方案的逐步构建。
  5. 知识保留与转移:在网络的某些模块受损时,能够保留其他模块中的知识,并通过多任务学习机制实现知识的有效转移和利用。
  6. 实验验证:通过在n位奇偶校验问题和UCI机器学习数据集上的实验,验证了所提出方法的有效性,展示了其在不同难度级别问题上的性能。
  7. 性能比较:与进化式单任务学习(ESTL)方法进行了比较,证明了EMTL在保持性能的同时能够实现模块化知识表示的能力。

3 相关研究

(1)相关概念
垂直文化传递(Vertical Cultural Transmission,简称VCT)策略是指知识和行为模式从一代传递到下一代的过程,这种传递通常是自上而下的,即从父母或其他长辈传递给子女或晚辈。在文化演化和社会学中,这种策略是文化传承的一种形式,强调经验和知识的积累对后代的影响。在EMTL算法中,垂直文化传递的概念被用来指导后代个体与子任务的关联方式。具体来说,当通过交叉和变异操作创建新的后代时,这些后代会随机模仿(或继承)其父母之一的关联策略。这意味着如果一个父代个体与特定的子任务关联,那么其后代在初始化时也更有可能与相同的子任务关联。这种策略有助于保持种群多样性,同时允许有效的知识在子任务之间传递。通过这种方式,算法可以利用先前世代中已经学到的知识,加速学习过程,并提高整体的优化性能。垂直文化传递在多任务学习中是一种有效的策略,可以促进不同任务间的协同进化和知识共享。

4 算法

ESTL是通过一个种群大小为30个个体的进化算法实现的,其中不同的子任务指的是各自的知识模块。它在进化算法中使用直接编码来表示权重,知识模块通过进化式多任务学习进行演化。
image.png
图中是不同的子任务使用不同部分的神经元。
进化多任务学习(Evolutionary Multi-Task Learning,简称EMTL)算法步骤如下:

  1. 定义不同的子任务:根据隐藏神经元的数量来定义不同的子任务。例如,子任务1 (p个隐藏神经元),子任务 2 (q个隐藏神经元),子任务 3 (r个隐藏神经元)。
  2. 初始化统一搜索空间中的个体
  • 随机地将每个个体与任一子任务(1、2或3)关联。
  • 评估每个子任务中的个体,直到达到终止条件。
  1. 迭代过程
  • 选择和通过交叉和变异创建新的后代。
  • 通过模仿为其创建的父代之一,将每个后代与任一子任务关联。
  • 仅评估后代与其关联的子任务。
  • 从每个子任务中选择(popsize/3)个精英个体进入下一代。
  1. 处理异质性:主要挑战是处理构成子任务的搜索空间维度的异质性。如果算法1中的三个子任务分别具有维度D1、D2和D3,则统一搜索空间的维度由Dmultitask = max{D1, D2, D3}给出。这样,统一空间中的候选解由Dmultitask个元素的向量特征。
  2. 评估个体:在评估与第j个子任务关联的个体时,只需从Dmultitask个元素的列表中提取(或参考)Dj个相关元素。
  3. 选择策略:在多任务学习环境中,每个个体与任一子任务的关联可以节省计算成本,因为对每个子任务详尽评估每个个体可能是昂贵的。在初始种群中,这些关联是随机分配的(同时确保所有子任务的均匀表示),在后续代中采用垂直文化传递策略。
  4. 算法终止:当完成至少30,000次函数评估时,算法终止。

5 实验分析

(1)实验数据集
image.png
用了6种数据集,都是2个类别的分类问题,其中的Instances是样本数。Max-FE是最大函数评估次数,表示算法在终止前允许的最大评估次数,这是用来衡量计算成本的一个指标。

  1. Ionosphere 数据集:这个数据集包含有关雷达回波的信息,用于识别大气中是否存在离子层。它通常用于二元分类任务。
  2. Cancer 数据集:这个数据集与乳腺癌有关,包含了细胞核的特征,用于预测良性或恶性肿瘤。
  3. Heart 数据集:它包含了有关心脏病患者心脏状况的特征,用于预测心脏病的风险。
  4. Tic-Tac-Toe 数据集:这个数据集基于井字游戏(Tic-Tac-Toe),包含了游戏的不同布局,用于预测游戏的结果。
  5. Balloon 数据集:这是一个较小的数据集,包含了有关热气球飞行条件的信息,用于预测飞行结果。
  6. Credit Approval 数据集:这个数据集包含了银行信用审批的记录,用于预测贷款申请是否会被批准。

(2)多任务学习与单任务学习对比
8位偶数奇偶校验问题中,使用5、6、7、8、9个神经元时多任务学习(MT)策略与单任务学习(ST)策略的收敛趋势。多任务学习策略在函数评估次数增加时,相比单任务学习策略,能够收敛到更高质量的解。这意味着多任务学习能够更有效地利用训练数据和网络结构,找到更好的网络权重配置。
image.pngimage.png
(2)不同数据集上子任务的性能对比

  • EMTL在所有相应的问题上达到了与ESTL相同的性能水平。这意味着模块化知识表示并没有导致性能质量的下降。
  • 在某些情况下,使用附加的知识模块可能会因为它们在训练中占用了计算资源而稍微降低系统的性能。然而,EMTL通过模块化学习保留了知识,并且能够在需要时利用这些模块来指导解空间的演化。

image.png

6 思考

(1)和PNN有点相似
本文的算法和《Progressive Neural Networks》中的PNN算法在多任务学习领域都旨在提高模型在面对新任务时的学习能力,同时保留之前学到的知识。本文的算法更侧重于模块化和进化策略,而PNN算法更侧重于通过增加新网络列和利用横向连接来实现知识迁移。

(2)本文的EMTL算法与反向传播(Backpropagation,简称BP)训练算法在更新网络权重方面有区别。

  1. 学习策略:
  • EMTL:采用进化算法来优化网络权重,通过模拟自然选择、交叉和变异等操作来迭代地改进解的质量。
  • 反向传播:使用梯度下降(或其他优化算法)来最小化损失函数,通过计算损失相对于权重的梯度来更新权重。
  1. 权重更新机制:
  • EMTL:权重的更新是通过遗传算子实现的,包括选择(选择性能较好的个体)、交叉(在两个或多个个体之间交换遗传信息)和变异(随机改变个体的某些部分)。
  • 反向传播:权重的更新是通过计算损失函数关于权重的偏导数来实现的,然后根据这些偏导数和学习率来调整权重。
  1. 模块化知识表示:
  • EMTL:强调模块化的知识表示,允许网络在某些模块受损时仍然保持功能,通过模块化学习可以更好地迁移和重用知识。
  • 反向传播:通常不直接处理模块化知识表示,而是在整个网络层面上统一更新权重。
  1. 全局与局部搜索:
  • EMTL:通过进化算法进行全局搜索,可能更擅长跳出局部最小值,但可能需要更多的计算资源。
  • 反向传播:通过梯度下降进行局部搜索,通常收敛速度快,但可能陷入局部最小值。
  1. 适用性:
  • EMTL:适用于结构化和模块化的网络设计,特别是当问题可以分解为多个子任务或模块时。
  • 反向传播:适用于各种类型的神经网络,特别是当问题可以通过端到端的方式直接从输入映射到输出时。
  1. 计算效率:
  • EMTL:可能需要更多的评估和迭代来找到解,因此在计算上可能不如反向传播高效。
  • 反向传播:通常计算效率更高,因为每次迭代只需要一次前向传播和一次反向传播。
  1. 泛化能力:
  • EMTL:通过模块化学习可能提高模型的泛化能力,因为每个模块可以专门学习数据的特定特征。
  • 反向传播:泛化能力取决于网络架构、正则化技术和训练数据的多样性。

(4)总结
从图5和图6可以看出来,模块化方法在性能上没有太大优势,作者所以提出的优势是,即使在某些模块受损时,网络仍然可以在安全模式下运行。基础知识模块可以在这种情况下用于操作。
注意,论文中的模块化方法不适合前馈神经网络。

目录
相关文章
|
4月前
|
机器学习/深度学习 人工智能 资源调度
【博士每天一篇文献-算法】连续学习算法之HAT: Overcoming catastrophic forgetting with hard attention to the task
本文介绍了一种名为Hard Attention to the Task (HAT)的连续学习算法,通过学习几乎二值的注意力向量来克服灾难性遗忘问题,同时不影响当前任务的学习,并通过实验验证了其在减少遗忘方面的有效性。
87 12
|
4月前
|
机器学习/深度学习 算法 计算机视觉
【博士每天一篇文献-算法】持续学习经典算法之LwF: Learning without forgetting
LwF(Learning without Forgetting)是一种机器学习方法,通过知识蒸馏损失来在训练新任务时保留旧任务的知识,无需旧任务数据,有效解决了神经网络学习新任务时可能发生的灾难性遗忘问题。
292 9
|
4月前
|
存储 机器学习/深度学习 算法
【博士每天一篇文献-算法】连续学习算法之HNet:Continual learning with hypernetworks
本文提出了一种基于任务条件超网络(Hypernetworks)的持续学习模型,通过超网络生成目标网络权重并结合正则化技术减少灾难性遗忘,实现有效的任务顺序学习与长期记忆保持。
55 4
|
4月前
|
存储 机器学习/深度学习 算法
【博士每天一篇文献-算法】连续学习算法之RWalk:Riemannian Walk for Incremental Learning Understanding
RWalk算法是一种增量学习框架,通过结合EWC++和修改版的Path Integral算法,并采用不同的采样策略存储先前任务的代表性子集,以量化和平衡遗忘和固执,实现在学习新任务的同时保留旧任务的知识。
103 3
|
1天前
|
机器学习/深度学习 算法
基于改进遗传优化的BP神经网络金融序列预测算法matlab仿真
本项目基于改进遗传优化的BP神经网络进行金融序列预测,使用MATLAB2022A实现。通过对比BP神经网络、遗传优化BP神经网络及改进遗传优化BP神经网络,展示了三者的误差和预测曲线差异。核心程序结合遗传算法(GA)与BP神经网络,利用GA优化BP网络的初始权重和阈值,提高预测精度。GA通过选择、交叉、变异操作迭代优化,防止局部收敛,增强模型对金融市场复杂性和不确定性的适应能力。
102 80
|
20天前
|
算法
基于WOA算法的SVDD参数寻优matlab仿真
该程序利用鲸鱼优化算法(WOA)对支持向量数据描述(SVDD)模型的参数进行优化,以提高数据分类的准确性。通过MATLAB2022A实现,展示了不同信噪比(SNR)下模型的分类误差。WOA通过模拟鲸鱼捕食行为,动态调整SVDD参数,如惩罚因子C和核函数参数γ,以寻找最优参数组合,增强模型的鲁棒性和泛化能力。
|
26天前
|
机器学习/深度学习 算法 Serverless
基于WOA-SVM的乳腺癌数据分类识别算法matlab仿真,对比BP神经网络和SVM
本项目利用鲸鱼优化算法(WOA)优化支持向量机(SVM)参数,针对乳腺癌早期诊断问题,通过MATLAB 2022a实现。核心代码包括参数初始化、目标函数计算、位置更新等步骤,并附有详细中文注释及操作视频。实验结果显示,WOA-SVM在提高分类精度和泛化能力方面表现出色,为乳腺癌的早期诊断提供了有效的技术支持。
|
6天前
|
供应链 算法 调度
排队算法的matlab仿真,带GUI界面
该程序使用MATLAB 2022A版本实现排队算法的仿真,并带有GUI界面。程序支持单队列单服务台、单队列多服务台和多队列多服务台三种排队方式。核心函数`func_mms2`通过模拟到达时间和服务时间,计算阻塞率和利用率。排队论研究系统中顾客和服务台的交互行为,广泛应用于通信网络、生产调度和服务行业等领域,旨在优化系统性能,减少等待时间,提高资源利用率。
|
14天前
|
存储 算法
基于HMM隐马尔可夫模型的金融数据预测算法matlab仿真
本项目基于HMM模型实现金融数据预测,包括模型训练与预测两部分。在MATLAB2022A上运行,通过计算状态转移和观测概率预测未来值,并绘制了预测值、真实值及预测误差的对比图。HMM模型适用于金融市场的时间序列分析,能够有效捕捉隐藏状态及其转换规律,为金融预测提供有力工具。
|
22天前
|
算法
基于GA遗传算法的PID控制器参数优化matlab建模与仿真
本项目基于遗传算法(GA)优化PID控制器参数,通过空间状态方程构建控制对象,自定义GA的选择、交叉、变异过程,以提高PID控制性能。与使用通用GA工具箱相比,此方法更灵活、针对性强。MATLAB2022A环境下测试,展示了GA优化前后PID控制效果的显著差异。核心代码实现了遗传算法的迭代优化过程,最终通过适应度函数评估并选择了最优PID参数,显著提升了系统响应速度和稳定性。