【博士每天一篇文献-模型】Meta-Learning Based Tasks Similarity Representation for Cross Domain Lifelong Learning

简介: 本文提出了一种基于元学习的跨域终身学习框架,通过跨域三元组网络(CDTN)学习任务间的相似性表示,并结合自注意模块与软注意网络(SAN)来增强特征提取和任务权重分配,以提高学习效率并减少对先前知识的遗忘。

阅读时间:2023-10-23

1 介绍

年份:2023
作者:沈明格,陈德虎,滕仁。温州自然灾害立体智能监测预警重点实验室,温州工业大学
期刊:IEEE Access
引用量:0
作者提出了一种新颖的终身学习框架,利用元学习来学习任务之间的相似性表示,并防止遗忘先前的知识。该框架包括一个跨域三元组网络(CDTN),用于学习域不变的相似性表示,一个自注意模块,用于增强相似性特征的提取,以及一个软注意网络(SAN),根据学习到的相似性表示为任务分配不同的权重。
垃圾论文,太水了,文献标注全是错的,牛头不对马嘴。

2 相关研究

ICARL算法【 icarl: Incremental classifier and represen tation learning】,该算法使用教师网络和学生网络,以少量训练样本快速收敛所有已学习的任务。这种方法在学习新任务时只需要存储前一任务的少量样本,从而减少了存储开销。
GEM【 Gradient episodic memory for continual learning.】存储先前任务的梯度,确保新任务的梯度更新与先前任务正交。这减少了先前知识的干扰。
LwF 【 Learning without forgetting】限制只对与先前任务一致的参数进行更改。EWC 【Overcoming catastrophic forgetting in neural networks】使用先前训练的Fisher信息矩阵来衡量参数的重要性。然而,当任务很多时,这种方法可能会对网络造成过多的限制,并阻碍新的学习。一些方法,如SI算法[45],通过考虑从先前任务到新任务的参数变化来解决这个问题。
【‘‘ITAML: An incremental task-agnostic meta-learning approach,’’ in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2020】将元学习方法应用于获取通用参数,这些参数不特定于旧任务或新任务,以防止灾难性遗忘。
【Experience replay for continual learning,’’ in Proc. Adv. Neural Inf. Process. Syst., vol. 32, 2019】经验重放。

3 创新点

采用元学习的方法,设计了一个跨领域三元组网络(CDTN),用于学习领域不变的相似性表示。该网络通过自注意机制,加强相似性特征的提取,并通过软注意网络(SAN)根据学习到的相似性表示为不同任务分配不同的权重。

4 模型

第一阶段中,跨领域三元组网络(CDTN)可以学习任务的相似性表示,不仅在相同领域中,而且在不同领域中。使用最大平均差异(MMD)来衡量跨领域分布差异。
在第二阶段,提议了一个软注意力网络(SAN),根据任务的相似性信息获取任务的具体注意力图。
LFEM模型中,特征图A首先通过三个1×1卷积层转换为B、C和D。然后,B和C被重新排列并相乘,通过Softmax函数获得注意力图S。最后,特征图D与S相乘,得到的特征图与A相加,得到最终的特征图E。
最后SAN使用交叉熵损失和随机梯度下降 (SGD) 来训练。
0.png

5 实验结果分析

(1)性能评估
评价指标:平均准确率AA、平均遗忘率AF
1.png
PackNet [12]和HAT [71]的容量有限,在新任务上的表现比我们的方法差。但它们通过锁定任务参数使用掩码来保留所有知识。EWC [7]和IMM [72]随着时间的推移仍然会遗忘。GEM [41]和ICARL [9]也会有一定程度的遗忘,但它们需要存储新任务的训练样本,这需要更多的空间。
(2)模型容量的影响
具有高容量的模型可以学习更多的任务。
2.png
当学习新任务时,会使用更多的权重。在训练过程中,使用率会首先缓慢下降,然后加快直到停止。这意味着网络可以缩小10%到50%,这取决于任务。当学习第四个任务时,使用的新参数较少,因为它与任务2相似。该方法利用任务相似性来改善学习。但是,在学习第8个任务时,没有类似的任务之前,前5个任务的使用量增加了约10%。与学习相似任务时相比,该方法使用的参数比PackNet少25%到80%,使用的参数比HAT少15%到70%。
3.png
表中显示了模型在多任务分类方面的表现。即使在CIFAR-100数据集中学习10个任务时,准确率也保持一致,没有忘记。当添加更多任务时,旧任务变得更好。这是因为该方法使用任务之间的相似性和来自损失函数的稀疏性来连续学习多个任务。
(3) 消融研究ablation study
仅有CDTN使平均准确率提高了约4%,平均遗忘率减少了近0.2%。这表明任务相似性信息有助于学习新任务。此外,在终身学习步骤中使用的LLEF将平均准确率提高了超过2%,证明了LLEF的非常有效。

6 思考

(1)第一阶段的元学习部分是如何实现的
具体的实现步骤是如何的?需要阅读代码进一步了解。
(2)模型的容量是怎么去评估的?如何计算得到当前任务下的模型容量是多少?

目录
相关文章
|
10月前
|
存储 JSON 算法
【论文代码】②.1 STIOCS: Active learning-based semi-supervised training framework for IOC extraction
【论文代码】②.1 STIOCS: Active learning-based semi-supervised training framework for IOC extraction
47 0
|
10月前
|
自然语言处理
【论文代码】① STIOCS: Active learning-based semi-supervised training framework for IOC extraction
【论文代码】① STIOCS: Active learning-based semi-supervised training framework for IOC extraction
62 0
|
机器学习/深度学习 编解码 数据可视化
Speech Emotion Recognition With Local-Global aware Deep Representation Learning论文解读
语音情感识别(SER)通过从语音信号中推断人的情绪和情感状态,在改善人与机器之间的交互方面发挥着至关重要的作用。尽管最近的工作主要集中于从手工制作的特征中挖掘时空信息,但我们探索如何从动态时间尺度中建模语音情绪的时间模式。
178 0
|
人工智能 自然语言处理 算法
【论文精读】AAAI 2022 - OneRel Joint Entity and Relation Extraction with One Module in One Step
联合实体和关系提取是自然语言处理和知识图构建中的一项重要任务。现有的方法通常将联合提取任务分解为几个基本模块或处理步骤,以使其易于执行
271 0
|
机器学习/深度学习 传感器 数据挖掘
Review on the Recent Welding Research with Application of CNN-Based Deep Learning
Guo等人16)将CNN应用于线管制造过程中的电阻焊,提出了一种正常焊缝与缺陷焊缝的分类模型,准确率达到99.01%。
121 0
|
机器学习/深度学习
【论文阅读】(2019)SimGNN:A Neural Network Approach to Fast Graph Similarity Computation
- 图形相似性搜索是最重要的基于图形的应用程序之一,例如查找与查询化合物最相似的化合物。 - 图相似性距离计算,如图编辑距离(GED)和最大公共子图(MCS),是图相似性搜索和许多其他应用程序的核心操作,但实际计算成本很高。 - 受神经网络方法最近成功应用于若干图形应用(如节点或图形分类)的启发,我们提出了一种新的基于神经网络的方法来解决这一经典但具有挑战性的图形问题,**旨在减轻计算负担,同时保持良好的性能**。 - 提出的**方法称为SimGNN**,它结合了两种策略。 - 首先,我们**设计了一个可学习的嵌入函数**,将每个图映射到一个嵌入向量中,从而提供图的全局摘要。**提出了一种新的
312 0
【论文阅读】(2019)SimGNN:A Neural Network Approach to Fast Graph Similarity Computation
|
自然语言处理 数据挖掘 知识图谱
Re31:读论文 metapath2vec: Scalable Representation Learning for Heterogeneous Networks
Re31:读论文 metapath2vec: Scalable Representation Learning for Heterogeneous Networks
Re31:读论文 metapath2vec: Scalable Representation Learning for Heterogeneous Networks
|
机器学习/深度学习
Re22:读论文 HetSANN An Attention-based Graph Neural Network for Heterogeneous Structural Learning
Re22:读论文 HetSANN An Attention-based Graph Neural Network for Heterogeneous Structural Learning
Re22:读论文 HetSANN An Attention-based Graph Neural Network for Heterogeneous Structural Learning
|
算法 数据挖掘 TensorFlow
Re3:读论文 PGE A Representation Learning Framework for Property Graphs
Re3:读论文 PGE A Representation Learning Framework for Property Graphs
Re3:读论文 PGE A Representation Learning Framework for Property Graphs
|
机器学习/深度学习 自然语言处理 搜索推荐
【推荐系统论文精读系列】(九)--Product-based Neural Networks for User Response Prediction
预测用户的反应,如点击和转换,是非常重要的,并已发现它在许多网络应用程序中使用,包括推荐系统、网络搜索和在线广告。这些应用程序中的数据大多是分类的,包含多个字段;典型的表示是通过一个热编码将其转换为高维稀疏二进制特征表示。面对极端稀疏性,传统模型可能会限制其从数据中挖掘浅层模式的能力,即低阶特征组合。另一方面,像深度神经网络这样的深度模型由于其巨大的特征空间而不能直接应用于高维输入。在本文中,我们提出了一种基于产品的神经网络(PNN),其嵌入层用于学习分类数据的分布式表示,产品层用于捕获场间类别之间的交互模式,以及进一步的全连接层用于探索高阶特征交互。我们在两个大规模真实世界广告点击数据集上的
294 0
【推荐系统论文精读系列】(九)--Product-based Neural Networks for User Response Prediction