少样本学习系列(三)【Optimization-Based Methods】

简介: 少样本学习系列(三)【Optimization-Based Methods】

大多数深度学习算法都采用基于梯度的方法做优化,但是这种方式需要大量的sample来更新算法,元学习(learn to learn)算法主要是解决算法如何在任意的loss function下收敛,而不是单个taskloss function。这样的算法提取的是更高层次的信息。

  在基于梯度的优化算法里面,如果我们通过某种方式知道了整个的概率分布,那么就可以通过很少次迭代得到最优的那个值,但是因为现在的算法大部分时间都在期望网络自己通过数据去学这个分布,因此就会比较慢。这也正是optimization-based算法来解决的问题。


Model-agnostic meta-learning (MAML)


  Model-agnostic meta-learning (MAML)通过为每个task提供一个更好的初始化参数来做到这件事情。如何做到这件事情呢?一种方式是在不同的tasktrain网络,当给定一个新的task时,此时的网络就已经有个一个较好的初始化参数了,因此很少的迭代次数就能有较好的效果。

  如上图所示实线θ \thetaθ表示为meta learning学习得到的初始化参数,然后对应不同的task,就能够很快地适应找到对应task的参数,如虚线所示。

  model-agnostic meta-learning可以被用到任意的一种model算法中,像分类、回归、强化学习等。

  假设我们想要依据MAML做一个分类模型f θ ,步骤如下:

image.png

 这种方式比Siamese networksmatching networksmemory-augmented neural networksOmniglotmini-ImageNet的效果都要好。


LSTM Meta-Learner


  LSTM Meta-Learner训练一个LSTM学习如何更新。

  常见的梯度更新方式为:


image.png


 其中θ t是在时刻t tt的参数,∇ L t 是在时刻t ttloss梯度,α t是时刻t 的学习率。

  LSTM cell的更新方式为:

image.png


cell-update equationgradient descent update很像,可以看作:


image.png

LSTM meta-learner algorithm

image.png


 算法结构如下图所示:



目录
打赏
0
0
0
0
26
分享
相关文章
YOLOv5的Tricks | 【Trick6】学习率调整策略(One Cycle Policy、余弦退火等)
YOLOv5的Tricks | 【Trick6】学习率调整策略(One Cycle Policy、余弦退火等)
3269 0
YOLOv5的Tricks | 【Trick6】学习率调整策略(One Cycle Policy、余弦退火等)
【提示学习】HPT: Hierarchy-aware Prompt Tuning for Hierarchical Text Classification
本文是较早把Prompt应用到层级多标签文本分类领域的论文。思路是把层级标签分层编入到Pattern中,然后修改损失函数以适应多标签的分类任务。
350 0
轻量级网络论文精度笔(一):《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》
《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》这篇论文提出了一种基于YOLOv3-Tiny的轻量级目标检测模型Micro-YOLO,通过渐进式通道剪枝和轻量级卷积层,显著减少了参数数量和计算成本,同时保持了较高的检测性能。
244 2
轻量级网络论文精度笔(一):《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》
【论文代码】②.1 STIOCS: Active learning-based semi-supervised training framework for IOC extraction
【论文代码】②.1 STIOCS: Active learning-based semi-supervised training framework for IOC extraction
58 0
R语言如何做马尔可夫转换模型markov switching model
R语言如何做马尔可夫转换模型markov switching model
R语言如何做马尔科夫转换模型markov switching model
R语言如何做马尔科夫转换模型markov switching model
【论文代码】① STIOCS: Active learning-based semi-supervised training framework for IOC extraction
【论文代码】① STIOCS: Active learning-based semi-supervised training framework for IOC extraction
69 0
GTEE-DYNPREF: Dynamic Prefix-Tuning for Generative Template-based Event Extraction 论文解读
我们以基于模板的条件生成的生成方式考虑事件抽取。尽管将事件抽取任务转换为带有提示的序列生成问题的趋势正在上升,但这些基于生成的方法存在两个重大挑战
212 0
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等