少样本学习系列(三)【Optimization-Based Methods】

简介: 少样本学习系列(三)【Optimization-Based Methods】

大多数深度学习算法都采用基于梯度的方法做优化,但是这种方式需要大量的sample来更新算法,元学习(learn to learn)算法主要是解决算法如何在任意的loss function下收敛,而不是单个taskloss function。这样的算法提取的是更高层次的信息。

  在基于梯度的优化算法里面,如果我们通过某种方式知道了整个的概率分布,那么就可以通过很少次迭代得到最优的那个值,但是因为现在的算法大部分时间都在期望网络自己通过数据去学这个分布,因此就会比较慢。这也正是optimization-based算法来解决的问题。


Model-agnostic meta-learning (MAML)


  Model-agnostic meta-learning (MAML)通过为每个task提供一个更好的初始化参数来做到这件事情。如何做到这件事情呢?一种方式是在不同的tasktrain网络,当给定一个新的task时,此时的网络就已经有个一个较好的初始化参数了,因此很少的迭代次数就能有较好的效果。

  如上图所示实线θ \thetaθ表示为meta learning学习得到的初始化参数,然后对应不同的task,就能够很快地适应找到对应task的参数,如虚线所示。

  model-agnostic meta-learning可以被用到任意的一种model算法中,像分类、回归、强化学习等。

  假设我们想要依据MAML做一个分类模型f θ ,步骤如下:

image.png

 这种方式比Siamese networksmatching networksmemory-augmented neural networksOmniglotmini-ImageNet的效果都要好。


LSTM Meta-Learner


  LSTM Meta-Learner训练一个LSTM学习如何更新。

  常见的梯度更新方式为:


image.png


 其中θ t是在时刻t tt的参数,∇ L t 是在时刻t ttloss梯度,α t是时刻t 的学习率。

  LSTM cell的更新方式为:

image.png


cell-update equationgradient descent update很像,可以看作:


image.png

LSTM meta-learner algorithm

image.png


 算法结构如下图所示:



相关文章
|
机器学习/深度学习 开发框架 .NET
YOLOv5的Tricks | 【Trick6】学习率调整策略(One Cycle Policy、余弦退火等)
YOLOv5的Tricks | 【Trick6】学习率调整策略(One Cycle Policy、余弦退火等)
2001 0
YOLOv5的Tricks | 【Trick6】学习率调整策略(One Cycle Policy、余弦退火等)
|
20天前
|
算法 数据挖掘
K-means聚类算法是如何实现的?
K-Means算法包括:随机选K个初始质心,将数据点分配到最近质心的簇,更新簇均值作为新质心,重复此过程直到质心变化足够小或达到最大迭代次数。对初始选择敏感,需多次运行取最优结果。
9 0
|
10月前
|
机器学习/深度学习 数据采集 计算机视觉
少样本学习系列(一)【Metrics-Based Methods】
少样本学习系列(一)【Metrics-Based Methods】
|
10月前
|
机器学习/深度学习 算法 网络架构
少样本学习系列(二)【Model-Based Methods】
少样本学习系列(二)【Model-Based Methods】
|
10月前
|
机器学习/深度学习 自然语言处理 索引
GTEE-DYNPREF: Dynamic Prefix-Tuning for Generative Template-based Event Extraction 论文解读
我们以基于模板的条件生成的生成方式考虑事件抽取。尽管将事件抽取任务转换为带有提示的序列生成问题的趋势正在上升,但这些基于生成的方法存在两个重大挑战
84 0
|
机器学习/深度学习 自然语言处理 JavaScript
R-Drop: Regularized Dropout for Neural Networks 论文笔记(介绍,模型结构介绍、代码、拓展KL散度等知识)
R-Drop: Regularized Dropout for Neural Networks 论文笔记(介绍,模型结构介绍、代码、拓展KL散度等知识)
|
机器学习/深度学习 编解码 固态存储
Single Shot MultiBox Detector论文翻译【修改】
Single Shot MultiBox Detector论文翻译【修改】
77 0
Single Shot MultiBox Detector论文翻译【修改】
|
Shell 计算机视觉
2022亚太建模A题Feature Extraction of Sequence Images and Modeling Analysis of Mold Flux Melting and Crystallization思路分析
2022 亚太建模A题序列图像的特征提取与建模分析 模具流量的熔融和结晶Feature Extraction of Sequence Images and Modeling Analysis of Mold Flux Melting and Crystallization
2022亚太建模A题Feature Extraction of Sequence Images and Modeling Analysis of Mold Flux Melting and Crystallization思路分析
|
人工智能 算法 数据挖掘
K-Means 算法_1|学习笔记
快速学习 K-Means 算法_1
92 0
K-Means 算法_1|学习笔记
|
人工智能 算法 数据挖掘
K-Means 算法性能评价|学习笔记
快速学习 K-Means 算法性能评价
112 0
K-Means 算法性能评价|学习笔记

热门文章

最新文章