少样本学习系列(三)【Optimization-Based Methods】

简介: 少样本学习系列(三)【Optimization-Based Methods】

大多数深度学习算法都采用基于梯度的方法做优化,但是这种方式需要大量的sample来更新算法,元学习(learn to learn)算法主要是解决算法如何在任意的loss function下收敛,而不是单个taskloss function。这样的算法提取的是更高层次的信息。

  在基于梯度的优化算法里面,如果我们通过某种方式知道了整个的概率分布,那么就可以通过很少次迭代得到最优的那个值,但是因为现在的算法大部分时间都在期望网络自己通过数据去学这个分布,因此就会比较慢。这也正是optimization-based算法来解决的问题。


Model-agnostic meta-learning (MAML)


  Model-agnostic meta-learning (MAML)通过为每个task提供一个更好的初始化参数来做到这件事情。如何做到这件事情呢?一种方式是在不同的tasktrain网络,当给定一个新的task时,此时的网络就已经有个一个较好的初始化参数了,因此很少的迭代次数就能有较好的效果。

  如上图所示实线θ \thetaθ表示为meta learning学习得到的初始化参数,然后对应不同的task,就能够很快地适应找到对应task的参数,如虚线所示。

  model-agnostic meta-learning可以被用到任意的一种model算法中,像分类、回归、强化学习等。

  假设我们想要依据MAML做一个分类模型f θ ,步骤如下:

image.png

 这种方式比Siamese networksmatching networksmemory-augmented neural networksOmniglotmini-ImageNet的效果都要好。


LSTM Meta-Learner


  LSTM Meta-Learner训练一个LSTM学习如何更新。

  常见的梯度更新方式为:


image.png


 其中θ t是在时刻t tt的参数,∇ L t 是在时刻t ttloss梯度,α t是时刻t 的学习率。

  LSTM cell的更新方式为:

image.png


cell-update equationgradient descent update很像,可以看作:


image.png

LSTM meta-learner algorithm

image.png


 算法结构如下图所示:



相关文章
|
机器学习/深度学习 开发框架 .NET
YOLOv5的Tricks | 【Trick6】学习率调整策略(One Cycle Policy、余弦退火等)
YOLOv5的Tricks | 【Trick6】学习率调整策略(One Cycle Policy、余弦退火等)
2592 0
YOLOv5的Tricks | 【Trick6】学习率调整策略(One Cycle Policy、余弦退火等)
|
1月前
|
机器学习/深度学习 Web App开发 人工智能
轻量级网络论文精度笔(一):《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》
《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》这篇论文提出了一种基于YOLOv3-Tiny的轻量级目标检测模型Micro-YOLO,通过渐进式通道剪枝和轻量级卷积层,显著减少了参数数量和计算成本,同时保持了较高的检测性能。
33 2
轻量级网络论文精度笔(一):《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》
|
1月前
|
机器学习/深度学习 人工智能 编解码
论文精度笔记(一):《ZERO-SHOT DETECTION WITH TRANSFERABLE OBJECT PROPOSAL MECHANISM》
本论文提出了一种零样本检测方法,通过引入可转移的对象候选机制来关联类别间的共现关系,并使用所有类的置信度分布进行对象置信度预测,以提高对未见类别物体的检测性能。
32 3
论文精度笔记(一):《ZERO-SHOT DETECTION WITH TRANSFERABLE OBJECT PROPOSAL MECHANISM》
|
3月前
|
机器学习/深度学习 算法
【文献学习】Channel Estimation Method Based on Transformer in High Dynamic Environment
一种基于CNN和Transformer的信道估计方法,用于在高度动态环境中跟踪信道变化特征,并通过实验结果展示了其相比传统方法的性能提升。
57 0
|
6月前
|
vr&ar
R语言如何做马尔可夫转换模型markov switching model
R语言如何做马尔可夫转换模型markov switching model
|
机器学习/深度学习 数据采集 计算机视觉
少样本学习系列(一)【Metrics-Based Methods】
少样本学习系列(一)【Metrics-Based Methods】
154 0
|
机器学习/深度学习 算法 网络架构
少样本学习系列(二)【Model-Based Methods】
少样本学习系列(二)【Model-Based Methods】
|
计算机视觉 Python
Ha-NeRF: Hallucinated Neural Radiance Fields in the Wild 代码复现与解读
Ha-NeRF: Hallucinated Neural Radiance Fields in the Wild 代码复现与解读
174 0
sbs
|
存储 SQL 人工智能
The Volcano Optimizer Generator: Extensibility and Efficient Search 论文翻译
原文:The Volcano Optimizer Generator: Extensibility and Efficient SearchThe Volcano Optimizer Generator: Extensibility and Efficient Search 论文翻译。2023.01.25 —— by zz【中括号内为译者注】对原文部分关键术语,或重点句有加粗。便于定位。为了避免英
sbs
255 0
The Volcano Optimizer Generator: Extensibility and Efficient Search 论文翻译
|
算法 数据挖掘 计算机视觉
YOLOv5的Tricks | 【Trick5】遗传算法实现超参数进化(Hyperparameter Evolution)
YOLOv5的Tricks | 【Trick5】遗传算法实现超参数进化(Hyperparameter Evolution)
790 0
YOLOv5的Tricks | 【Trick5】遗传算法实现超参数进化(Hyperparameter Evolution)