贝叶斯优化(Bayesian Optimization)深入理解

简介: 目前在研究Automated Machine Learning,其中有一个子领域是实现网络超参数自动化搜索,而常见的搜索方法有Grid Search、Random Search以及贝叶斯优化搜索。前两者很好理解,这里不会详细介绍。

目前在研究Automated Machine Learning,其中有一个子领域是实现网络超参数自动化搜索,而常见的搜索方法有Grid Search、Random Search以及贝叶斯优化搜索。前两者很好理解,这里不会详细介绍。本文将主要解释什么是体统(沉迷延禧攻略2333),不对应该解释到底什么是贝叶斯优化。

I Grid Search & Random Search

我们都知道神经网络训练是由许多超参数决定的,例如网络深度,学习率,卷积核大小等等。所以为了找到一个最好的超参数组合,最直观的的想法就是Grid Search,其实也就是穷举搜索,示意图如下。

但是我们都知道机器学习训练模型是一个非常耗时的过程,而且现如今随着网络越来越复杂,超参数也越来越多,以如今计算力而言要想将每种可能的超参数组合都实验一遍(即Grid Search)明显不现实,所以一般就是事先限定若干种可能,但是这样搜索仍然不高效。

所以为了提高搜索效率,人们提出随机搜索,示意图如下。虽然随机搜索得到的结果互相之间差异较大,但是实验证明随机搜索的确比网格搜索效果要好。

II Bayesian Optimization

假设一组超参数组合是X=x1,x2,...,xn(xn表示某一个超参数的值),而这组超参数与最后我们需要优化的损失函数存在一个函数关系,我们假设是f(X)

而目前机器学习其实是一个黑盒子(black box),即我们只知道input和output,所以上面的函数f很难确定。所以我们需要将注意力转移到一个我们可以解决的函数上去,下面开始正式介绍贝叶斯优化。

假设我们有一个函数f:XR,我们需要在XX内找到

x=argminxXf(x)

f是凸函数且定义域X也是凸的时候,我们可以通过已被广泛研究的凸优化来处理,但是f并不一定是凸的,而且在机器学习中f通常是expensive black-box function,即计算一次需要花费大量资源。那么贝叶斯优化是如何处理这一问题的呢?

1. 详细算法

Sequential model-based optimization (SMBO) 是贝叶斯优化的最简形式,其算法思路如下:

下面详细介绍一下上图中的算法:

1. Input:

  • f: 就是那个所谓的黑盒子
  • X:是输入数据,例如图像、语音等。
  • S:是Acquisition Function(采集函数),这个函数的作用是用来选择公式(1)中的x,后面会详细介绍这个函数。
  • M:是基于输入数据假设的模型,即已知的输入数据x都是在这个模型上的,可以用来假设的模型有很多种,例如随机森林,Tree Parzen Estimators(想要了解这两种的可以阅读参考文献[1])等,但是本文主要介绍高斯模型

2. InitSamples(f,x)→D

这一步骤就是初始化获取数据集D=(X1,Y1),...,(Xn,Yn),其中Yi=f(Xi),这些都是已知的。

3. 循环选参数T

因为每次选出参数x后都需要计算f(x),而正如前面介绍的没计算一次函数f,都会消耗大量资源,所以一般需要固定选参次数(或者是函数评估次数)

  • p(y|x,D)FITMODEL(M,D)

首先我们预先假设了模型M服从高斯分布,且已知了数据集D,所以可以通过计算得出具体的模型具体函数表示。假设下图中的绿色实现就是基于数据集D经过计算后的服从高斯分布模型。可以看到Each additional band of green is another half standard deviation on the output distribution.

那么高斯分布是如何计算的呢?

因为我们已经假设f~GP(μ,K)。 (GP:高斯过程,μ:均值 K:协方差kernel,)。所以预测也是服从正态分布的,即有p(y|x,D)=N(y|ˆμ,ˆσ2)

  • xiargmaxxXS(X,p(y|X,D))

现在已经将假设的模型计算出来了,那么下一步我们需要基于假设模型的基础上选择满足公式(1)的参数了,也就是选择X,那么如何选择呢?这就涉及到了Acquisition Function,为了让文章篇幅更易阅读,想了解Acquisition Function移步到文末。

  • yif(xi)

既然参数选出来了,那么当然就是要计算咯。例如我们通过上述步骤已经选出了一组超参数xi,那么我们下一步就是将超参数带入网络中去进行训练,最后得到输出yi。这一步骤虽然expensive,但是没办法还是得走啊。

  • DD(xi,yi)

更新数据集。

2. Acquisition Function

Acquisition Function的选择可以有很多种,下面将分别介绍不同的AC function。

1) Probability of improvement

假设f=minf,这个f表示目前已知的f的最小值。

然后定义utility function如下:
u(x)={o,if f(x)>f1,if f(x)f 

其实也可以把上面的u(x)理解成一个reward函数,如果f(x)不大于f'就有奖励,反之没有。

probability of improvement acquisition function定义为the expected utility as a function of x:

aPI(x)=E[u(x)|x,D]=fN(f;μ(x),K(x,x))df=Φ(f;μ(x),K(x,x))

之后只需要求出a(x)的最大值即可求出基于高斯分布的满足要求的x

2) Excepted improvement

上面的AC function有个缺点就是找到的x可能是局部最优点,所以有了Excepted improvement。f的定义和上面一样,即f=minf。utility function定义如下:

u(x)=max(0,ff(x))

因为我们最初的目的是找到使得f(x)最小的x,所以这个utility function的含义很好理解,即接下来找到的f(x)比已知最小的f越小越好,然后选出小的程度最大的那个f(x)f之间的差距的绝对值作为奖励,如果没有更小的那么奖励则为0.

AC function定义如下:

aEI(x)=E[u(x)|x,D]=f(ff)N(f;μ(x),K(x,x))df=(fμ(x))Φ(f;μ(x),K(x,x))+K(x,x)N(f;μ(x),K(x,x))

通过计算使得aEI值最大的点即为最优点。

上式中有两个组成部分。要使得上式值最大则需要同时优化左右两个部分:

  • 左边需要尽可能的减少μ(x)
  • 右边需要尽可能的增大方差(或协方差)K(x,x)

但是二者并不同能是满足,所以这是一个exploitation-exploration tradeoff。

3) Entropy search

4) Upper confidence bound

Reference



MARSGGBO原创





2018-10-28



目录
打赏
0
0
0
0
11
分享
相关文章
Python中使用Gradient Boosting Decision Trees (GBDT)进行特征重要性分析
Python中使用Gradient Boosting Decision Trees (GBDT)进行特征重要性分析
282 0
YOLOv5的Tricks | 【Trick9】模型剪枝处理与Pytorch实现的剪枝策略
在yolov5项目中的torch_utils.py文件下,有prune这个函数,用来实现模型的剪枝处理。对模型裁剪,模型剪枝这方面之前没有接触到,这里用这篇笔记来学习记录一下这方面内容。
2347 0
YOLOv5的Tricks | 【Trick9】模型剪枝处理与Pytorch实现的剪枝策略
机器学习算法之——梯度提升(Gradient Boosting)上
由于每个子模型要使用全部的数据集进行训练,因此 Ada Boosting 算法中没有 oob 数据集,在使用 Ada Boosting 算法前,需要划分数据集:train_test_split;
机器学习算法之——梯度提升(Gradient Boosting)上
机器学习算法之——梯度提升(Gradient Boosting)下
GDBT本身并不复杂,不过要吃透的话需要对集成学习的原理、策树原理和各种损失函树有一定的了解。由于GBDT的卓越性能,只要是研究机器学习都应该掌握这个算法,包括背后的原理和应用调参方法。目前GBDT的算法比较好的库是xgboost。当然scikit-learn也可以。
机器学习算法之——梯度提升(Gradient Boosting)下
目标检测的Tricks | 【Trick5】学习率调优方法——warmup
目标检测的Tricks | 【Trick5】学习率调优方法——warmup
656 0
目标检测的Tricks | 【Trick5】学习率调优方法——warmup
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等