贝叶斯优化(Bayesian Optimization)深入理解

简介: 目前在研究Automated Machine Learning,其中有一个子领域是实现网络超参数自动化搜索,而常见的搜索方法有Grid Search、Random Search以及贝叶斯优化搜索。前两者很好理解,这里不会详细介绍。

目前在研究Automated Machine Learning,其中有一个子领域是实现网络超参数自动化搜索,而常见的搜索方法有Grid Search、Random Search以及贝叶斯优化搜索。前两者很好理解,这里不会详细介绍。本文将主要解释什么是体统(沉迷延禧攻略2333),不对应该解释到底什么是贝叶斯优化。

I Grid Search & Random Search

我们都知道神经网络训练是由许多超参数决定的,例如网络深度,学习率,卷积核大小等等。所以为了找到一个最好的超参数组合,最直观的的想法就是Grid Search,其实也就是穷举搜索,示意图如下。

但是我们都知道机器学习训练模型是一个非常耗时的过程,而且现如今随着网络越来越复杂,超参数也越来越多,以如今计算力而言要想将每种可能的超参数组合都实验一遍(即Grid Search)明显不现实,所以一般就是事先限定若干种可能,但是这样搜索仍然不高效。

所以为了提高搜索效率,人们提出随机搜索,示意图如下。虽然随机搜索得到的结果互相之间差异较大,但是实验证明随机搜索的确比网格搜索效果要好。

II Bayesian Optimization

假设一组超参数组合是\(X={x_1,x_2,...,x_n}\)(\(x_n\)表示某一个超参数的值),而这组超参数与最后我们需要优化的损失函数存在一个函数关系,我们假设是\(f(X)\)

而目前机器学习其实是一个黑盒子(black box),即我们只知道input和output,所以上面的函数\(f\)很难确定。所以我们需要将注意力转移到一个我们可以解决的函数上去,下面开始正式介绍贝叶斯优化。

假设我们有一个函数\(f:\cal{X}→\Bbb{R}\),我们需要在\(X\subseteq\cal{X}\)内找到

\(x^*=\underset{x\in X}{\operatorname{argmin}}f(x) \tag{1}\)

\(f\)是凸函数且定义域\(X\)也是凸的时候,我们可以通过已被广泛研究的凸优化来处理,但是\(f\)并不一定是凸的,而且在机器学习中\(f\)通常是expensive black-box function,即计算一次需要花费大量资源。那么贝叶斯优化是如何处理这一问题的呢?

1. 详细算法

Sequential model-based optimization (SMBO) 是贝叶斯优化的最简形式,其算法思路如下:

下面详细介绍一下上图中的算法:

1. Input:

  • \(f\): 就是那个所谓的黑盒子
  • \(\cal{X}\):是输入数据,例如图像、语音等。
  • \(S\):是Acquisition Function(采集函数),这个函数的作用是用来选择公式(1)中的\(x\),后面会详细介绍这个函数。
  • \(\cal{M}\):是基于输入数据假设的模型,即已知的输入数据\(x\)都是在这个模型上的,可以用来假设的模型有很多种,例如随机森林,Tree Parzen Estimators(想要了解这两种的可以阅读参考文献[1])等,但是本文主要介绍高斯模型

2. InitSamples(f,x)→D

这一步骤就是初始化获取数据集\(\cal{D}={(X_1,Y_1),...,(X_n,Y_n)}\),其中\(Y_i=f(X_i)\),这些都是已知的。

3. 循环选参数\(T\)

因为每次选出参数\(x\)后都需要计算\(f(x)\),而正如前面介绍的没计算一次函数\(f\),都会消耗大量资源,所以一般需要固定选参次数(或者是函数评估次数)

  • \(p(y|x,D)←FITMODEL(M,D)\)

首先我们预先假设了模型\(\cal{M}\)服从高斯分布,且已知了数据集\(\cal{D}\),所以可以通过计算得出具体的模型具体函数表示。假设下图中的绿色实现就是基于数据集\(\cal{D}\)经过计算后的服从高斯分布模型。可以看到Each additional band of green is another half standard deviation on the output distribution.

那么高斯分布是如何计算的呢?

因为我们已经假设\(f\)~\(GP(μ,K)\)。 (GP:高斯过程,μ:均值 K:协方差kernel,)。所以预测也是服从正态分布的,即有\(p(y|x,D)=\cal{N}(y|\hat{μ},\hat{σ}^2)\)

  • \(x_i←\underset{x\in X}{\operatorname{argmax}}S(X,p(y|X,D))\)

现在已经将假设的模型计算出来了,那么下一步我们需要基于假设模型的基础上选择满足公式(1)的参数了,也就是选择\(X\),那么如何选择呢?这就涉及到了Acquisition Function,为了让文章篇幅更易阅读,想了解Acquisition Function移步到文末。

  • \(y_i←f(x_i)\)

既然参数选出来了,那么当然就是要计算咯。例如我们通过上述步骤已经选出了一组超参数\(x_i\),那么我们下一步就是将超参数带入网络中去进行训练,最后得到输出\(y_i\)。这一步骤虽然expensive,但是没办法还是得走啊。

  • \(D←D \bigcup{(x_i,y_i)}\)

更新数据集。

2. Acquisition Function

Acquisition Function的选择可以有很多种,下面将分别介绍不同的AC function。

1) Probability of improvement

假设\(f'=min \, f\),这个\(f'\)表示目前已知的\(f\)的最小值。

然后定义utility function如下:
\[ u(x) = \begin{cases} o, & \text{if $f(x)>f'$} \\ 1, & \text{if $f(x)≤f'$ } \end{cases} \]

其实也可以把上面的\(u(x)\)理解成一个reward函数,如果f(x)不大于f'就有奖励,反之没有。

probability of improvement acquisition function定义为the expected utility as a function of x:

\[ \begin{align} a_{PI}(x)=E[u(x)|x,D] & = \int_{-∞}^{f'}\cal{N}(f;μ(x),K(x,x))df \notag{} \\ & = \cal{\Phi}(f';μ(x),K(x,x)) \notag{} \end{align} \]

之后只需要求出\(a(x)\)的最大值即可求出基于高斯分布的满足要求的\(x\)

2) Excepted improvement

上面的AC function有个缺点就是找到的\(x\)可能是局部最优点,所以有了Excepted improvement。\(f'\)的定义和上面一样,即\(f'=min \, f\)。utility function定义如下:

\[u(x)=max(0,f'-f(x))\]

因为我们最初的目的是找到使得f(x)最小的x,所以这个utility function的含义很好理解,即接下来找到的\(f(x)\)比已知最小的\(f'\)越小越好,然后选出小的程度最大的那个\(f(x)\)\(f'\)之间的差距的绝对值作为奖励,如果没有更小的那么奖励则为0.

AC function定义如下:

\[ \begin{align} a_{EI}(x)=E[u(x)|x,D] & = \int_{-∞}^{f'}(f'-f)\cal{N}(f;μ(x),K(x,x))df \notag{} \\ & = (f'-μ(x))\cal{\Phi}(f';μ(x),K(x,x)) \, + \, K(x,x)\cal{N}(f';μ(x),K(x,x)) \notag{} \end{align} \]

通过计算使得\(a_{EI}\)值最大的点即为最优点。

上式中有两个组成部分。要使得上式值最大则需要同时优化左右两个部分:

  • 左边需要尽可能的减少\(μ(x)\)
  • 右边需要尽可能的增大方差(或协方差)\(K(x,x)\)

但是二者并不同能是满足,所以这是一个exploitation-exploration tradeoff。

3) Entropy search

4) Upper confidence bound

Reference



MARSGGBO原创





2018-10-28



目录
相关文章
|
6月前
|
机器学习/深度学习 并行计算 文件存储
机器学习超参数调优:十个实用的贝叶斯优化(Bayesian Optimization)进阶技巧
贝叶斯优化虽强大,但直接使用常面临收敛慢、计算贵等问题。本文总结十大实战技巧:引入先验加速冷启动,动态调整采集函数打破平台期,对数变换处理量级差异,避免超-超参数过拟合,成本感知抑制资源浪费,混合随机搜索提升鲁棒性,并行化利用多GPU,正确编码类别变量,约束无效区域,以及集成代理模型降方差。结合这些策略,让BO更智能、高效,真正发挥超参调优潜力。
711 12
机器学习超参数调优:十个实用的贝叶斯优化(Bayesian Optimization)进阶技巧
|
3月前
|
运维 算法 数据处理
【微电网多目标优化调度】基于五种多目标优化算法(MOGWO、MOLPB、MOJS、NSGA3、MOPSO)求解微电网多目标优化调度研究附Matlab代码
✅作者简介:热爱科研的Matlab仿真开发者,擅长毕业设计辅导、数学建模、数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。 🍎 往期回顾关注个人主页:Matlab科研工作室 👇 关注我领取海量matlab电子书和数学建模资料 🍊个人信条:格物致知,完整Matlab代码获取及仿真咨询内容私信。 🔥 内容介绍 一、微电网多目标优化调度的背景 微电网的重要性与发展:微电网作为一种将分布式能源(如太阳能光伏、风力发电)、储能系统(如电池储能)、可控负荷和传统能源(如柴油发电机)整合在一起的小型电力系统,在能源领域中发挥着越来越重要的作用。它能够提高能源利用效率、增
|
缓存 JavaScript 前端开发
同步加载、异步加载、延迟加载、预加载的区别
同步加载、异步加载、延迟加载、预加载的区别
796 0
|
机器学习/深度学习 算法 数据挖掘
交叉验证之KFold和StratifiedKFold的使用(附案例实战)
交叉验证之KFold和StratifiedKFold的使用(附案例实战)
3511 0
|
12月前
|
机器学习/深度学习 数据可视化 算法
数据分布不明确?5个方法识别数据分布,快速找到数据的真实规律
本文深入探讨了数据科学中分布识别的重要性及其实践方法。作为数据分析的基础环节,分布识别影响后续模型性能与分析可靠性。文章从直方图的可视化入手,介绍如何通过Python代码实现分布特征的初步观察,并系统化地讲解参数估计、统计检验及distfit库的应用。同时,针对离散数据、非参数方法和Bootstrap验证等专题展开讨论,强调业务逻辑与统计结果结合的重要性。最后指出,正确识别分布有助于异常检测、数据生成及预测分析等领域,为决策提供可靠依据。作者倡导在实践中平衡模型复杂度与实用性,重视对数据本质的理解。
851 3
数据分布不明确?5个方法识别数据分布,快速找到数据的真实规律
|
机器学习/深度学习 算法 数据安全/隐私保护
基于贝叶斯优化卷积神经网络(Bayes-CNN)的多因子数据分类识别算法matlab仿真
本项目展示了贝叶斯优化在CNN中的应用,包括优化过程、训练与识别效果对比,以及标准CNN的识别结果。使用Matlab2022a开发,提供完整代码及视频教程。贝叶斯优化通过构建代理模型指导超参数优化,显著提升模型性能,适用于复杂数据分类任务。
|
机器学习/深度学习 PyTorch 算法框架/工具
详解三种常用标准化Batch Norm & Layer Norm & RMSNorm
通过本文的介绍,希望您能够深入理解Batch Norm、Layer Norm和RMSNorm的原理和实现,并在实际应用中灵活选择和使用,提升深度学习模型的性能和稳定性。
4461 5
|
机器学习/深度学习 人工智能 算法
贝叶斯优化实战(一)(1)
贝叶斯优化实战(一)
1801 0
贝叶斯优化实战(一)(1)
|
机器学习/深度学习 存储 数据可视化
贝叶斯优化实战(二)(4)
贝叶斯优化实战(二)
549 0
|
运维 安全 Devops
DevOps实践:持续集成与持续部署(CI/CD)的自动化之路
【10月更文挑战第22天】在软件交付的快速迭代中,DevOps文化和实践成为企业加速产品上市、保证质量和提升客户满意度的关键。本文将通过一个实际案例,深入探讨如何利用持续集成(Continuous Integration, CI)和持续部署(Continuous Deployment, CD)实现软件开发流程的高效自动化,包括工具选择、流程设计以及问题解决策略。我们将一起探索代码从编写到部署的全自动化旅程,揭示其对企业运维效率和产品质量所带来的深远影响。