一、概述
对于概率模型来说,如果从频率派角度来看就会是一个优化问题,从贝叶斯角度来看就会是一个积分问题。首先从频率派角度角度来看,我们假设模型的最优参数是一个确定的常数。回想之前的线性回归,我们使用最小二乘法来定义损失函数;在支持向量机中最终转化为一个约束优化问题;在EM算法中我们迭代求解模型的参数。这些算法的共同点是从参数空间中寻找最优的参数,因此最终都会演化成一个优化问题。
那么为什么从贝叶斯角度来看就会是一个积分问题呢?现在以贝叶斯的角度来看待问
题,模型的参数此时并非确定的常数,而是服从一个分布。如果已有多个样本数据记作,对于新的样本,需要得到:
如果新样本和数据集独立,那么这个推断问题就是求概率分布依参数后验分布的期望。推断问题的核心是参数后验分布的求解,推断分为:
- 精确推断
- 近似推断-参数空间无法精确求解:
①确定性近似-如变分推断
②随机近似-如 MCMC,MH,Gibbs
二、公式导出
有以下数据:
对于②:
三、回顾EM算法
基于平均场假设的变分推断存在⼀些问题:
①假设太强,⾮常复杂的情况下,假设不适⽤;
②期望中的积分,可能⽆法计算。
四、随机梯度变分推断(SGVI)
- 直接求导数的方法
这个期望可以通过蒙特卡洛采样来近似,从⽽得到梯度,然后利⽤梯度上升的⽅法来得到参数:
- 重参数化技巧
对最终这个中括号里的式子进行蒙特卡洛采样,然后计算期望,得到梯度。这里的采样就是从中进行采样了。
SGVI的迭代过程为:
蒙特卡洛采样的方法会在后面的文章中介绍。