一、概述
对于概率模型来说,如果从频率派角度来看就会是一个优化问题,从贝叶斯角度来看就会是一个积分问题。首先从频率派角度角度来看,我们假设模型的最优参数是一个确定的常数。回想之前的线性回归,我们使用最小二乘法来定义损失函数;在支持向量机中最终转化为一个约束优化问题;在EM算法中我们迭代求解模型的参数。这些算法的共同点是从参数空间中寻找最优的参数,因此最终都会演化成一个优化问题。
那么为什么从贝叶斯角度来看就会是一个积分问题呢?现在以贝叶斯的角度来看待问
题,模型的参数此时并非确定的常数,而是服从一个分布。如果已有多个样本数据记作,对于新的样本,需要得到:
如果新样本和数据集独立,那么这个推断问题就是求概率分布依参数后验分布的期望。推断问题的核心是参数后验分布的求解,推断分为:
- 精确推断
- 近似推断-参数空间无法精确求解:
①确定性近似-如变分推断
②随机近似-如 MCMC,MH,Gibbs
二、公式导出
有以下数据:
对于②:
三、回顾EM算法
基于平均场假设的变分推断存在⼀些问题:
①假设太强,⾮常复杂的情况下,假设不适⽤;
②期望中的积分,可能⽆法计算。
四、随机梯度变分推断(SGVI)
- 直接求导数的方法
这个期望可以通过蒙特卡洛采样来近似,从⽽得到梯度,然后利⽤梯度上升的⽅法来得到参数:
- 重参数化技巧
对最终这个中括号里的式子进行蒙特卡洛采样,然后计算期望,得到梯度。这里的采样就是从中进行采样了。
SGVI的迭代过程为:
蒙特卡洛采样的方法会在后面的文章中介绍。


8X9.png 2QNEC9U@Q](]@%(R2AS)8X9.png](https://ucc.alicdn.com/pic/developer-ecology/7acca72a6dde45cbb275388c91a01534.png?x-oss-process=image/resize,w_1400/format,webp)
![Y51]N~4XQ%8DO12Q8]YGZ{G.png Y51]N~4XQ%8DO12Q8]YGZ{G.png](https://ucc.alicdn.com/pic/developer-ecology/702e3408b9074696b209fd5b6d6bb343.png?x-oss-process=image/resize,w_1400/format,webp)

![E`_]PDFL4DMG4V]JVN@F(NT.png E`_]PDFL4DMG4V]JVN@F(NT.png](https://ucc.alicdn.com/pic/developer-ecology/ac2b6db585684b68aeedb1926215251d.png?x-oss-process=image/resize,w_1400/format,webp)
![]9KF((J38M7LE_GERF0W{{H.png ]9KF((J38M7LE_GERF0W{{H.png](https://ucc.alicdn.com/pic/developer-ecology/2dafd6789b114075ab963edd83017833.png?x-oss-process=image/resize,w_1400/format,webp)



![OS0O%3O(7B1LKNJ]_8WK9PL.png OS0O%3O(7B1LKNJ]_8WK9PL.png](https://ucc.alicdn.com/pic/developer-ecology/07f0207d38f848869141409e9d157d0e.png?x-oss-process=image/resize,w_1400/format,webp)


![1P}]IC88_@YL0CQV{FESDOP.png 1P}]IC88_@YL0CQV{FESDOP.png](https://ucc.alicdn.com/pic/developer-ecology/4d669b32bc7e4b70afbf58f7a0783a35.png?x-oss-process=image/resize,w_1400/format,webp)

