开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践:LDA 原理 下】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/1067/detail/15528
LDA 原理 下
LDA 推理分布
Jensen是提供了p(d,θ|β),α,β是人指定的抄参,然后要算(d,θ)的联合概率,现在要考虑θ的先验概率,所以说θ出现在前面的。p(d,θ|β)不等式容易计算下界。α和β是人指定的。然后θ是需要学出来的。但是现在LD里头θ学不是一个点,不是说一个找一个最优的系统而是θ的一个分布。
因为θ符是一个Dirichlet先验,然后变成Цp(wi,zi|θd,T)参数相当于算文档概率的时候是一个参数。p(d,θ|α)* Цp(wi,zi|θd,T)结合起来,然后算后验概率。
q(Z,θ)越接近p(Z,θ|d,α)后验概率,下界就越大,所以要找q(Z,θ)进可能大,让右边儿下界尽可能大
但q(Z,θ)是很复杂的,因为Z是一个很长的序列。q(Z)是定义在序列上的一个概率分布,然后q(θ)是一个连续的一个反驳。如果说z,θ之间还有什么相关性的话,根本就没法算。
所以就只能假设q(Z),q(θ)是q(Z)*q(θ)。实际上准确的说应该用q1和q2,因为参数都不一样,肯定是不同的风格。习惯上都是使用同一个符号来表示的。相当于一个边分分布的一个组件,不同的组号相乘得到完整的变分分布。q(Z)和刚才是一样定义的,就是对这些假设是分解,乘可以连成起来。
q(θ)的后验概率Dirichlet和离散分布是共轭的,结果观测到topic出现了几次。
然后这个文档到topic的分布,后验概率仍然是Dir的。所以说那个不管是{θd}或者是T的后援概率都是Dir。所以这里用两个Dir来刻画θ的后援概率,所以q(θ)和q(Z)就不一样了,q(Z)只是近似,部分和ZI和Zg这之间是有相关性的,θ的后援概率它就是Dir,所以是可以精确求解。然后
和pLSA的差别就在刚才是固定q(θ),优化q(Z)。现在是固定q(Z)优化q(θ),q(θ)是一个分布,给不同的θ一个概率,之前是点估计,实际上也可以认为是一种分布,也就是说,θ在θ0的最优解的时候的概率为1,在其他所有的地方概率都是零,用Dirichlet分布来刻画。就是相当于平滑一些,不光是在这个最优的θ0那里概率比较大,而且在稍微偏一点的地方也不要紧。概率还比较大,然后偏太多了,概率就非常小。这样的话。这个估计就会比较鲁棒一些。这就得到了LDA的变分EM运算
{γd}这里是后验分部的参数。刚才的α是先验概率。所以说相当于这个α是(1,1,1,1,1,1,),然后观察到(5,2,1,1,1,0)然后后验概率γ是(6,3,2,2,2,1)。
其实,如果了解推理的话,这些都就都是套路了。就是先验概率,然后有数据,然后算后验概率,不可算的话,就用一些简单的分布来近似


