开发者学堂课程【机器学习算法 :贝叶斯推断2】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/535/detail/7274
贝叶斯推断2
内容介绍
一、似然函数
二、似然函数 vs 先验概率 vs 后验概率
三、最大后验估计
一、似然函数
1. 似然函数(Likelihood Function)是一种关于统计模型参数的函数。似然函数是关于参数的函数,最大似然估计解决的模型已定参数未知,是区别于后验概率。给定输出 x 时,关于参数的似然函数 L(θ|x) 在数值上等于给定参数 θ 后变量x的概率:L(θ|x)=P(X=x|θ)。
2. 似然是对 Likelihood 的一种较为贴近文言文的翻译,似然用现代的中文来说即“可能性”
3. 数学语言定义:设总体 x 服从分布 P(X;θ),θ 为待估参数,X1,X2,…Xn是来自于总体 X 的样本,x1,x2,…,xn为样本X,X2,…Xn 的一个观察值,则样本的联合分布L(θ)=L(x1,x2,…,xn;θ)=ПP(xi;θ)称为似然函数。
4. 最大似然估计(MLE)是似然函数最初也是最自然的应用。上文已经提到,似然函数取得最大值表示相应的参数能够使得统计模型最为合理。最大似然估计原理:首先设立模型,认为当前样本/样本集符合模型分布,但模型中参数未知,依据现已产生的样本发生的事实去要求最大似然函数,即让当前已发生的事实发生概率最大。
5. 概率描述了已知参数时的随机变量的输出结果;似然则用来描述已知随机变量输出结果时,未知参数的可能取值。
二、似然函数 vs 先验概率 vs 后验概率
实则是贝叶斯公式
其中表示后验概率E发生情况下,H发生的概率。
P(H)是先验概率,想求准确概率前需要先估计出一个概率,就是先验概率。
P(E|H)是H发生条件下,E发生的概率。称之为“证据”似然函数。
P(E)为调整的量。
通过以上就可以得到先验函数、后验函数以及似然函数之间的关系。
三、最大后验估计
1.最大后验概率估计(Maximum A posteriori Estimation,MAE)最大后验估计是根据经验数据获得对难以观察的量的点估计。与最大似然估计类似,但是最大的不同时,最大后验估计的融入了要估计量的先验分布在其中。故最大后验估计可以看做规则化的最大似然估计。
2.例:
想判断某硬币是否均匀,抛十次,得到的结果是:反正正正正反正正正反,请做出合理的判断。实际是需要算一下出现正面概率是多少,如果出现正面概率为50%,那么则认为均匀。
用最大似然估计的思路来考虑该问题:
抛硬币的结果实际上为二项分布(重复n次的伯努利分布):假设正面出现的概率为 θ,若为0.5,则均匀已经发生的抛硬币事件为:x={反,正,正,正,正,反,正,正,正,反},就出现的这个结果得到似然函数:
出现正面概率为 θ,所以出现反面概率为 1-θ,最后得出结果。
模型已定,参数未知。去求使得似然函数 L(x;θ) 最大的参数 θ,就是我们希望得到的正面出现的概率:
对似然函数求对数,会简单许多,将次方变乘法,将乘法变加法。再对似然函数对数求出最大值,对 θ 求偏导,令其等于0即可求出最大值。
采用最大似然估计对硬币出现正面概率为70%,不均匀