开发者学堂课程【机器学习算法 :贝叶斯推断3】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/535/detail/7275
贝叶斯推断3
一、最大后验估计
1.最大后验概率估计(Maximum A posteriori Estimation,MAE)最大后验估计是根据经验数据获得对难以观察的量的点估计。与最大似然估计类似,但是最大的不同时,最大后验估计的融入了要估计量的先验分布在其中。故最大后验估计可以看做规则化的最大似然估计。
2.例:
想判断某硬币是否均匀,抛十次,得到的结果是:反正正正正反正正正反,请做出合理的判断。
用最大后验估计的思路来考虑该问题:
该方法的主要思路是最大化后验概率(名字也是由此而来):
硬币已经投完,现在要求 θ,在 x 样本出现前提下,求θ应该取什么值。
其中x为已经发生过的事实,即抛硬币的结果,所以 P(x) 是一个已知的值,和你多次抛硬币的结果相关。
如做了100次试验(每次试验都抛十次硬币),当前结果出现了20次,则概率P(x)=20%,该值可计算。
接下来考虑先验概率 P(θ),先验概率的选取,对最终结果有影响,所以要去选择合适的先验概率。
可以根据历史经验统计数据去确定先验概率、根据统计信息去确定先验概率,比如之前我们做过抛硬币的实验,可以根据实际结果来确定先验概率。在没有统计数据的时候,我们也可以根据常识/主观意愿来得到一个先验概率(经常被人诟病主观性太强)。
本例中先验概率并不是一个固定的概率值,而是一个概率的分布。比如硬币投掷出现正面的概率在0.5左右,具体来说满足一个(根据自己的认知拍的)均值为0.5,标差为0.1的正态分布。(MLE 先验分布是?)
如图所示:一个硬币正面朝上最有可能概率为0.5,又可能比0.5高或低。据此先验分布,去求后验概率,即。最大化 P(θ|x),最大化 x 已知,θ 取值概率,即最大化 P(x|θ)P(θ) ,P(θ) 本身也是正态分布,参数一旦确定,让x发生概率最大,参数本身是一个正态分布,还要保证参数概率发生最大。因为引入了先验概率概念,其本身也是概率分布,如果 θ 出现概率很小,整个式子乘积就比较小了,所以要选择 θ 使得两者乘积最大。以下将两者均列出:
似然函数
高斯分布拥有固定表达式,将已知数带入即可得出结果
接下来要对后验概率求对数:
对后验概率的对数形式求最大值:即对 θ 求偏导,令其得0
整理得
求得 θ=0.5577。与之前最大似然估计求得结果不同。
改进:优化先验概率,比如投掷100次硬币,发现有60(80)次出现正面,以此计算后验概率为:0.63(0.76),这些结果越来越朝向最大似然估计所得结果靠拢。
MAE,在去先验概率时将其做成概率分布,如果认为分布是均匀分布,和 θ 没有关系,则结果和 MLE 结果是一样得。