PRML 2.1 二元变量
2.1.1 伯努利分布 Bernoulli
考虑抛一个损坏的硬币的实验, 如果抛正面为1, 抛反面为0, 那么有如下二元随机变量x ∈ { 0 , 1 } 。因为硬币是损坏的,所以抛正反面的概率不一定相同,现在我们假设抛正面的概率是μ 即x = 1 的概率为μ 。因此有:
所以x 的概率分布可以写成:
这就是最简单的伯努利分布(0-1分布),x只能取0或者1
- 期望:
方差:
2.1.2 二项分布
现在我们假设有个x xx的观测集D = x 1 , . . . , x N 假设每次构造都是从p ( x ∣ μ )中独立地抽取。构造μ的似然函数如下:
等式两边取对数有:
另上式关于μ \muμ的导数为零,那么得到最大似然的估计值:(建议自己推导一下)
如果我们把正面朝上(x = 1 )的观测的数量记为m ,那么上述公式为:
因为我们只有0 , 1 取值,所以就为m N
x = 1 的观测出现m的概率分布,这被称为二项分布,在N此抛硬币的过程中,我们需要把所有获得m 个正面朝上的方式加起来,那么得到:
期望
方差
除了求和,我们也可以用积分的形式来证明
下图给出了N = 10 μ = 0.25 的示意图
2.1.3 Beta分布
在书中,提出了这样一个问题,现假设我们抛3次硬币,碰巧三次都是正面朝上,那么依据二项分布μ M L = 1 这种情况下,最大似然的结果预测所有未来的观测都是正面朝上,对这种小规模的数据集比较容易出现过拟合,此时我们需要利用贝叶斯的观点来看待这个问题。
我们需要引入一个先验分布B e t a分布
其中我们用了一个 Gamma函数,在前面的练习1.17 定义过
Γ(x)函数保证了Beta函数归一化,即
Beta分布的期望和方差:
- 期望
方差
参数a和b通常称作超参数,因为他们控制了参数μ \muμ的概率分布,下面给出不同超参数对应的Beta分布的图像。
下面我们给出μ 的后验概率分布形式:
其中l = N − m ,即对应硬币反面朝上的样本数量。归一化系数后:
我们在观测到更多的数据后,可以将后验概率作为先验概率。更新的方法是将当前后验分布与新观测的似然函数相乘,然后归一化,获得修正后的后验分布。下图说明了这个步骤。
从先验概率到后验概率,a aa 的值增加了 m mm 的原始值,b bb 的值增加了 l ll的原始值,因此先验概率就是利用硬币曾经的数据为后验概率提供信息
从图2中可以看出,当观测的数量增加时,后验分布的图像越来越尖。我们从Beta分布的方差可以看出当$a\rightarrow \infty 或 者 或者或者b\rightarrow \infty $,方差趋于零,随着我们观测到的数据越来越多,后验概率的不确定性越小。
贝叶斯观点 : 学习过程中的顺序方法与先验和似然函数的选择无关,只取决于数据独立同分布的假设
如果数据集有限,后验均值总是位于先验均值和最大似然估计之间
如果数据集无限大,先验概率对结果的影响几乎为零,贝叶斯估计和最大似然估计的结果将趋于一致