PRML 2.1 二元变量

简介: PRML 2.1 二元变量

PRML 2.1 二元变量


2.1.1 伯努利分布 Bernoulli


考虑抛一个损坏的硬币的实验, 如果抛正面为1, 抛反面为0, 那么有如下二元随机变量x ∈ { 0 , 1 } 。因为硬币是损坏的,所以抛正反面的概率不一定相同,现在我们假设抛正面的概率是μ 即x = 1 的概率为μ 。因此有:

image.png

所以x 的概率分布可以写成:

image.png

这就是最简单的伯努利分布(0-1分布),x只能取0或者1

  • 期望:

image.png


方差:


image.png


2.1.2 二项分布


现在我们假设有个x xx的观测集D = x 1 , . . . , x N 假设每次构造都是从p ( x ∣ μ )中独立地抽取。构造μ的似然函数如下:


image.png

等式两边取对数有:


image.png

另上式关于μ \muμ的导数为零,那么得到最大似然的估计值:(建议自己推导一下)


image.png

如果我们把正面朝上(x = 1 )的观测的数量记为m ,那么上述公式为:

image.png


因为我们只有0 , 1 取值,所以就为m N

x = 1 的观测出现m的概率分布,这被称为二项分布,在N此抛硬币的过程中,我们需要把所有获得m 个正面朝上的方式加起来,那么得到:


image.png

期望


image.png

方差


image.png


除了求和,我们也可以用积分的形式来证明


下图给出了N = 10 μ = 0.25 的示意图


20210712000436556.png

2.1.3 Beta分布


在书中,提出了这样一个问题,现假设我们抛3次硬币,碰巧三次都是正面朝上,那么依据二项分布μ M L = 1 这种情况下,最大似然的结果预测所有未来的观测都是正面朝上,对这种小规模的数据集比较容易出现过拟合,此时我们需要利用贝叶斯的观点来看待这个问题。


我们需要引入一个先验分布B e t a分布


image.png

其中我们用了一个 Gamma函数,在前面的练习1.17 定义过


image.png

Γ(x)函数保证了Beta函数归一化,即


image.png

Beta分布的期望和方差:


  • 期望


image.png


方差


image.png

参数a和b通常称作超参数,因为他们控制了参数μ \muμ的概率分布,下面给出不同超参数对应的Beta分布的图像。

20210712000444630.png20210712000444630.png


下面我们给出μ 的后验概率分布形式:


image.png

其中l = N − m ,即对应硬币反面朝上的样本数量。归一化系数后:


image.png

我们在观测到更多的数据后,可以将后验概率作为先验概率。更新的方法是将当前后验分布与新观测的似然函数相乘,然后归一化,获得修正后的后验分布。下图说明了这个步骤。


20210712000452271.png


从先验概率到后验概率,a aa 的值增加了 m mm 的原始值,b bb 的值增加了 l ll的原始值,因此先验概率就是利用硬币曾经的数据为后验概率提供信息


从图2中可以看出,当观测的数量增加时,后验分布的图像越来越尖。我们从Beta分布的方差可以看出当$a\rightarrow \infty 或 者 或者或者b\rightarrow \infty $,方差趋于零,随着我们观测到的数据越来越多,后验概率的不确定性越小。


贝叶斯观点 : 学习过程中的顺序方法与先验和似然函数的选择无关,只取决于数据独立同分布的假设


如果数据集有限,后验均值总是位于先验均值和最大似然估计之间

如果数据集无限大,先验概率对结果的影响几乎为零,贝叶斯估计和最大似然估计的结果将趋于一致

相关文章
|
7月前
|
算法 C语言
算数、赋值、单目操作符介绍
算数、赋值、单目操作符介绍
47 0
|
4天前
|
编译器 C++ 索引
C learning_13 操作符前篇(条件操作符、 逗号表达式、 下标引用、函数调用和结构成员、 表达式求值)
C learning_13 操作符前篇(条件操作符、 逗号表达式、 下标引用、函数调用和结构成员、 表达式求值)
|
11月前
|
算法
求二元二次方程的解
求二元二次方程的解
170 0
|
11月前
|
C语言
二值逻辑变量与基本逻辑运算
二值逻辑变量与基本逻辑运算
105 0
二元函数偏导数的几何意义
二元函数偏导数的几何意义
|
12月前
|
存储 Unix 编译器
表达式求值过程中会发生哪些隐藏的变化?求值顺序又由什么决定?——详解C表达式求值中的隐式类型转换,算术转换问题,以及操作符的属性
表达式求值过程中会发生哪些隐藏的变化?求值顺序又由什么决定?——详解C表达式求值中的隐式类型转换,算术转换问题,以及操作符的属性
116 0
|
机器学习/深度学习 资源调度 数据可视化
单变量和多变量高斯分布:可视化理解(上)
单变量和多变量高斯分布:可视化理解
162 0
单变量和多变量高斯分布:可视化理解(上)
|
机器学习/深度学习 资源调度 数据可视化
单变量和多变量高斯分布:可视化理解(下)
单变量和多变量高斯分布:可视化理解
121 0
单变量和多变量高斯分布:可视化理解(下)