Machine Learning-L9-贝叶斯分类器（涉及贝叶斯的全在这了）（下）

2022-11-21 91

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Machine Learning-L9-贝叶斯分类器（涉及贝叶斯的全在这了）（下）

3. 极大似然估计 v.s. 贝叶斯估计

极大似然估计与贝叶斯估计是统计中两种对模型的参数确定的方法，最大的不同就在于是否考虑了先验，贝叶斯估计需要设定先验p ( θ )

3.1 极大似然估计

极大似然估计（MLE，Maximum Likelihood Estimation）源自频率学派，提供了一种根据样本数据来估计总体分布参数的方法，即给定样本数据D ，寻找参数θ \thetaθ，使得条件概率p ( θ ∣ D )最大，优化目标如下：

根据贝叶斯公式，

在极大似然估计中假设θ \thetaθ是确定的（均匀分布的），所以p ( θ ) p(\theta)p(θ)为常数；

p ( D ) 同样是根据已有的数据得到的，为确定值（可看做概率归一化因子）；

p ( D ∣ θ ) 称为似然函数，表示不同的参数向量θ下，观察数据集D 出现的可能性大小。

优化目标等价于最大化似然函数

即在给定样本数据的情况下，寻找参数θ ^ 满足

使得该参数分布下产生样本数据的概率最大（极大似然估计认为观测到的样本就是发生概率最大的那次实现，参数完全取决于实验结果）。

从事件的角度考虑，某事件D 发生时，寻找最可能导致这件事情发生的原因θ = θ ^（θ 有多种取值对应多种原因），使得基于原因θ ^，事件D发生的可能性最大。

对于样本数据D = { ( X₁，y₁ ） . . . . . . (Xn， y_n) }一般假设数据是相互独立的，因此有

为了便于计算，通常引入对数来处理（对对数似然函数求导，并令其导数为0，通过求解似然方程得到参数）。

3.2 贝叶斯估计

贝叶斯估计假定参数服从一个先验分布p ( θ )，该先验分布更多的时候完全是一种假设（可凭主观判断或客观分析得出）。

然后结合样本数据，校正先验分布，得到后验分布$p(\theta \mid D) 的概率分布模型（并不求出参数的概率分布模型（并不求出参数的概率分布模型（并不求出参数\theta$的具体值，通常取后验分布的期望作为参数的估计值）：

先验分布p(θ)+样本数据D⇒后验分布p(θ∣D)

由于先验概率p ( θ )不再是一个常量，而是某种概率分布的函数，就会导致较高的计算复杂度。

为避免计算所有的后验概率p ( θ ∣ D )，通过最大后验概率（Maximum A Posterior）来对参数估计，类似于极大似然估计的思想。

最大后验估计

最大后验概率估计（MAP, maximum a posterior）在已知数据D 的情况下，寻找参数θ，最大化后验概率p ( θ ∣ D ))，即

根据贝叶斯公式，

由于P ( D ) 根据已有数据得到，为确定值，因此相当于

即求得的θ不单单让似然函数大，θ 自己出现的先验概率也得大。

MAP类似正则化里的加惩罚项（正则化利用加法，而MAP利用乘法），即不仅仅依赖于实验数据，通过引入先验信息减少实验数据过拟合风险（MLE在试验数据过少的情况会导致过拟合）。

假设P ( θ ) 是一个高斯分布，则

即，在MAP中使用一个高斯分布的先验等价于采用L2的regularizaton。

3.3 举例

e.g. 假设一个袋子里面装着白球和黑球，通过连续有放回的从袋子里面取10次，白球7次，黑球3次，估计下次取出一个球是白球的概率是多少。

设取到白球的概率为θ ( 0 ≤ θ ≤ 1 ) ，服从二项分布。

（1）极大似然估计

计算10次抽取的总概率

需要选择使样本结果出现的可能性最大的θ 值，将p ( D ∣ θ )看做θ \thetaθ的方程f ( θ )，对其取对数

令导数等于零，θ = 0.7

（2）贝叶斯估计

假设θ 服从Beta分布，即θ ∼ B e t a ( α , β ) ，则

由于p ( θ )=使用的先验模型贝塔分布，与p ( θ ∣ D )=使用的伯努利分布是共轭关系，使得伯努利分布乘以Beta分布，得到的结果是一个新的Beta分布。

共轭先验

在贝叶斯估计中，如果选取先验分布p ( θ )，使其与后验分布p ( θ ∣ D ) D)p(θ∣D) 属同一分布簇（即共轭分布），则称 p ( θ ) 为似然函数 p ( D ∣ θ )的共轭先验。

常见的共轭先验有：Beta分布（二项分布）、Dirichlet分布（多项分布）。

共轭先验有如下好处：

符合直观，先验分布和后验分布应该是相同形式的；

可以给出后验分布的解析形式；

可以形成一个先验链，即现在的后验分布可以作为下一次计算的先验分布，如果形式相同，就可以形成一个链条。

最大后验概率估计

假设先验认为白球与黑球的数量是一样的，即θ = 0.5的概率很大，使用均值0.5，方差0.1的正态分布描述该先验知识（也可使用其他先验模型，如Beta分布等）。

使用最大后验概率估计，需要最大化p ( D ∣ θ )

函数在θ = 0.558时取得最大值时，不再是0.7，即用最大后验概率估计θ = 0.558 。可见样本不够多的情况下，先验模型的选择对结果产生较大影响。

如果抽取球100次，白球70次，黑球30次，函数在θ接近0.7 时取得最大值。继续抽取，可进一步修正θ 值。

当样本非常少时，先验会严重影响估计；随着数据量的增加，参数θ 的值会越来越向数据靠拢，先验的影响力会越来越小。

4. 朴素贝叶斯分类器

对于训练数据集D 中的样本( x , y )

P(y)是类先验概率（class-prior probability）

P ( y ∣ x ) 是类后验概率（class-posterior probability）

P ( x ∣ y ) 是样本x 相对于类标记y 的类条件概率（class-conditional probability），或称为似然（likelihood）

P ( x ) 是用于归一化的证据（evidence）因子，P ( x ∣ y ) P ( x ))为调整因子，又称标准似然度

贝叶斯分类器对于每个样本x ，选择使后验概率( y ∣ x ) 最大的类别标记

朴素贝叶斯假设一个属性值在给定类上的影响独立于其他属性的值（类条件独立性，attribute conditional independence assumption）:

由于P ( x ) 为常数，

因此，朴素贝叶斯分类器的训练过程就是基于训练集D 来估计类先验概率P ( y ) ，并为每个属性估计条件概率P ( Xi∣ y )

朴素贝叶斯在估计参数时选用了极大似然估计（基于样本数据中的频次计数），但是在做决策时则使用了MAP估计。

文章标签：

Python

Machine Learning-L9-贝叶斯分类器（涉及贝叶斯的全在这了）（下）

3. 极大似然估计 v.s. 贝叶斯估计

3.1 极大似然估计

3.2 贝叶斯估计

最大后验估计

3.3 举例

（1）极大似然估计

（2）贝叶斯估计

共轭先验

最大后验概率估计

4. 朴素贝叶斯分类器

热门文章

最新文章

相关课程

相关电子书

相关实验场景