Machine Learning-L9-贝叶斯分类器(涉及贝叶斯的全在这了)(下)

简介: Machine Learning-L9-贝叶斯分类器(涉及贝叶斯的全在这了)(下)

3. 极大似然估计 v.s. 贝叶斯估计


极大似然估计与贝叶斯估计是统计中两种对模型的参数确定的方法,最大的不同就在于是否考虑了先验,贝叶斯估计需要设定先验p ( θ )


3.1 极大似然估计


极大似然估计(MLE,Maximum Likelihood Estimation)源自频率学派,提供了一种根据样本数据来估计总体分布参数的方法,即给定样本数据D ,寻找参数θ \thetaθ,使得条件概率p ( θ ∣ D )最大,优化目标如下:

image.png


根据贝叶斯公式,


image.png


在极大似然估计中假设θ \thetaθ是确定的(均匀分布的),所以p ( θ ) p(\theta)p(θ)为常数;

p ( D ) 同样是根据已有的数据得到的,为确定值(可看做概率归一化因子);

p ( D ∣ θ ) 称为似然函数,表示不同的参数向量θ下,观察数据集D 出现的可能性大小。


优化目标等价于最大化似然函数


image.png


即在给定样本数据的情况下,寻找参数θ ^ 满足

image.png

使得该参数分布下产生样本数据的概率最大(极大似然估计认为观测到的样本就是发生概率最大的那次实现,参数完全取决于实验结果)。


从事件的角度考虑,某事件D 发生时,寻找最可能导致这件事情发生的原因θ = θ ^(θ 有多种取值对应多种原因),使得基于原因θ ^,事件D发生的可能性最大。


对于样本数据D = { ( X1 y1 ) . . . . . . (Xn, yn) }一般假设数据是相互独立的,因此有


image.png


为了便于计算,通常引入对数来处理(对对数似然函数求导,并令其导数为0,通过求解似然方程得到参数)。


3.2 贝叶斯估计


贝叶斯估计假定参数服从一个先验分布p ( θ ),该先验分布更多的时候完全是一种假设(可凭主观判断或客观分析得出)。

然后结合样本数据,校正先验分布,得到后验分布$p(\theta \mid D) 的概率分布模型(并不求出参数 的概率分布模型(并不求出参数的概率分布模型(并不求出参数\theta$的具体值,通常取后验分布的期望作为参数的估计值):


先验分布p(θ)+样本数据D⇒后验分布p(θ∣D)


由于先验概率p ( θ )不再是一个常量,而是某种概率分布的函数,就会导致较高的计算复杂度。


为避免计算所有的后验概率p ( θ ∣ D ),通过最大后验概率(Maximum A Posterior)来对参数估计,类似于极大似然估计的思想。


最大后验估计


最大后验概率估计(MAP, maximum a posterior)在已知数据D 的情况下,寻找参数θ,最大化后验概率p ( θ ∣ D )),即

image.png

根据贝叶斯公式,


image.png


由于P ( D ) 根据已有数据得到,为确定值,因此相当于


image.png

即求得的θ不单单让似然函数大,θ 自己出现的先验概率也得大。


MAP类似正则化里的加惩罚项(正则化利用加法,而MAP利用乘法),即不仅仅依赖于实验数据,通过引入先验信息减少实验数据过拟合风险(MLE在试验数据过少的情况会导致过拟合)。


假设P ( θ ) 是一个高斯分布,则


image.png



即,在MAP中使用一个高斯分布的先验等价于采用L2的regularizaton。


3.3 举例


e.g. 假设一个袋子里面装着白球和黑球,通过连续有放回的从袋子里面取10次,白球7次,黑球3次,估计下次取出一个球是白球的概率是多少。


设取到白球的概率为θ    ( 0 ≤ θ ≤ 1 ) ,服从二项分布。


(1)极大似然估计


计算10次抽取的总概率


image.png

需要选择使样本结果出现的可能性最大的θ 值,将p ( D ∣ θ )看做θ \thetaθ的方程f ( θ ),对其取对数


image.png


令导数等于零,θ = 0.7


(2)贝叶斯估计


假设θ 服从Beta分布,即θ ∼ B e t a ( α , β ) ,则


image.png


由于p ( θ )=使用的先验模型贝塔分布,与p ( θ ∣ D )=使用的伯努利分布是共轭关系,使得伯努利分布乘以Beta分布,得到的结果是一个新的Beta分布。


共轭先验


在贝叶斯估计中,如果选取先验分布p ( θ ),使其与后验分布p ( θ ∣ D ) D)p(θ∣D) 属同一分布簇(即共轭分布),则称 p ( θ ) 为似然函数 p ( D ∣ θ )的共轭先验。


常见的共轭先验有:Beta分布(二项分布)、Dirichlet分布(多项分布)。


共轭先验有如下好处:


符合直观,先验分布和后验分布应该是相同形式的;

可以给出后验分布的解析形式;

可以形成一个先验链,即现在的后验分布可以作为下一次计算的先验分布,如果形式相同,就可以形成一个链条。


最大后验概率估计


假设先验认为白球与黑球的数量是一样的,即θ = 0.5的概率很大,使用均值0.5,方差0.1的正态分布描述该先验知识(也可使用其他先验模型,如Beta分布等)。


使用最大后验概率估计,需要最大化p ( D ∣ θ )


20200426160223740.png


函数在θ = 0.558时取得最大值时,不再是0.7,即用最大后验概率估计θ = 0.558 。可见样本不够多的情况下,先验模型的选择对结果产生较大影响。


20200426160234100.png


如果抽取球100次,白球70次,黑球30次,函数在θ接近0.7 时取得最大值。继续抽取,可进一步修正θ 值。

当样本非常少时,先验会严重影响估计;随着数据量的增加,参数θ 的值会越来越向数据靠拢,先验的影响力会越来越小。


4. 朴素贝叶斯分类器


对于训练数据集D 中的样本( x , y )


image.png


P(y)是类先验概率(class-prior probability)

P ( y ∣ x ) 是类后验概率(class-posterior probability)

P ( x ∣ y ) 是样本x 相对于类标记y 的类条件概率(class-conditional probability),或称为似然(likelihood)

P ( x ) 是用于归一化的证据(evidence)因子,P ( x ∣ y ) P ( x ))为调整因子,又称标准似然度

贝叶斯分类器对于每个样本x ,选择使后验概率( y ∣ x ) 最大的类别标记


image.png

朴素贝叶斯假设一个属性值在给定类上的影响独立于其他属性的值(类条件独立性,attribute conditional independence assumption):


image.png



由于P ( x ) 为常数,


image.png

因此,朴素贝叶斯分类器的训练过程就是基于训练集D 来估计类先验概率P ( y ) ,并为每个属性估计条件概率P ( Xi∣ y )

朴素贝叶斯在估计参数时选用了极大似然估计(基于样本数据中的频次计数),但是在做决策时则使用了MAP估计。

相关文章
|
12月前
|
机器学习/深度学习 编解码 监控
NWD-Based Model | 小目标检测新范式,抛弃IoU-Based暴力涨点(登顶SOTA)(一)
NWD-Based Model | 小目标检测新范式,抛弃IoU-Based暴力涨点(登顶SOTA)(一)
584 0
|
12月前
|
数据可视化 计算机视觉
NWD-Based Model | 小目标检测新范式,抛弃IoU-Based暴力涨点(登顶SOTA)(二)
NWD-Based Model | 小目标检测新范式,抛弃IoU-Based暴力涨点(登顶SOTA)(二)
510 0
|
机器学习/深度学习 算法 数据挖掘
周志华《Machine Learning》学习笔记(12)--降维与度量学习
样本的特征数称为维数(dimensionality),当维数非常大时,也就是现在所说的“维数灾难”,具体表现在:在高维情形下,数据样本将变得十分稀疏
139 0
周志华《Machine Learning》学习笔记(12)--降维与度量学习
|
机器学习/深度学习 数据采集 存储
周志华《Machine Learning》学习笔记(13)--特征选择与稀疏学习
在机器学习中特征选择是一个重要的“数据预处理”(data preprocessing)过程,即试图从数据集的所有特征中挑选出与当前学习任务相关的特征子集,接着再利用数据子集来训练学习器
149 0
周志华《Machine Learning》学习笔记(13)--特征选择与稀疏学习
|
算法 搜索推荐
周志华《Machine Learning》学习笔记(2)--性能度量
本篇主要是对第二章剩余知识的理解,包括:性能度量、比较检验和偏差与方差。
90 0
周志华《Machine Learning》学习笔记(2)--性能度量
|
算法
周志华《Machine Learning》学习笔记(3)--假设检验&方差&偏差
在上两篇中,我们介绍了多种常见的评估方法和性能度量标准,这样我们就可以根据数据集以及模型任务的特征,选择出最合适的评估和性能度量方法来计算出学习器的“测试误差“。
116 0
周志华《Machine Learning》学习笔记(3)--假设检验&方差&偏差
|
BI 容器
Machine Learning-L9-贝叶斯分类器(涉及贝叶斯的全在这了)(上)
Machine Learning-L9-贝叶斯分类器(涉及贝叶斯的全在这了)
Machine Learning-L9-贝叶斯分类器(涉及贝叶斯的全在这了)(上)
|
数据可视化 算法
Paper:《Greedy Function Approximation: A Gradient Boosting Machine贪心函数逼近:梯度提升机器模型》翻译与解读—PDP来源
Paper:《Greedy Function Approximation: A Gradient Boosting Machine贪心函数逼近:梯度提升机器模型》翻译与解读—PDP来源
|
机器学习/深度学习 算法 数据可视化
Deep Graph Infomax:互信息最大化的无监督图对比学习
Deep Graph Infomax:互信息最大化的无监督图对比学习
585 0
Deep Graph Infomax:互信息最大化的无监督图对比学习
|
机器学习/深度学习 算法
零基础"机器学习"自学笔记|Note8:正则化
零基础"机器学习"自学笔记|Note8:正则化
106 0
零基础"机器学习"自学笔记|Note8:正则化