Machine Learning-L9-贝叶斯分类器(涉及贝叶斯的全在这了)(上)

简介: Machine Learning-L9-贝叶斯分类器(涉及贝叶斯的全在这了)

1. 贝叶斯定理



1763年12月23日,Thomas Bayes的遗产受赠者R. Price牧师 在英国皇家学会宣读了贝叶斯的遗作《An essay towards solving a problem in the doctrine of chances》(《论机会学说中一个问题的求解》),其中给出了贝叶斯定理。


在这篇文章之前,人们已经能够计算“正向概率”,如12个白球和3个黑球在1个箱子中,随机取1个球,计算该球为白球的概率。


在这篇文章之前,人们已经能够计算“正向概率”,如12个白球和3个黑球在1个箱子中,随机取1个球,计算该球为白球的概率。

反过来, 如果事先并不知道袋子里面黑白球的比例,随机取到5个球(4个白球,1个黑球),估计该总体中黑球与白球的比例。这个问题,就是所谓的逆向概率问题,可以看做在总体未知的情况,已知样本数据,对总体进行估计。


1.1 贝叶斯公式


根据条件概率:


image.png


可推导出贝叶斯公式:



image.png

其中,


P ( A ):事件A AA的先验概率(prior probability)

P ( A ∣ B ) :事件B条件下的,事件A 的后验概率(posterior probability)

P ( B ):事件B 的先验概率(prior probability)

P ( B ∣ A ) :事件A 条件下的,事件B 的后验概率(posterior probability)


条件概率可理解为:后验概率=先验概率 × 调整因子(标准似然度)


若P ( B ∣ A ) = P ( B )或P ( A ∣ B ) = P ( A ),则P ( A B ) = P ( A ) P ( B ) ,此时事件A , B为相互独立事件,即任一事件的发生不影响另一事件的发生。


e.g1.


肺癌发病率 P ( A ) = 0.001 ; 吸烟人群占比P ( B ) = 0.4  ;根据观测,肺癌病人中有80 %吸烟 P ( B ∣ A ) = 0.8  。


若某患者吸烟,则该患者肺癌的概率为:


image.png

在该例子中,贝叶斯公式将先验概率P ( A ) 转化为了后验概率P ( A ∣ B ) ,这个过程中主要利用了观察数据P ( B ∣ A )


肺癌发病率只有P ( A ) = 0.001,但是根据观察数据发现,肺癌病人的吸烟者比率 P ( B ∣ A ) = 0.8 高于整体人群的吸烟者占比P ( B ) = 0.4,因此增强了吸烟者中肺癌发病率的信念。


1.2 全概率公式


B  1 ...B  n是随机试验S 的一组事件,满足以下两个条件:

image.png


称B 1 . . . B n 是样本空间S 的一个划分。


通过样本划分可以将复杂事件划分为若干不相容的简单事件B i  ,利用全概率公式可求得结果事件概率P ( A )


image.png

其中,P ( B i ) 为已知的每个原因事件B i的概率,P ( A ∣ B i ))表示每个原因事件对结果事件的影响程度。


1.3 贝叶斯公式推广

image.png

P(B i∣A)用来反映引起结果事件A 发生的各种原因事件B i的可能性。


**e.g.1 ** A容器中有7个红球和3个白球,B容器中1个红球和4个白球


事件A :从A容器里拿一个球

事件B :从B容器里拿一个球

事件R :拿出一个球为红球

事件W :拿出一个球为白球


从A容器里拿球的概率P ( A ) = 1/ 2 ,从B容器里拿球的概率P ( B ) = 1/ 2


(1)随机从其中一个容器里取出一个球,该球为红球的概率


image.png

(2)随机取出一个球为红球,该红球来自A容器的概率


image.png


同理可得,P ( B ∣ R ) = 2/ 9


2. 频率学派 v.s. 贝叶斯学派


2.1 频率学派


从客观事件本身出发,认为事件本身具有某种客观随机性,数据样本都是在这个空间里的“某个”参数值下产生的

把参数θ视作固定且未知的常数,而样本数据D 是随机的,着眼点在样本空间通过引入了极大似然(maximum likelihood)以及置信区间(confidence interval),根据数据样本计算参数值


2.2 贝叶斯学派


从“观察者”角度出发,认为概率是主观对某个事物发生的相信程度,由于“观察者”知识不完备,需要从对客观世界的观察中得到规律更新对事件的假定

把参数θ \thetaθ视作随机变量(本身也有分布),而样本数据D DD是固定的(即实际观测到的数据集),着眼点在参数空间

通常假定参数服从一个先验分布(prior distribution),然后基于观测的数据样本(证据)来计算参数的后验分布(posterior distribution)

频率学派坚持数据说话。贝叶斯学派认为数据会有偏差,先验概率可对这些噪音做到健壮。事实证明贝叶斯学派方法更为科学,胜利的关键在于先验概率实质上也是经验统计的结果(先验信息一般源于历史的经验与资料),所谓先“验”中先于的经验就是指先于样本数据。


贝叶斯方法更符合人类认识自然的规律与日常的思考方式,即我对客观世界总有一个主观的先验判断,但是这个判断会随着对真实世界的观察而修正,从而对世界永远保持开放的态度。

相关文章
|
12月前
|
机器学习/深度学习 编解码 监控
NWD-Based Model | 小目标检测新范式,抛弃IoU-Based暴力涨点(登顶SOTA)(一)
NWD-Based Model | 小目标检测新范式,抛弃IoU-Based暴力涨点(登顶SOTA)(一)
584 0
|
12月前
|
数据可视化 计算机视觉
NWD-Based Model | 小目标检测新范式,抛弃IoU-Based暴力涨点(登顶SOTA)(二)
NWD-Based Model | 小目标检测新范式,抛弃IoU-Based暴力涨点(登顶SOTA)(二)
510 0
|
机器学习/深度学习 算法 数据挖掘
周志华《Machine Learning》学习笔记(12)--降维与度量学习
样本的特征数称为维数(dimensionality),当维数非常大时,也就是现在所说的“维数灾难”,具体表现在:在高维情形下,数据样本将变得十分稀疏
139 0
周志华《Machine Learning》学习笔记(12)--降维与度量学习
|
机器学习/深度学习 数据采集 存储
周志华《Machine Learning》学习笔记(13)--特征选择与稀疏学习
在机器学习中特征选择是一个重要的“数据预处理”(data preprocessing)过程,即试图从数据集的所有特征中挑选出与当前学习任务相关的特征子集,接着再利用数据子集来训练学习器
149 0
周志华《Machine Learning》学习笔记(13)--特征选择与稀疏学习
|
算法 搜索推荐
周志华《Machine Learning》学习笔记(2)--性能度量
本篇主要是对第二章剩余知识的理解,包括:性能度量、比较检验和偏差与方差。
90 0
周志华《Machine Learning》学习笔记(2)--性能度量
|
算法
周志华《Machine Learning》学习笔记(3)--假设检验&方差&偏差
在上两篇中,我们介绍了多种常见的评估方法和性能度量标准,这样我们就可以根据数据集以及模型任务的特征,选择出最合适的评估和性能度量方法来计算出学习器的“测试误差“。
116 0
周志华《Machine Learning》学习笔记(3)--假设检验&方差&偏差
|
Python
Machine Learning-L9-贝叶斯分类器(涉及贝叶斯的全在这了)(下)
Machine Learning-L9-贝叶斯分类器(涉及贝叶斯的全在这了)(下)
Machine Learning-L9-贝叶斯分类器(涉及贝叶斯的全在这了)(下)
|
数据可视化 算法
Paper:《Greedy Function Approximation: A Gradient Boosting Machine贪心函数逼近:梯度提升机器模型》翻译与解读—PDP来源
Paper:《Greedy Function Approximation: A Gradient Boosting Machine贪心函数逼近:梯度提升机器模型》翻译与解读—PDP来源
|
机器学习/深度学习 算法 数据可视化
Deep Graph Infomax:互信息最大化的无监督图对比学习
Deep Graph Infomax:互信息最大化的无监督图对比学习
585 0
Deep Graph Infomax:互信息最大化的无监督图对比学习
|
机器学习/深度学习 算法
零基础"机器学习"自学笔记|Note8:正则化
零基础"机器学习"自学笔记|Note8:正则化
106 0
零基础"机器学习"自学笔记|Note8:正则化