数据挖掘(5.1)--贝叶斯分类

简介: 贝叶斯方法是一种研究不确定性的推理方法,不确定性常用贝叶斯概率表示,它是一种主观概率,是个人主观的估计,随个人的主观认识的变化而变化

目录


前言


正文


1.主观概率


2.贝叶斯定理


1.基础知识


2.贝叶斯决策准则


3.极大后验假设


4.例题


2.朴素贝叶斯分类模型


朴素贝叶斯分类器的算法描述:


朴素贝叶斯算法特点


3.贝叶斯信念网


贝叶斯网络的建模包括两个步骤


贝叶斯信念网特点



开往夏天的列车

前言

贝叶斯分类方法是统计学的分类方法,它利用概率统计知识预测给定元组属于特定类的概率。贝叶斯分类基于贝叶斯定理。最简单的贝叶斯分类算法称为朴素贝叶斯分类法。.


正文

1.主观概率

贝叶斯方法是一种研究不确定性的推理方法,不确定性常用贝叶斯概率表示,它是一种主观概率,是个人主观的估计,随个人的主观认识的变化而变化


对它的估计取决于先验知识的正确和后验知识的丰富和准确,因此贝叶斯概率常常可能随个人掌握信息的不同而发生变化,基于后验知识的一种判断,取决于对各种信息的掌握


2.贝叶斯定理

1.基础知识

已知事件A发生的条件下,事件B发生的概率,叫做事件B在事件A发生下的条件概率,记为 P(B|A) ,其中 P(A) 叫做先验概率,  P(B|A) 叫做后验概率,计算条件概率的公式为:

2920b37cdaa3693d457cab46ac7489cb_925dd72c46e34f188d8e3817147faf43.png



后然=似然*先验 /证据因子


条件概率公式通过变形得到乘法公式:


ea06ae68f17e7549b94c080eae2f64a3_b602e52422a149a38e3b76ffaf803854.png


设A,B为两个随机事件,如果有 P(AB) = P(A)P(B)成立,则称事件A和B相互独立。此时有  P(A|B) = P(A) 成立。


疾病诊断示例


两个诊断(检查)结论:患者有癌症(+);或者无癌症(-)


先验知识:所有人口中,患病率0.8%


有病患者确诊准确率98%,无病患者确诊准确率97%


P(cancer) = 0.008  P(!cancer) = 0.992


P(+|cancer) = 0.98  P(-|cancer) = 0.02


P(+|!cancer) = 0.03  P(-|!cancer) = 0.97


设 B1, B2,…, Bn 为互不相容事件,P(Bi)>0, i=1, 2,…, n,且  ,对任意的事件,计算事件A概率的公式为:

9a447931a890f0a1fdf587758dcc73de_a783f6210419497f861b86e67ec1a867.png



设P(A) >0,则在事件A发生的条件下,事件Bi发生的概率为:                            


b7b544bfbed919de1a76f850b29024a3_223fe3d7216e4eacbf77950c6b67ced8.png

称该公式为贝叶斯公式


2.贝叶斯决策准则

如果对于任意 i ≠ j,都有P(Ci|X) > P(Cj|X) 成立,则样本模式 X 被判定为类别 Ci


3.极大后验假设

根据贝叶斯公式可得到一种计算后验概率的方法:在一定假设的条件下,根据先验概率和统计样本数据得到的概率,可以得到后验概率。


令P(c)是假设c的先验概率,它表示c是正确假设的概率,P(X) 表示的是训练样本X的先验概率,P(X|c) 表示在假设c正确的条件下样本X发生或出现的概率,根据贝叶斯公式可以得到后验概率的计算公式:

39de365fa8ca58a66d157e97fa0e6728_eb0259ac97a84d8ea671dd02ffb7473f.png



p设C为类别集合也就是待选假设集合,在给定未知类别标号样本X时,通过计算找到可能性最大的假设c∈C,具有最大可能性的假设或类别被称为极大后验假设(maximum a posteriori),记作 :


588fb7b1f04eee461b0dedd06bb9f0c9_186c6575516347c9a14d62b6ce968fd8.png


4.例题

b2a2d9225af16786b806166d9f0419ed_8a91f9e59d34405e8252034af6638232.png


假设当天的天气情况:X = { Sunny, Hot, High, Weak },判断今天是否可以打网球?


①统计个数


484ea0b7b21fb0419c2fac0f9be02312_0c818713dc224f59ae94d62060fcd417.png


②计算先验概率


e0516d4c6d0f56d41957148d3062bec7_6359ac6a67674402b26c7eb6c1c9adae.png


③计算后验概率(由于我们是判断当日是否出去打球,所以下面计算时,只计算上面一部分)


f4bf951edbcef2b35511fb53defad2af_71dcfe74d0244f1fbd7998cf3fddd4ec.png


P(Yes | X) = P(Yes)*P(Sunny|Yes)*P(Hot|Yes)*P(High|Yes)P(Weak|Yes)


= 9/14 * 2/9 * 2/9 * 3/9 * 6/9 ≈ 0.0071


P(No | X) = P(No)*P(Sunny|No)*P(Hot|No)*P(High|No)P(Weak|No)


= 5/14 * 3/5 * 2/5 * 4/5 * 2/5 ≈ 0.0026


2.朴素贝叶斯分类模型

朴素贝叶斯分类模型:算法逻辑简单、运算速度快、分类耗时短、精度高


以属性的类条件独立性假设为前提,即在给定类别状态条件下,属性之间是相互独立的


朴素贝叶斯分类器的算法描述:

初始化:随机选择一个类别作为“先验概率”,通常设为0.5。这意味着在训练过程中,我们始终将样本分为两个类别:正例(或支持例,positive example)和负例(或拒绝例,negative example)。

计算后验概率:对于每个样本,我们需要计算其属于各个类别的后验概率。对于给定的样本,我们可以使用贝叶斯公式来计算其属于各个类别的后验概率:P(C|X) = (P(X|C) * P(C)) / P(X);其中,P(C|X) 是样本 X 在类别 C 下的后验概率,P(X|C) 是类别 C 下样本为正例的似然度,P(C) 是类别 C 的先验概率,P(X) 是样本 X 的边际概率。

选择最优类别:根据所有样本的后验概率,选择具有最高概率的类别作为最终预测结果。

需要注意的是,朴素贝叶斯分类器假设特征之间相互独立。在实际应用中,这种假设可能并不总是成立,因此需要对模型进行调整以适应特定的数据分布。此外,朴素贝叶斯分类器在处理缺失值和噪声数据时可能表现不佳。


00943547d32dbfec643a2655e17c237b_66d98f970c1c4194b37d5a77396494a0.png


朴素贝叶斯分类器的结构示意图


朴素贝叶斯算法特点

优点


逻辑简单、易实现、分类过程中时间空间开销比较小;


算法比较稳定、具有比较好的健壮性


缺点


有属性间类条件独立的这个假定,而很多实际问题中这个独立性假设并不成立,导致分类效果下降。


3.贝叶斯信念网

贝叶斯信念网络,简称贝叶斯网络,用图形表示一组随机变量之间的概率关系


贝叶斯网络有两个主要成分:


一个有向无环图,表示变量之间的依赖关系

一个条件概率表,把各结点和它的直接父结点关联起来

在贝叶斯信念网中,每个结点还关联一个概率表。如果结点X没有父母结点,则表中只包含先验概率P(X),如果结点X只有一个父母结点Y,则表中包含条件概率P(X|Y),如果结点X有多个父母结点 {Y1, Y2,…, Yk} ,则表中包含条件概率  P(X|Y1, Y2,…, Yk)                                  


贝叶斯网络的建模包括两个步骤

创建网络结构

预估每一个结点在概率表中的概率值

贝叶斯信念网特点

BBN提供了一种用图形模型来捕获特定领域的先验知识的方法;

网络结构确定,添加新变量就十分容易;

贝叶斯网络很适合处理不完整的数据;

对模型的过分拟合问题是非常鲁棒的。

目录
相关文章
|
22天前
|
机器学习/深度学习 存储 算法
分类算法(数据挖掘)
分类算法(数据挖掘)
|
2月前
|
算法 数据挖掘 大数据
探索数据挖掘中的特征选择算法
在数据挖掘领域,特征选择是一项至关重要的任务。本文将深入探讨几种常用的特征选择算法,并比较它们在不同数据集上的表现,旨在帮助数据分析师和研究人员更好地应用这些算法来提升模型性能。
|
数据采集 算法 数据挖掘
【数据挖掘实战】——中医证型的关联规则挖掘(Apriori算法)
项目地址:Datamining_project: 数据挖掘实战项目代码
535 0
|
数据采集 机器学习/深度学习 数据可视化
数据挖掘导论——分类与预测(三)
数据挖掘导论——分类与预测
217 0
数据挖掘导论——分类与预测(三)
|
数据挖掘
数据挖掘导论——分类与预测(二)
数据挖掘导论——分类与预测
156 0
数据挖掘导论——分类与预测(二)
|
数据挖掘
数据挖掘导论——分类与预测(一)
数据挖掘导论——分类与预测
220 0
数据挖掘导论——分类与预测(一)
|
机器学习/深度学习 数据挖掘 大数据
【数据挖掘】数据挖掘总结 ( 贝叶斯分类器 ) ★
【数据挖掘】数据挖掘总结 ( 贝叶斯分类器 ) ★
154 0
|
机器学习/深度学习 算法 数据挖掘
数据挖掘十大经典算法——kNN
K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空 间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。
2042 0
|
算法 数据挖掘
数据挖掘十大经典算法——AdaBoost
AdaBoost,是英文"Adaptive Boosting"(自适应增强)的缩写,是一种机器学习方法,由Yoav Freund和Robert Schapire提出。
1402 0
|
机器学习/深度学习 算法 数据挖掘
数据挖掘十大经典算法——Svm
支持向量机,英文为Support Vector Machine,简称SV机(论文中一般简称SVM)。它是一 种监督式学习的方法,它广泛的应用于统计分类以及回归分析中。
1800 0