【数据挖掘】数据挖掘总结 ( 贝叶斯分类器示例 ) ★

简介: 【数据挖掘】数据挖掘总结 ( 贝叶斯分类器示例 ) ★

文章目录

一、 贝叶斯分类器分类的流程

二、 贝叶斯分类器分类示例 1



参考博客 :


【数据挖掘】贝叶斯分类 ( 贝叶斯分类器 | 贝叶斯推断 | 逆向概率 | 贝叶斯公式 | 贝叶斯公式推导 | 使用贝叶斯公式求逆向概率 )

【数据挖掘】贝叶斯公式应用 拼写纠正示例分析 ( 先验概率 | 似然概率 | 后验概率 )

【数据挖掘】贝叶斯公式在垃圾邮件过滤中的应用 ( 先验概率 | 似然概率 | 后验概率 )

【数据挖掘】朴素贝叶斯分类器 ( 多属性概率计算 | 朴素贝叶斯分类案例分析 )

【数据挖掘】拉普拉斯修正 ( 判别模型 | 概率模型 | 贝叶斯分类 | 拉普拉斯修正 | 朴素贝叶斯分类应用场景 | 朴素贝叶斯优缺点 )

【数据挖掘】贝叶斯信念网络 ( 马尔科夫假设 | 结构 | 有向无环图 | 参数 | 条件概率表 | 案例分析 )





一、 贝叶斯分类器分类的流程


已知条件 :


已知样本 : 已知若干个样本


未知样本 : 给定 1 11 个未知样本 , 其有 4 44 个属性组成向量 X \rm XX , 样本的分类有两种 , Y \rm YY 和 N \rm NN ; ( Yes / No )



分类步骤 :


计算两个概率 , 即


① 样本取值为 X \rm XX 向量时 , 分类为 Y \rm YY 的概率 , 公式为 P ( Y ∣ X ) = P ( X ∣ Y ) P ( Y ) P ( X ) \rm P(Y|X) = \cfrac{P(X | Y) P(Y)}{P(X)}P(Y∣X)=

P(X)

P(X∣Y)P(Y)


 , 其中 P ( X ∣ Y ) P ( Y ) \rm P(X | Y) P(Y)P(X∣Y)P(Y) 含义是 : 样本分类 Y \rm YY 的概率 P ( Y ) \rm P(Y)P(Y) , 乘以 样本分类为 Y \rm YY 前提下样本取值 X \rm XX 时的概率 P ( X ∣ Y ) \rm P(X | Y)P(X∣Y) , 是 P ( X Y ) \rm P(XY)P(XY) 共同发生的概率 ;


② 样本取值为 X \rm XX 向量时 , 分类为 N \rm NN 的概率 , 公式为 P ( N ∣ X ) = P ( X ∣ N ) P ( N ) P ( X ) \rm P(N|X) = \cfrac{P(X | N) P(N)}{P(X)}P(N∣X)=

P(X)

P(X∣N)P(N)


 , 其中 P ( X ∣ N ) P ( N ) \rm P(X | N) P(N)P(X∣N)P(N) 含义是 : 样本分类为 N \rm NN 的概率 P ( N ) \rm P(N)P(N) , 乘以 样本取值 N \rm NN 时的概率 P ( X ∣ N ) \rm P(X | N)P(X∣N) , 是 P ( X N ) \rm P(XN)P(XN) 共同发生的概率 ;


上述两个概率 , 哪个概率高 , 就将该样本分为哪个分类 ;



先验概率 : P ( Y ) \rm P(Y)P(Y) , P ( N ) \rm P(N)P(N) ;


后验概率 : P ( X ∣ Y ) P ( Y ) \rm P(X | Y) P(Y)P(X∣Y)P(Y) , P ( X ∣ N ) P ( N ) \rm P(X | N) P(N)P(X∣N)P(N) ;


公式中每个元素的含义参考 【数据挖掘】贝叶斯分类 ( 贝叶斯分类器 | 贝叶斯推断 | 逆向概率 | 贝叶斯公式 | 贝叶斯公式推导 | 使用贝叶斯公式求逆向概率 )


上述两个公式 P ( Y ∣ X ) = P ( X ∣ Y ) P ( Y ) P ( X ) \rm P(Y|X) = \cfrac{P(X | Y) P(Y)}{P(X)}P(Y∣X)=

P(X)

P(X∣Y)P(Y)


 和 P ( N ∣ X ) = P ( X ∣ N ) P ( N ) P ( X ) \rm P(N|X) = \cfrac{P(X | N) P(N)}{P(X)}P(N∣X)=

P(X)

P(X∣N)P(N)


 , 分母都是 P ( X ) \rm P(X)P(X) , 只比较分子即可 , 其中先验概率 P ( Y ) \rm P(Y)P(Y) , P ( N ) \rm P(N)P(N) 很容易求得 , 重点是求两个后验概率 P ( X ∣ Y ) P ( Y ) \rm P(X | Y) P(Y)P(X∣Y)P(Y) , P ( X ∣ N ) P ( N ) \rm P(X | N) P(N)P(X∣N)P(N) ;



后验概率 P ( X ∣ Y ) \rm P(X | Y)P(X∣Y) 求法 : 针对 X \rm XX 向量中 4 44 个分量属性的取值 , 当样品类型是 Y \rm YY 时 , 分量 1 11 取值为该分量属性时的概率 , 同理计算出 4 44 个分量属性对应的 4 44 个概率 , 最后将 四个概率相乘 ;


后验概率 P ( X ∣ Y ) \rm P(X | Y)P(X∣Y) 再乘以先验概率 P ( Y ) \rm P(Y)P(Y) , 就是最终的 未知样本分类为 Y \rm YY 类型的概率 ;



最终对比样本 , ① 未知样本分类为 Y \rm YY 类型的概率 , ② 未知样本分类为 N \rm NN 类型的概率 , 哪个概率大 , 就分类为哪个类型 ;






二、 贝叶斯分类器分类示例 1


分类需求 : 根据 年龄 , 收入水平 , 是否是学生 , 信用等级 , 预测 " 年龄小于 30 岁 , 收入中等 , 学生 , 信用等级一般 " 的用户是否会购买商品 ;



年龄 收入水平 是否是学生 信用等级 是否购买商品

小于 30 岁 高收入 不是 一般 不会 N \rm NN

小于 30 岁 高收入 不是 很好 不会 N \rm NN

31 ~ 39 岁 高收入 不是 一般 会 Y \rm YY

40 岁以上 中等收入 不是 一般 会 Y \rm YY

40 岁以上 低收入 是 一般 会 Y \rm YY

40 岁以上 低收入 是 很好 不会 N \rm NN

31 ~ 40 岁 低收入 不是 很好 会 Y \rm YY

小于 30 岁 中等收入 不是 一般 不会 N \rm NN

小于 30 岁 低收入 是 一般 会 Y \rm YY

40 岁以上 中等收入 是 一般 会 Y \rm YY

小于 30 岁 中等收入 是 很好 会 Y \rm YY

31 ~ 39 岁 中等收入 不是 很好 会 Y \rm YY

31 ~ 39 岁 高收入 是 一般 会 Y \rm YY

40 岁以上 中等收入 不是 很好 不会 N \rm NN


未知样本 取值 X \rm XX 向量 为 " 年龄小于 30 岁 , 收入中等 , 学生 , 信用等级一般 " ;


未知样本 分类为 Y \rm YY 类型的概率 : P ( Y ∣ X ) = P ( X ∣ Y ) P ( Y ) P ( X ) \rm P(Y | X) = \cfrac{P(X|Y) P(Y)}{P(X)}P(Y∣X)=

P(X)

P(X∣Y)P(Y)



未知样本 分类为 N \rm NN 类型的概率 : P ( N ∣ X ) = P ( X ∣ N ) P ( N ) P ( X ) \rm P(N | X) = \cfrac{P(X|N) P(N)}{P(X)}P(N∣X)=

P(X)

P(X∣N)P(N)



上述两个概率的分母 P ( X ) \rm P(X)P(X) 是常数 , 对比时可以忽略 , 只需要对比分子即可 ;


先验概率 P ( Y ) = 9 14 \rm P(Y) = \cfrac{9}{14}P(Y)=

14

9


 , P ( N ) = 5 14 \rm P(N) = \cfrac{5}{14}P(N)=

14

5


 , 9 99 个人购买商品 , 5 55 个人没有购买商品 ;


后验概率


① P ( X ∣ Y ) = P ( 年 龄 小 于 30 ∣ Y ) × P ( 收 入 中 等 ∣ Y ) × P ( 是 学 生 ∣ Y ) × P ( 信 用 等 级 一 般 ∣ Y ) = 2 9 × 4 9 × 6 9 × 6 9 \rm

P(X|Y)==P(年龄小于30|Y)×P(收入中等|Y)×P(是学生|Y)×P(信用等级一般|Y)29×49×69×69

P(X|Y)=P(年龄小于30|Y)×P(收入中等|Y)×P(是学生|Y)×P(信用等级一般|Y)=29×49×69×69

P(X∣Y)


 

=

=


 

P(年龄小于30∣Y)×P(收入中等∣Y)×P(是学生∣Y)×P(信用等级一般∣Y)

9

2


×

9

4


×

9

6


×

9

6




② P ( X ∣ N ) = P ( 年 龄 小 于 30 ∣ N ) × P ( 收 入 中 等 ∣ N ) × P ( 是 学 生 ∣ N ) × P ( 信 用 等 级 一 般 ∣ N ) = 3 5 × 2 5 × 1 5 × 2 5

P(X|N)==P(年龄小于30|N)×P(收入中等|N)×P(是学生|N)×P(信用等级一般|N)35×25×15×25

P(X|N)=P(年龄小于30|N)×P(收入中等|N)×P(是学生|N)×P(信用等级一般|N)=35×25×15×25

P(X∣N)


 

=

=


 

P(年龄小于30∣N)×P(收入中等∣N)×P(是学生∣N)×P(信用等级一般∣N)

5

3


×

5

2


×

5

1


×

5

2




未知样本 分类为 Y \rm YY 类型的概率 分子 : P ( X ∣ Y ) P ( Y ) = 2 9 × 4 9 × 6 9 × 6 9 × 9 14 ≈ 0.0282186948853616 P(X|Y) P(Y) = \cfrac{2}{9} \times \cfrac{4}{9} \times \cfrac{6}{9} \times \cfrac{6}{9} \times \cfrac{9}{14} \approx 0.0282186948853616P(X∣Y)P(Y)=

9

2


×

9

4


×

9

6


×

9

6


×

14

9


≈0.0282186948853616


未知样本 分类为 N \rm NN 类型的概率 分子 : P ( X ∣ N ) P ( N ) = 3 5 × 2 5 × 1 5 × 2 5 × 5 14 ≈ 0.0068571428571429 P(X|N) P(N) = \cfrac{3}{5} \times \cfrac{2}{5} \times \cfrac{1}{5} \times \frac{2}{5} \times \cfrac{5}{14} \approx 0.0068571428571429P(X∣N)P(N)=

5

3


×

5

2


×

5

1


×

5

2


×

14

5


≈0.0068571428571429



该样本分类 为 Y \rm YY , 会购买商品 ;


目录
相关文章
|
7月前
|
机器学习/深度学习 数据挖掘 Python
【数据挖掘】分类器模型性能评估讲解及iris数据集评估实战(超详细 附源码)
【数据挖掘】分类器模型性能评估讲解及iris数据集评估实战(超详细 附源码)
192 0
|
4月前
|
机器学习/深度学习 算法 数据挖掘
【数据挖掘】 GBDT面试题:其中基分类器CART回归树,节点的分裂标准是什么?与RF的区别?与XGB的区别?
文章讨论了梯度提升决策树(GBDT)中的基分类器CART回归树的节点分裂标准,并比较了GBDT与随机森林(RF)和XGBoost(XGB)的区别,包括集成学习方式、偏差-方差权衡、样本使用、并行性、最终结果融合、数据敏感性以及泛化能力等方面的不同。
62 1
|
算法 数据挖掘 BI
数据挖掘(5.1)--贝叶斯分类
贝叶斯方法是一种研究不确定性的推理方法,不确定性常用贝叶斯概率表示,它是一种主观概率,是个人主观的估计,随个人的主观认识的变化而变化
133 0
|
机器学习/深度学习 数据挖掘 vr&ar
【数据挖掘】数据挖掘总结 ( 拉普拉斯修正 | 贝叶斯分类器示例2 ) ★
【数据挖掘】数据挖掘总结 ( 拉普拉斯修正 | 贝叶斯分类器示例2 ) ★
450 0
|
机器学习/深度学习 数据挖掘 大数据
【数据挖掘】数据挖掘总结 ( 贝叶斯分类器 ) ★
【数据挖掘】数据挖掘总结 ( 贝叶斯分类器 ) ★
193 0
|
算法 IDE 数据挖掘
【数据挖掘】关联规则挖掘 Apriori 算法 ( 置信度 | 置信度示例 )
【数据挖掘】关联规则挖掘 Apriori 算法 ( 置信度 | 置信度示例 )
404 0
|
算法 数据挖掘 Windows
【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction 概念 | 项 Item 概念 | 项集 Item Set | 频繁项集 | 示例解析 )
【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction 概念 | 项 Item 概念 | 项集 Item Set | 频繁项集 | 示例解析 )
187 0

热门文章

最新文章