文章目录
一、 贝叶斯分类器分类的流程
二、 拉普拉斯修正
三、 贝叶斯分类器示例2
参考博客 :
【数据挖掘】贝叶斯分类 ( 贝叶斯分类器 | 贝叶斯推断 | 逆向概率 | 贝叶斯公式 | 贝叶斯公式推导 | 使用贝叶斯公式求逆向概率 )
【数据挖掘】贝叶斯公式应用 拼写纠正示例分析 ( 先验概率 | 似然概率 | 后验概率 )
【数据挖掘】贝叶斯公式在垃圾邮件过滤中的应用 ( 先验概率 | 似然概率 | 后验概率 )
【数据挖掘】朴素贝叶斯分类器 ( 多属性概率计算 | 朴素贝叶斯分类案例分析 )
【数据挖掘】拉普拉斯修正 ( 判别模型 | 概率模型 | 贝叶斯分类 | 拉普拉斯修正 | 朴素贝叶斯分类应用场景 | 朴素贝叶斯优缺点 )
【数据挖掘】贝叶斯信念网络 ( 马尔科夫假设 | 结构 | 有向无环图 | 参数 | 条件概率表 | 案例分析 )
一、 贝叶斯分类器分类的流程
已知条件 :
已知样本 : 已知若干个样本
未知样本 : 给定 1 11 个未知样本 , 其有 4 44 个属性组成向量 X \rm XX , 样本的分类有两种 , Y \rm YY 和 N \rm NN ; ( Yes / No )
分类步骤 :
计算两个概率 , 即
① 样本取值为 X \rm XX 向量时 , 分类为 Y \rm YY 的概率 , 公式为 P ( Y ∣ X ) = P ( X ∣ Y ) P ( Y ) P ( X ) \rm P(Y|X) = \cfrac{P(X | Y) P(Y)}{P(X)}P(Y∣X)=
P(X)
P(X∣Y)P(Y)
, 其中 P ( X ∣ Y ) P ( Y ) \rm P(X | Y) P(Y)P(X∣Y)P(Y) 含义是 : 样本分类 Y \rm YY 的概率 P ( Y ) \rm P(Y)P(Y) , 乘以 样本分类为 Y \rm YY 前提下样本取值 X \rm XX 时的概率 P ( X ∣ Y ) \rm P(X | Y)P(X∣Y) , 是 P ( X Y ) \rm P(XY)P(XY) 共同发生的概率 ;
② 样本取值为 X \rm XX 向量时 , 分类为 N \rm NN 的概率 , 公式为 P ( N ∣ X ) = P ( X ∣ N ) P ( N ) P ( X ) \rm P(N|X) = \cfrac{P(X | N) P(N)}{P(X)}P(N∣X)=
P(X)
P(X∣N)P(N)
, 其中 P ( X ∣ N ) P ( N ) \rm P(X | N) P(N)P(X∣N)P(N) 含义是 : 样本分类为 N \rm NN 的概率 P ( N ) \rm P(N)P(N) , 乘以 样本取值 N \rm NN 时的概率 P ( X ∣ N ) \rm P(X | N)P(X∣N) , 是 P ( X N ) \rm P(XN)P(XN) 共同发生的概率 ;
上述两个概率 , 哪个概率高 , 就将该样本分为哪个分类 ;
先验概率 : P ( Y ) \rm P(Y)P(Y) , P ( N ) \rm P(N)P(N) ;
后验概率 : P ( X ∣ Y ) \rm P(X | Y)P(X∣Y) , P ( X ∣ N ) \rm P(X | N)P(X∣N) ;
公式中每个元素的含义参考 【数据挖掘】贝叶斯分类 ( 贝叶斯分类器 | 贝叶斯推断 | 逆向概率 | 贝叶斯公式 | 贝叶斯公式推导 | 使用贝叶斯公式求逆向概率 )
上述两个公式 P ( Y ∣ X ) = P ( X ∣ Y ) P ( Y ) P ( X ) \rm P(Y|X) = \cfrac{P(X | Y) P(Y)}{P(X)}P(Y∣X)=
P(X)
P(X∣Y)P(Y)
和 P ( N ∣ X ) = P ( X ∣ N ) P ( N ) P ( X ) \rm P(N|X) = \cfrac{P(X | N) P(N)}{P(X)}P(N∣X)=
P(X)
P(X∣N)P(N)
, 分母都是 P ( X ) \rm P(X)P(X) , 只比较分子即可 , 其中先验概率 P ( Y ) \rm P(Y)P(Y) , P ( N ) \rm P(N)P(N) 很容易求得 , 重点是求两个后验概率 P ( X ∣ Y ) P ( Y ) \rm P(X | Y) P(Y)P(X∣Y)P(Y) , P ( X ∣ N ) P ( N ) \rm P(X | N) P(N)P(X∣N)P(N) ;
后验概率 P ( X ∣ Y ) \rm P(X | Y)P(X∣Y) 求法 : 针对 X \rm XX 向量中 4 44 个分量属性的取值 , 当样品类型是 Y \rm YY 时 , 分量 1 11 取值为该分量属性时的概率 , 同理计算出 4 44 个分量属性对应的 4 44 个概率 , 最后将 四个概率相乘 ;
后验概率 P ( X ∣ Y ) \rm P(X | Y)P(X∣Y) 再乘以先验概率 P ( Y ) \rm P(Y)P(Y) , 就是最终的 未知样本分类为 Y \rm YY 类型的概率 ;
最终对比样本 , ① 未知样本分类为 Y \rm YY 类型的概率 , ② 未知样本分类为 N \rm NN 类型的概率 , 哪个概率大 , 就分类为哪个类型 ;
二、 拉普拉斯修正
在计算后验概率 P ( X ∣ Y ) \rm P(X | Y)P(X∣Y) 时 , 需要计算出 当样品类型是 Y \rm YY 时 , X \rm XX 向量的 分量 1 11 取值为该分量属性时的概率 , 同理计算出 4 44 个分量属性对应的 4 44 个概率 , 最后将 四个概率相乘 ;
如果上述 4 44 个相乘的概率其中有一个是 0 00 , 那么最终结果肯定就是 0 00 , 这里需要避免这种情况 , 引入拉普拉斯修正 ;
直接上栗子 , 不扯公式 ;
如果计算时 , 9 99 个样本是购买商品的 , 但年龄都大于 30 3030 , 计算过程如下 ;
P ( 年 龄 小 于 30 ∣ Y ) = 0 9 \rm P( 年龄小于 30 | Y) = \cfrac{0}{9}P(年龄小于30∣Y)=
9
0
拉普拉斯修正就是分子加 1 11 , 分母加上样本类型个数 2 22 ; ( 样本有两个类型 , Y \rm YY 购买商品 , N \rm NN 不购买商品 ) ;
P ( 年 龄 小 于 30 ∣ Y ) = 0 + 1 9 + 2 = 1 11 \rm P( 年龄小于 30 | Y) = \cfrac{0 + 1}{9 + 2} = \cfrac{1}{11}P(年龄小于30∣Y)=
9+2
0+1
=
11
1
注意是所有的分量的概率都要进行拉普拉斯修正 , 不能只修正这一个 ;
具体的详细的公式以及理论查看 【数据挖掘】拉普拉斯修正 ( 判别模型 | 概率模型 | 贝叶斯分类 | 拉普拉斯修正 | 朴素贝叶斯分类应用场景 | 朴素贝叶斯优缺点 )
三、 贝叶斯分类器示例2
分类需求 : 根据 年龄 , 收入水平 , 级别 , 部门 , 人数 , 预测 " 年龄 31..35 31..3531..35, 收入 41 k . . 45 k \rm 41k..45k41k..45k , s y s t e m s \rm systemssystems 部门 " 的员工级别 ;
年龄 收入 级别 部门 人数
31..35 31..3531..35 46 k . . 50 k \rm 46k..50k46k..50k s e n i o r \rm seniorsenior s a l e s \rm salessales 30 3030
26..30 26..3026..30 26 k . . 30 k \rm 26k..30k26k..30k j u n i o r \rm juniorjunior s a l e s \rm salessales 40 \rm 4040
31..35 31..3531..35 31 k . . 35 k \rm 31k..35k31k..35k j u n i o r \rm juniorjunior s a l e s \rm salessales 40 \rm 4040
21..25 21..2521..25 46 k . . 50 k \rm 46k..50k46k..50k j u n i o r \rm juniorjunior s y s t e m s \rm systemssystems 20 \rm 2020
31..35 31..3531..35 66 k . . 70 k \rm 66k..70k66k..70k s e n i o r \rm seniorsenior s y s t e m s \rm systemssystems 5 \rm 55
26..30 26..3026..30 46 k . . 50 k \rm 46k..50k46k..50k j u n i o r \rm juniorjunior s y s t e m s \rm systemssystems 3 \rm 33
41..45 41..4541..45 66 k . . 45 k \rm 66k..45k66k..45k s e n i o r \rm seniorsenior s y s t e m s \rm systemssystems 3 \rm 33
36..40 36..4036..40 46 k . . 50 k \rm 46k..50k46k..50k s e n i o r \rm seniorsenior m a r k e t i n g \rm marketingmarketing 10 \rm 1010
31..35 31..3531..35 41 k . . 45 k \rm 41k..45k41k..45k j u n i o r \rm juniorjunior m a r k e t i n g \rm marketingmarketing 4 \rm 44
46..50 46..5046..50 36 k . . 40 k \rm 36k..40k36k..40k s e n i o r \rm seniorsenior s e c r e t a r y \rm secretarysecretary 4 \rm 44
26..30 26..3026..30 26 k . . 30 k \rm 26k..30k26k..30k j u n i o r \rm juniorjunior s e c r e t a r y \rm secretarysecretary 6 \rm 66
未知样本 取值 X \rm XX 向量 为 " 年龄 31..35 31..3531..35, 收入 41 k . . 45 k \rm 41k..45k41k..45k , s y s t e m s \rm systemssystems 部门 " ;
未知样本 分类为 s e n i o r \rm seniorsenior ( 高级 ) 类型的概率 : P ( s e n i o r ∣ X ) = P ( X ∣ s e n i o r ) P ( s e n i o r ) P ( X ) \rm P(senior | X) = \cfrac{P(X|senior) P(senior)}{P(X)}P(senior∣X)=
P(X)
P(X∣senior)P(senior)
未知样本 分类为 j u n i o r \rm juniorjunior ( 低级 ) 类型的概率 : P ( j u n i o r ∣ X ) = P ( X ∣ j u n i o r ) P ( j u n i o r ) P ( X ) \rm P(junior | X) = \cfrac{P(X|junior) P(junior)}{P(X)}P(junior∣X)=
P(X)
P(X∣junior)P(junior)
上述两个概率的分母 P ( X ) \rm P(X)P(X) 是常数 , 对比时可以忽略 , 只需要对比分子即可 ;
先验概率 P ( s e n i o r ) = 52 165 \rm P(senior) = \cfrac{52}{165}P(senior)=
165
52
, P ( j u n i o r ) = 113 165 \rm P(junior) = \cfrac{113}{165}P(junior)=
165
113
, 52 5252 个人是 s e n i o r \rm seniorsenior 级别 , 113 113113 个人是 j u n i o r \rm juniorjunior 级别 ;
后验概率
① P ( X ∣ s e n i o r ) = P ( 年 龄 31..35 ∣ s e n i o r ) × P ( 收 入 41 k . . 45 k ∣ s e n i o r ) × P ( 部 门 s y s t e m s ∣ s e n i o r ) = 8 52 × 35 52 × 0 52 \rm
P(X|senior)==P(年龄31..35|senior)×P(收入41k..45k|senior)×P(部门systems|senior)852×3552×052
P(X|senior)=P(年龄31..35|senior)×P(收入41k..45k|senior)×P(部门systems|senior)=852×3552×052
P(X∣senior)
=
=
P(年龄31..35∣senior)×P(收入41k..45k∣senior)×P(部门systems∣senior)
52
8
×
52
35
×
52
0
上述后验概率的结果为 0 \rm 00 , 需要进行 拉普拉斯修正 , 上述式子中的三个概率分子都需要 + 1 +1+1 , 分母都需要 + 2 +2+2 , 分母是分类的个数 , s e n i o r \rm seniorsenior 和 j u n i o r \rm juniorjunior 两个分类 , 因此分母 + 2 +2+2 ;
拉普拉斯修正后的结果 :
P ( X ∣ s e n i o r ) = 8 + 1 52 + 2 × 35 + 1 52 + 2 × 0 + 1 52 + 2 = 9 54 × 36 54 × 1 54 \rm
P(X|senior)==8+152+2×35+152+2×0+152+2954×3654×154
P(X|senior)=8+152+2×35+152+2×0+152+2=954×3654×154
P(X∣senior)
=
=
52+2
8+1
×
52+2
35+1
×
52+2
0+1
54
9
×
54
36
×
54
1
② P ( X ∣ j u n i o r ) = P ( 年 龄 31..35 ∣ j u n i o r ) × P ( 收 入 41 k . . 45 k ∣ j u n i o r ) × P ( 部 门 s y s t e m s ∣ j u n i o r ) = 23 113 × 44 113 × 4 113 \rm
P(X|junior)==P(年龄31..35|junior)×P(收入41k..45k|junior)×P(部门systems|junior)23113×44113×4113
P(X|junior)=P(年龄31..35|junior)×P(收入41k..45k|junior)×P(部门systems|junior)=23113×44113×4113
P(X∣junior)
=
=
P(年龄31..35∣junior)×P(收入41k..45k∣junior)×P(部门systems∣junior)
113
23
×
113
44
×
113
4
未知样本 分类为 Y \rm YY 类型的概率 分子 : P ( X ∣ s e n i o r ) P ( s e n i o r ) = 9 54 × 36 54 × 1 54 × 52 165 ≈ 0.0006 \rm P(X|senior) P(senior) = \cfrac{9}{54} \times \cfrac{36}{54} \times \cfrac{1}{54} \times \cfrac{52}{165} \approx 0.0006P(X∣senior)P(senior)=
54
9
×
54
36
×
54
1
×
165
52
≈0.0006
未知样本 分类为 N \rm NN 类型的概率 分子 : P ( X ∣ j u n i o r ) P ( j u n i o r ) = 23 113 × 44 113 × 4 113 × 113 165 ≈ 0.0024 \rm P(X|junior) P(junior) = \cfrac{23}{113} \times \cfrac{44}{113} \times \cfrac{4}{113} \times \cfrac{113}{165} \approx 0.0024P(X∣junior)P(junior)=
113
23
×
113
44
×
113
4
×
165
113
≈0.0024
该样本分类 为 j u n i o r \rm juniorjunior , 是低级员工 ;