开发者学堂课程【机器学习算法 :朴素贝叶斯2】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/535/detail/7277
朴素贝叶斯2
一、朴素贝叶斯例子
以上样本数据表明客户是否购买电脑的信息,记录了客户的年龄、收入层次、是否单身、信用等级等信息。
待预测记录:年龄为老年、收入层次低、不是单身、信用等级一般的人群是否会购买电脑。
有14个样本,每个样本有4个特征,需要注意的是记录标识不会参与到建模和预测当中去。
特征依次为:
年龄:X1={青少年,中年,老年}
收入层次:X2={高,中,低}
是否单身:X3={否,是}
信用等级:X4={一般,良好}
输出有2个分类:Y={是、否}
按照朴素贝叶斯的步骤,
1.学习先验概率:P(Y=Cj),j=1,2.…,k
P(Y=是)=9/14 (14个样本中,包含9个是),同理可得: P(Y=否)=5/14
2. 为了计算联合分布概率,需要计算以下项:
3.由贝叶斯公式对上式进行处理:
3. 计算年龄 X1={青少年,中年,老年}:
将相应数值带进去即可算出年龄为青少年,并且购买电脑的概率为2/9,同理可以算出年龄为青少年,并且不购买电脑的概率为3/5。
同理,可以计算出年龄分别为中年和老年购买以及不购买电脑的概率,分别为:
P(中年|是)=4/9,P(中年|否)=0
P(老年|是)=3/9,P(老年|否)=2/5
4. 计算收入层次 X2={高,中,低}
P(高|是)=2/9,P(高|否)=2/5
P(中|是)=4/9,P(中|否)=2/5
P(低|是)=3/9,P(低|否)=1/5
5. 计算是否单身:X3={否,是}
P(单身|是)=6/9,P(单身|否)=1/5
P(不单身|是)=3/9,P(不单身|否)=4/5
6. 计算信用等级:x4={一般,良好}
P(一般|是)=6/9,P(一般|否)=2/5
P(良好|是)=3/9,P(良好|否)=3/5
7. 待预测记录:
将联合概率转换成单个事件概率的乘积整理后得:
还需计算出,带预测记录属于不购买人群的概率:
发现两个式子结果的分母是一样的,只需要计算分子即可,哪个分子大就说明哪个概率大
得出:待预测记录购买电脑概率正比于分子部分,以及待预测记录不购买电脑概率正比于分子部分。接下来只需要比对分子大小即可。
8. 计算结果:
将之前所计算出的各项概率结果都一一列出,如上图所示,接下来将两个式子的分子部分所需数据带入,即可比较分子大小。
待预测记录购买电脑概率的分子部分所得出结果为:
9/14*3/9*3/9*3/9*6/9=0.01587302
待预测记录不购买电脑概率的分子部分所得出结果为:
5/14*2/5*1/5*4/5*2/5=0.009142857
所以上方的结果大于下方结果,所以会将待预测结果归结于“是”的结果中,
即:年龄为老年、收入层次低、不是单身、信用等级一般的人群是会购买电脑。