开发者学堂课程【机器学习算法 :朴素贝叶斯3】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/535/detail/7278
朴素贝叶斯3
内容介绍
一、拉普拉斯平滑
二、应用实践
三、朴素贝叶斯算法的优缺点
一、拉普拉斯平滑
拉普拉斯平滑:分类过程中,有时会碰到零概率问题,即某个待预测样本中的某个属性取值在样本中没有出现过,会导致整个概率的计算结果为0。拉普拉斯平滑通过在分子、分母上加上调整可以很好的解决这类问题。
在最终预测的时候,样本已经存在,需要确定样本属于哪一个分类的时候,分子部分是连乘,是很多属性取值条件概率的乘积,有任何一个乘积为0,就会导致整个式子分类失败。
二、应用实践
1.如上图所示:条件概率为 ni/N,对其进行拉普拉斯平滑,即分子+1,分母+k(其中 k 为输出分类的个数)通过上述方式,解决0概率的问题。
2.以之前的购买记录分类为例:
P(中年|否)=0,此结果对最后结果有哪些影响?假设预测新纪录,中年、收入高、不是单身、信用良好会不会购买电脑?
(1)若按朴素贝叶斯方式计算会得到:
是或否都会正比于后面的式子,需要对两个式子进行对比,但其中包含了 P(中年|否)=0,那么否这一栏不需要计算,恒等于0,但并不等于中年、收入高、不是单身、信用良好一定会购买电脑,因为 P(中年|否)=0,没有出想过,没有前提支持,并不了解,将其做成0是不合适的。
(2)我们通过拉普拉斯平滑修正,因为他是0个,所有的中年人中有0个人购买电脑对其进行加一处理,分母加二处理即可,P(中年|否)=0+1/5+2=1/7。
(3)就可以使用P(中年|否)=1/7。进行继续计算,在进行对比即可,解决0概率问题。
三、朴素贝叶斯算法的优缺点
NB 优点:
1.有统计学基础背书,分类效率稳定支持多2.分类任务对缺失数据不敏感
3.算法简单,模型容易解释
4.计算量小,支持海量数据
5.支持增量式计算,可用作在线预测
NB 缺点:
1. 需要有先验概率,主观性强,不同值对结果有影响
2. 分类决策存在错误率
3.对输入数据表达形式敏感
4.“朴素”的假设对结果影响大