朴素贝叶斯
刚刚学完朴素贝叶斯就来和大家一起分享了啊哈哈哈哈哈,个人一直感觉贝叶斯是一个很神奇的理论,因为相比于其他的概率,我们先求的是我们结果发生的概率,然后是在已经知道结果的基础上去判断出我们事件发生的概率。同时会引入我们的先验概率,后验概率,条件概率。我们先来看看文邹邹的解释。
至于为什么叫他朴素?
还不是因为在他的理解和判断中所有的标签相互独立,我们下面通过一个小小的咧子一起来学习一下吧
小例子
我们现在给出两个特征和一个结果,具体分析一下
什么是先验概率?
就是我们啥也不看,直接看结果的标签概率,我们可以看到这里一个只有两种可能
男: 1/2
女: 1/2
好的恭喜已经会先验概率了,就是直接把我们结果的所有可能的占比求出
什么是后验概率?
这也是我觉得神奇的地方,我们假设我们已经知道了结果,然后去求他们标签出现的概率,他也是属于条件概率的一种
在我们已经知道性别的情况下,他们标签所占地比值
p(高|男生):2/5 ——————p(高|女生):0/5
p(中|男生):2/5 ——————p(中|女生):4/5
p(低|男生):1/5 ——————p(低|女生):1/5
p(重|男生):3/5 ——————p(重|女生):2/5
p(轻|男生):2/5 ——————p(轻|女生):3/5
这里注意我们的分母就是我们所在当前结果的总和
应用
现在我告诉你
体重:重
身高:中
性别:???
好的现在我们就可以用我们的朴素贝叶斯了,下面的其实是全概率公式
我们刚刚不是求出了各种的条件概率吗
我们先看看如果是男生的概率: p(重|男生):3/5 乘以 p(中|男生):2/5
我们再来看看如果是女生的概率 p(重|女生):2/5 乘以 p(中|女生):4/5
这些的乘集就是公式的分子
在假设是男生的情况下 分子:6/25
再假设是女生的情况下 分子:8/25
我们的分母是全概率公式,也就是我们的分母是相同的
于是在这样的条件下,我们分子大的,概率就自然就高了,很明显在这里我们会把它判断成女生
应用
嘿嘿,向我们语义的识别,判断是不是垃圾邮件呀,因为这些,我们可以去获取里面单个的标签的频数,已经我们结果的数目,这样又回到我们的朴素贝叶斯了,当如如果我们学得更加深入的话,还会了解到连续性的随机变量,以及我们的平滑曲线,有兴趣的话可以去了解一下,小唐算是给我们大家开了一个头啊哈哈哈哈哈。