算法的改进与优化
贝叶斯分类器是利用概率论的知识进行分类的算法,该算法利用贝叶斯定理来预测一个未知样本的可能属性,但贝叶斯分类中有一个很强的假设,即要求各样本的属性之间是相互独立的。该假设往往与实际情况不符,大大影响了分类器的效果,为此很多学者提出了些改进的办法。
为了解决这个问题,一些学者提出改进朴素贝叶斯,其改进的途径主要有两个方面:一是放弃条件独立性的假设,在NBC的基础上增加属性间可能存在的依赖关系;另一种是重新构建样本属性集,以新的属性替代原来的属性集,期望在新的属性间存在较好的条件独立关系。
其中最著名的一种改进方法就是TAN算法,TAN算法通过发现属性之间的依赖关系来降低朴素贝叶斯算法任意属性之间的独立性假设,它是在朴素贝叶斯的基础上增加属性之间的关联来实现的。
SKLearn实践(部分)
执行结果:
中文分词项目实践
预测函数:
打分函数:
预测结果: