需要代码请点赞关注收藏后评论区留言私信~~~
朴素贝叶斯分类
朴素贝叶斯(naïve Bayes)分类是基于贝叶斯定理与特征条件独立假定的分类方法。
设试验E的样本空间为S,A为E的事件,B_1,B_2,⋯,B_n为S的一个划分,且P(A)>0,P(B_i)>0(i=1,2,…,n),则贝叶斯公式为:
P(B_i)称为先验概率,即分类B_i发生的概率,它和条件概率P(A│B_i)可从样本集中估计得到。通过贝叶斯公式就可以找到使后验概率P(B_i│A)最大的B_i。即A事件发生时,最有可能的分类B_i。
设样本集为S={s_1,s_2,…,s_m},每个样本s_i=(x_i,y_i)包括一个实例x_i和一个标签y_i。标签y_i有k种取值{y_i^(1),y_i^(2),…,y_i^(k)}。
朴素贝叶斯法首先基于特征条件独立假定,从样本集中学习到先验概率和条件概率,然后基于它们,对给定的测试样本x,利用贝叶斯公式求出使后验概率最大的预测值y。y可看作x所属分类的编号。
特征条件独立假定,是指假定样本的各个特征是相互独立的,互不关联。这个假定显然是不符合实际的,但它可以在大数据量、大特征量的情况下极大简化计算,使得贝叶斯算法实际可行。从实际应用情况来看,朴素贝叶斯分类也取得了不错的效果。
1:多项式朴素贝叶斯分类器
多项式朴素贝叶斯分类器假设条件概率P(A│B_i)服从多项式分布。多次抛硬币实验中,出现指定次数正面(或反面)的概率是二项分布。将二项分布中的两种状态推广到多种状态,就得到了多项式分布。
class sklearn.naive_bayes.MultinomialNB(*, alpha=1.0, fit_prior=True, class_prior=None) fit(X, y, sample_weight=None) predict(X) predict_proba(X)
其中,alpha称为平滑值,它用来避免在估计条件概率时出现值为0的情况,它的取值大于0,当等于1时,称为Laplace平滑。
当假定特征取值符合0-1分布时,多项式分类器 退化为伯努利朴素贝叶斯分类器,即伯努利朴素分类器中,特征只能取两个值,它在某些场合下比多项式分类器效果更好一些,使用伯努利分类器之前,需要先将非二值的特征转化为二值的特征
部分代码如下 用来预测相亲问题
# 训练样本集 blind_date_X = [ [35, 176, 0, 20000], [28, 178, 1, 10000], [26, 172, 0,], [29, 173, 2, 20000], [28, 174, 0, 15000] ] blind_date_y = [ 0, 1, 0, 1, 1 ] # 测试样本集 test_sample = [ [24, 178, 2, 170], [27, 176, 0, 25000], [27, 176, 0, 10000] ] # 多项式朴素贝叶斯分类器 from sklearn.naive_bayes import MultinomialNB clf = MultinomialNB() clf.fit(blind_date_X, blind_date_y) print(clf.predict(test_sample))
2:高斯朴素贝叶斯分类器
当特征值是连续变量的时候,可采用高斯朴素贝叶斯分类器。高斯朴素贝叶斯分类器假设条件概率P(A│B_i)服从参数未知的高斯分布。
代码如下
from sklearn.naive_bayes import GaussianNB clf = GaussianNB() clf.fit(blind_date_X, blind_date_y) print(clf.predict(test_sample)) >>> [1 0 1] print(clf.class_prior_) # 标签的先验概率 >>> [0.4 0.6] print(clf.class_count_) # 每个标签的样本数量 >>> [2. 3.] print(clf.theta_) # 高斯模型的期望值 >>> [[3.05000000e+01 1.74000000e+02 0.00000000e+00 2.25000000e+04] [2.83333333e+01 1.75000000e+02 1.00000000e+00 1.50000000e+04]] print(clf.sigma_) # 高斯模型的方差 >>> [[2.02760000e+01 4.02600000e+00 2.60000000e-02 6.25000003e+06] [2.48222222e-01 4.69266667e+00 6.92666667e-01 1.66666667e+07]]
朴素贝叶斯法实现简单,学习与预测的效率都很高,甚至在某些特征相关性较高的情况下都有不错的表现,是一种常用的方法
创作不易 觉得有帮助请点赞关注收藏~~~