【Python机器学习】朴素贝叶斯分类的讲解及预测决策实战(图文解释 附源码)

简介: 【Python机器学习】朴素贝叶斯分类的讲解及预测决策实战(图文解释 附源码)

需要代码请点赞关注收藏后评论区留言私信~~~

朴素贝叶斯分类

朴素贝叶斯(naïve Bayes)分类是基于贝叶斯定理与特征条件独立假定的分类方法。

设试验E的样本空间为S,A为E的事件,B_1,B_2,⋯,B_n为S的一个划分,且P(A)>0,P(B_i)>0(i=1,2,…,n),则贝叶斯公式为:

P(B_i)称为先验概率,即分类B_i发生的概率,它和条件概率P(A│B_i)可从样本集中估计得到。通过贝叶斯公式就可以找到使后验概率P(B_i│A)最大的B_i。即A事件发生时,最有可能的分类B_i。

设样本集为S={s_1,s_2,…,s_m},每个样本s_i=(x_i,y_i)包括一个实例x_i和一个标签y_i。标签y_i有k种取值{y_i^(1),y_i^(2),…,y_i^(k)}。

朴素贝叶斯法首先基于特征条件独立假定,从样本集中学习到先验概率和条件概率,然后基于它们,对给定的测试样本x,利用贝叶斯公式求出使后验概率最大的预测值y。y可看作x所属分类的编号。

特征条件独立假定,是指假定样本的各个特征是相互独立的,互不关联。这个假定显然是不符合实际的,但它可以在大数据量、大特征量的情况下极大简化计算,使得贝叶斯算法实际可行。从实际应用情况来看,朴素贝叶斯分类也取得了不错的效果。

1:多项式朴素贝叶斯分类器

多项式朴素贝叶斯分类器假设条件概率P(A│B_i)服从多项式分布。多次抛硬币实验中,出现指定次数正面(或反面)的概率是二项分布。将二项分布中的两种状态推广到多种状态,就得到了多项式分布。

class sklearn.naive_bayes.MultinomialNB(*, alpha=1.0, fit_prior=True, class_prior=None)
fit(X, y, sample_weight=None)
predict(X)
predict_proba(X)

其中,alpha称为平滑值,它用来避免在估计条件概率时出现值为0的情况,它的取值大于0,当等于1时,称为Laplace平滑。

当假定特征取值符合0-1分布时,多项式分类器 退化为伯努利朴素贝叶斯分类器,即伯努利朴素分类器中,特征只能取两个值,它在某些场合下比多项式分类器效果更好一些,使用伯努利分类器之前,需要先将非二值的特征转化为二值的特征

部分代码如下  用来预测相亲问题

# 训练样本集
blind_date_X = [ [35, 176, 0, 20000],
                 [28, 178, 1, 10000],
                 [26, 172, 0,],
                 [29, 173, 2, 20000],
                 [28, 174, 0, 15000] ]
blind_date_y = [ 0, 1, 0, 1, 1 ]
# 测试样本集
test_sample = [  [24, 178, 2, 170],
                 [27, 176, 0, 25000],
                 [27, 176, 0, 10000]  ]
# 多项式朴素贝叶斯分类器
from sklearn.naive_bayes import MultinomialNB
clf = MultinomialNB()
clf.fit(blind_date_X, blind_date_y)
print(clf.predict(test_sample))

2:高斯朴素贝叶斯分类器

当特征值是连续变量的时候,可采用高斯朴素贝叶斯分类器。高斯朴素贝叶斯分类器假设条件概率P(A│B_i)服从参数未知的高斯分布。

代码如下

from sklearn.naive_bayes import GaussianNB
clf = GaussianNB()
clf.fit(blind_date_X, blind_date_y)
print(clf.predict(test_sample))
>>> [1 0 1]
print(clf.class_prior_) # 标签的先验概率
>>> [0.4 0.6]
print(clf.class_count_) # 每个标签的样本数量
>>> [2. 3.]
print(clf.theta_) # 高斯模型的期望值
>>> [[3.05000000e+01 1.74000000e+02 0.00000000e+00 2.25000000e+04]
     [2.83333333e+01 1.75000000e+02 1.00000000e+00 1.50000000e+04]]
print(clf.sigma_) # 高斯模型的方差
>>> [[2.02760000e+01 4.02600000e+00 2.60000000e-02 6.25000003e+06]
     [2.48222222e-01 4.69266667e+00 6.92666667e-01 1.66666667e+07]]

朴素贝叶斯法实现简单,学习与预测的效率都很高,甚至在某些特征相关性较高的情况下都有不错的表现,是一种常用的方法

创作不易 觉得有帮助请点赞关注收藏~~~

相关文章
|
6天前
|
API 数据库 数据安全/隐私保护
Flask框架在Python面试中的应用与实战
【4月更文挑战第18天】Django REST framework (DRF) 是用于构建Web API的强力工具,尤其适合Django应用。本文深入讨论DRF面试常见问题,包括视图、序列化、路由、权限控制、分页过滤排序及错误处理。同时,强调了易错点如序列化器验证、权限认证配置、API版本管理、性能优化和响应格式统一,并提供实战代码示例。了解这些知识点有助于在Python面试中展现优秀的Web服务开发能力。
22 1
|
5天前
|
机器学习/深度学习 算法 数据挖掘
PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SVM分析营销活动数据|数据分享-2
PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SVM分析营销活动数据|数据分享
28 1
|
1天前
|
人工智能 安全 Java
Python 多线程编程实战:threading 模块的最佳实践
Python 多线程编程实战:threading 模块的最佳实践
11 5
|
4天前
|
机器学习/深度学习 算法 搜索推荐
Python用机器学习算法进行因果推断与增量、增益模型Uplift Modeling智能营销模型
Python用机器学习算法进行因果推断与增量、增益模型Uplift Modeling智能营销模型
31 12
|
4天前
|
人工智能 Python
【AI大模型应用开发】【LangChain系列】实战案例1:用LangChain写Python代码并执行来生成答案
【AI大模型应用开发】【LangChain系列】实战案例1:用LangChain写Python代码并执行来生成答案
9 0
|
6天前
|
SQL 中间件 API
Flask框架在Python面试中的应用与实战
【4月更文挑战第18天】**Flask是Python的轻量级Web框架,以其简洁API和强大扩展性受欢迎。本文深入探讨了面试中关于Flask的常见问题,包括路由、Jinja2模板、数据库操作、中间件和错误处理。同时,提到了易错点,如路由冲突、模板安全、SQL注入,以及请求上下文管理。通过实例代码展示了如何创建和管理数据库、使用表单以及处理请求。掌握这些知识将有助于在面试中展现Flask技能。**
12 1
Flask框架在Python面试中的应用与实战
|
8天前
|
SQL 关系型数据库 MySQL
Python与MySQL数据库交互:面试实战
【4月更文挑战第16天】本文介绍了Python与MySQL交互的面试重点,包括使用`mysql-connector-python`或`pymysql`连接数据库、执行SQL查询、异常处理、防止SQL注入、事务管理和ORM框架。易错点包括忘记关闭连接、忽视异常处理、硬编码SQL、忽略事务及过度依赖低效查询。通过理解这些问题和提供策略,可提升面试表现。
29 6
|
9天前
|
机器学习/深度学习 数据可视化 数据挖掘
《Python 简易速速上手小册》第9章:数据科学和机器学习入门(2024 最新版)
《Python 简易速速上手小册》第9章:数据科学和机器学习入门(2024 最新版)
19 1
|
10天前
|
机器学习/深度学习 存储 算法
PYTHON集成机器学习:用ADABOOST、决策树、逻辑回归集成模型分类和回归和网格搜索超参数优化
PYTHON集成机器学习:用ADABOOST、决策树、逻辑回归集成模型分类和回归和网格搜索超参数优化
31 7