【机器学习】贝叶斯分类器代码实现（python+sklearn）

2023-01-18 378

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【机器学习】贝叶斯分类器代码实现（python+sklearn）

简介：下面是我在学习时候的记录并加上自己的理解。本文意在记录自己近期学习过程中的所学所得，如有错误，欢迎大家指正。

关键词：Python、机器学习、贝叶斯分类器

一、贝叶斯分类器

在sklearn-learn官方封装好的模块中，已经有了BernoulliNB（伯努利分类器）、GaussianNB（高斯分类器）、MultinomialNB（多项式分类器）、ComplementNB（互补贝叶斯分类器）、CategoricalNB。

这些分类器的大体原理是一样的，都是根据先验概率和条件概率去求后验概率，不同之处就是不同的分类器对我们数据的假设分布不一样，比如高斯分类器就是假设每个类别下的每一特征分量符合的是正态分布。

注意目前几个分类器只可以用于分类使用，不能够用于回归建模。

1.高斯分类器代码实现

from sklearn.naive_bayes import GaussianNB
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
# 1.加载数据
X, y = load_digits(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=2021)
# 2.定义分类器
clf = GaussianNB()
# 3.模型训练
clf.fit(X_train, y_train)
# print(clf.class_count_)
# print(clf.classes_)
# print(clf.sigma_) 返回每个类别下每个特征分量的均值
# print(clf.theta_) 返回每个类别下每个特征分量的方差
print(X.shape)
print(clf.theta_.shape)
# 4.模型结果
print("训练集分数：", clf.score(X_train, y_train))
print("测试集分数：", clf.score(X_test, y_test))
# 如果我们的数据集较为大时，一次性不能够全部读入内存，此时就可以用partial_fit方法进行分批进行训练
clf.partial_fit(X_train, y_train)
print("训练集分数：", clf.score(X_train, y_train))
print("测试集分数：", clf.score(X_test, y_test))

输出结果：

(1797, 64)
(10, 64)
训练集分数： 0.847255369928401
测试集分数： 0.8444444444444444
训练集分数： 0.847255369928401
测试集分数： 0.8444444444444444

高斯分类器非常简单，因为在构造模型时不需要任何的参数。

上面可能看到partial_fit这个方法，这个方法也是用于训练模型的，它的使用场景就是当我们的训练数据集特别大，cpu不能够一次性的容纳下，此时就需要使用该方法进行分块学习，其实它和深度学习中的批次差不多。

其中模型中有两个重要的参数分别为sigma_，theta_，他们两个分别代表的是每个类别下每个特征分量的均值和方差。

2.多项式分类器

from sklearn.naive_bayes import MultinomialNB
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
# 1.加载数据
X, y = load_digits(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=2021)
# 2.定义分类器
clf = MultinomialNB()
# 3.模型训练
clf.fit(X_train, y_train)
# 4.模型结果
print("训练集分数：", clf.score(X_train, y_train))
print("测试集分数：", clf.score(X_test, y_test))
# 如果我们的数据集较为大时，一次性不能够全部读入内存，此时就可以用partial_fit方法进行分批进行训练
clf.partial_fit(X_train, y_train)
print("训练集分数：", clf.score(X_train, y_train))
print("测试集分数：", clf.score(X_test, y_test))

输出结果：

训练集分数： 0.9085123309466985
测试集分数： 0.9092592592592592
训练集分数： 0.9085123309466985
测试集分数： 0.9092592592592592

【机器学习】贝叶斯分类器代码实现（python+sklearn）

一、贝叶斯分类器

1.高斯分类器代码实现

2.多项式分类器

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【机器学习】贝叶斯分类器代码实现（python+sklearn）

一、贝叶斯分类器

1.高斯分类器代码实现

2.多项式分类器

热门文章

最新文章

相关课程

相关电子书

推荐镜像