快速入门Python机器学习(11)

简介: 快速入门Python机器学习(11)

朴素贝叶斯可以分为贝努利贝叶斯(BernoulliNB)、高斯贝叶斯(GaussianNB)和多项式贝叶斯(MultinomailNB)。贝努利贝叶斯(BernoulliNB)又可以分为二项分布和0-1分布。我们首先来介绍贝努利贝叶斯(BernoulliNB)。


7.3 贝努利贝叶斯(BernoulliNB)


7.3.1 属性与方法


class sklearn.naive_bayes.BernoulliNB(*, alpha=1.0, binarize=0.0, fit_prior=True, class_prior=None)


属性

解释

class_count_

ndarray of shape (n_classes)拟合期间遇到的每个类的样本数。

class_log_prior_

ndarray of shape (n_classes)当提供时,该值由样本重量加权。

classes_

ndarray of shape (n_classes,)每类的对数概率(平滑)。

coef_

ndarray of shape (n_classes, n_features)分类器已知的类标签反射镜的特征是把伯努利谱解释为一个线性模型。

feature_count_

ndarray of shape (n_classes, n_features)拟合期间每个(类、特征)遇到的样本数。

feature_log_prob_

ndarray of shape (n_classes, n_features)当提供时,该值由样本重量加权。给定一类特征的经验对数概率Px|i|y)。

intercept_

ndarray of shape (n_classes,)镜像类logprior,用于将BernoulliNB解释为线性模型。

n_features_

int每个样本的特征数。


方法


fit(X, y[, sample_weight])

根据Xy拟合朴素贝叶斯分类器

get_params([deep])

获取此估计器的参数。

partial_fit(X, y[, classes, sample_weight])

对一批样品进行增量拟合。

predict(X)

对测试向量X的数组执行分类。

predict_log_proba(X)

测试向量X的返回对数概率估计。

predict_proba(X)

测试向量X的返回概率估计。

score(X, y[, sample_weight])

返回给定测试数据和标签的平均精度。

set_params(**params)

设置此估计器的参数。


7.3.2用贝努利贝叶斯make_blobs

def bernoulliNB_for_make_blobs():
       myutil = util()
       X,y = make_blobs(n_samples=500,centers=8, random_state=8)
       X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=8)
       nb = BernoulliNB()
       nb.fit(X,y)
       title = "贝努利贝叶斯 make_blobs"
       myutil.draw_scatter(X,y,nb,title)
       myutil.print_scores(nb,X_train,y_train,X_test,y_test,title)
       myutil.plot_learning_curve(BernoulliNB(),X,y,title)
       myutil.show_pic(title)


输出

贝努利贝叶斯 make_blobs:
38.13%
贝努利贝叶斯 make_blobs:
37.60%


用贝努利贝叶斯make_blobs效果不是很好。

image.png

image.png


7.3.3用贝努利贝叶斯分析鸢尾花数据

def bernoulliNB_for_iris():
       myutil = util()
       X,y = datasets.load_iris().data,datasets.load_iris().target
       X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=8)
       nb = BernoulliNB()
       nb.fit(X,y)
       title = "贝努利贝叶斯 鸢尾花"
       myutil.print_scores(nb,X_train,y_train,X_test,y_test,title)
       myutil.plot_learning_curve(BernoulliNB(),X,y,title)
       myutil.show_pic(title)


输出

贝努利贝叶斯 鸢尾花:
33.04%
贝努利贝叶斯 鸢尾花:
34.21%


用贝努利贝叶斯分析鸢尾花数据效果不是很好

image.png


7.3.4用贝努利贝叶斯分析红酒数据

def bernoulliNB_for_wine():
       myutil = util()
       X,y = datasets.load_wine().data,datasets.load_wine().target
       X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=8)
       nb = BernoulliNB()
       nb.fit(X,y)
       title = "贝努利贝叶斯 红酒"
       myutil.print_scores(nb,X_train,y_train,X_test,y_test,title)
       myutil.plot_learning_curve(BernoulliNB(),X,y,title)
       myutil.show_pic(title)


输出

贝努利贝叶斯 红酒:
41.35%
贝努利贝叶斯 红酒:
35.56%


用贝努利贝叶斯分析红酒数据效果也不是很好

image.png


7.3.5用贝努利贝叶斯分析乳腺癌数据

def bernoulliNB_for_breast_cancer():
       myutil = util()
       X,y = datasets.load_breast_cancer().data,datasets.load_breast_cancer().target
       X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=8)
       nb = BernoulliNB()
       nb.fit(X,y)
       title = "贝努利贝叶斯 乳腺癌"
       myutil.print_scores(nb,X_train,y_train,X_test,y_test,title)
       myutil.plot_learning_curve(BernoulliNB(),X,y,title)
       myutil.show_pic(title)


输出

贝努利贝叶斯 乳腺癌:
63.85%
贝努利贝叶斯 乳腺癌:
59.44%


用贝努利贝叶斯分析乳腺癌数据效果仍旧不是很好。


7.4 高斯贝叶斯(GaussianNB)


7.4.1 属性与方法


classsklearn.naive_bayes.GaussianNB(*, priors=None, var_smoothing=1e-09)


属性

属性

解释

class_count_

ndarray of shape (n_classes,)每类观察到的训练样本数。

class_prior_

ndarray of shape (n_classes,)每一类的概率。

classes_

ndarray of shape (n_classes,)分类器已知的类标签

epsilon_

float方差的绝对加和值

sigma_

ndarray of shape (n_classes, n_features)每类特征的方差

theta_

ndarray of shape (n_classes, n_features)每类特征的平均值


方法

fit(X, y[, sample_weight])

根据Xy拟合高斯朴素贝叶斯

get_params([deep])

获取此估计器的参数。

partial_fit(X, y[, classes, sample_weight])

对一批样品进行增量拟合。

predict(X)

对测试向量X的数组执行分类。

predict_log_proba(X)

测试向量X的返回对数概率估计。

predict_proba(X)

测试向量X的返回概率估计。

score(X, y[, sample_weight])

返回给定测试数据和标签的平均精度。

set_params(**params)

设置此估计器的参数。


7.4.2用高斯贝叶斯make_blobs

def bernoulliNB_for_make_blobs():
       myutil = util()
       X,y = make_blobs(n_samples=500,centers=8, random_state=8)
       X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=8)
       nb = GaussianNB ()
       nb.fit(X,y)
       title = "高斯贝叶斯 make_blobs"
       myutil.draw_scatter(X,y,nb,title)
       myutil.print_scores(nb,X_train,y_train,X_test,y_test,title)
       myutil.plot_learning_curve(BernoulliNB(),X,y,title)
       myutil.show_pic(title)


输出

高斯贝叶斯 make_blobs:
85.60%
高斯贝叶斯 make_blobs:
92.00%


用高斯贝叶斯make_blobs效果还是不错的。

image.png

image.png


7.3.3用高斯贝叶斯分析鸢尾花数据

def bernoulliNB_for_iris():
       myutil = util()
       X,y = datasets.load_iris().data,datasets.load_iris().target
       X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=8)
       nb = GaussianNB()
       nb.fit(X,y)
       title = "高斯贝叶斯 鸢尾花"
       myutil.print_scores(nb,X_train,y_train,X_test,y_test,title)
       myutil.plot_learning_curve(GaussianNB(),X,y,title)
       myutil.show_pic(title)


输出

高斯贝叶斯 鸢尾花:
98.21%
高斯贝叶斯 鸢尾花:
89.47%


用高斯贝叶斯分析鸢尾花数据效果仍旧很好。

image.png


7.3.4用高斯贝叶斯分析红酒数据

def bernoulliNB_for_wine():
       myutil = util()
       X,y = datasets.load_wine().data,datasets.load_wine().target
       X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=8)
       nb = GaussianNB()
       nb.fit(X,y)
       title = "高斯贝叶斯 红酒"
       myutil.print_scores(nb,X_train,y_train,X_test,y_test,title)
       myutil.plot_learning_curve(GaussianNB(),X,y,title)
       myutil.show_pic(title)


输出

高斯贝叶斯 红酒:
99.25%
高斯贝叶斯 红酒:
97.78%


用高斯贝叶斯分析红酒数据效果仍旧很好

image.png


7.3.5用高斯贝叶斯分析乳腺癌数据

def bernoulliNB_for_breast_cancer():
       myutil = util()
       X,y = datasets.load_breast_cancer().data,datasets.load_breast_cancer().target
       X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=8)
       nb = GaussianNB()
       nb.fit(X,y)
       title = "高斯贝叶斯 乳腺癌"
       myutil.print_scores(nb,X_train,y_train,X_test,y_test,title)
       myutil.plot_learning_curve(GaussianNB(),X,y,title)
       myutil.show_pic(title)


输出

高斯贝叶斯 乳腺癌:
94.37%
高斯贝叶斯 乳腺癌:
93.71%


用高斯贝叶斯分析乳腺癌数据效果仍旧很好。

目录
相关文章
|
4天前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
18 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
6天前
|
机器学习/深度学习 数据采集 人工智能
探索机器学习:从理论到Python代码实践
【10月更文挑战第36天】本文将深入浅出地介绍机器学习的基本概念、主要算法及其在Python中的实现。我们将通过实际案例,展示如何使用scikit-learn库进行数据预处理、模型选择和参数调优。无论你是初学者还是有一定基础的开发者,都能从中获得启发和实践指导。
17 2
|
8天前
|
机器学习/深度学习 数据采集 搜索推荐
利用Python和机器学习构建电影推荐系统
利用Python和机器学习构建电影推荐系统
23 1
|
8天前
|
机器学习/深度学习 算法 PyTorch
用Python实现简单机器学习模型:以鸢尾花数据集为例
用Python实现简单机器学习模型:以鸢尾花数据集为例
25 1
|
14天前
|
机器学习/深度学习 数据采集 算法
Python机器学习:Scikit-learn库的高效使用技巧
【10月更文挑战第28天】Scikit-learn 是 Python 中最受欢迎的机器学习库之一,以其简洁的 API、丰富的算法和良好的文档支持而受到开发者喜爱。本文介绍了 Scikit-learn 的高效使用技巧,包括数据预处理(如使用 Pipeline 和 ColumnTransformer)、模型选择与评估(如交叉验证和 GridSearchCV)以及模型持久化(如使用 joblib)。通过这些技巧,你可以在机器学习项目中事半功倍。
21 3
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024
阿里云人工智能平台 PAI 团队发表的图像编辑算法论文在 MM2024 上正式亮相发表。ACM MM(ACM国际多媒体会议)是国际多媒体领域的顶级会议,旨在为研究人员、工程师和行业专家提供一个交流平台,以展示在多媒体领域的最新研究成果、技术进展和应用案例。其主题涵盖了图像处理、视频分析、音频处理、社交媒体和多媒体系统等广泛领域。此次入选标志着阿里云人工智能平台 PAI 在图像编辑算法方面的研究获得了学术界的充分认可。
【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024
|
25天前
|
机器学习/深度学习 算法 Java
机器学习、基础算法、python常见面试题必知必答系列大全:(面试问题持续更新)
机器学习、基础算法、python常见面试题必知必答系列大全:(面试问题持续更新)
|
1月前
|
机器学习/深度学习 人工智能 算法
【玉米病害识别】Python+卷积神经网络算法+人工智能+深度学习+计算机课设项目+TensorFlow+模型训练
玉米病害识别系统,本系统使用Python作为主要开发语言,通过收集了8种常见的玉米叶部病害图片数据集('矮花叶病', '健康', '灰斑病一般', '灰斑病严重', '锈病一般', '锈病严重', '叶斑病一般', '叶斑病严重'),然后基于TensorFlow搭建卷积神经网络算法模型,通过对数据集进行多轮迭代训练,最后得到一个识别精度较高的模型文件。再使用Django搭建Web网页操作平台,实现用户上传一张玉米病害图片识别其名称。
54 0
【玉米病害识别】Python+卷积神经网络算法+人工智能+深度学习+计算机课设项目+TensorFlow+模型训练
|
1月前
|
机器学习/深度学习 算法 决策智能
【机器学习】揭秘深度学习优化算法:加速训练与提升性能
【机器学习】揭秘深度学习优化算法:加速训练与提升性能
|
1月前
|
机器学习/深度学习 算法 Python
探索机器学习中的决策树算法:从理论到实践
【10月更文挑战第5天】本文旨在通过浅显易懂的语言,带领读者了解并实现一个基础的决策树模型。我们将从决策树的基本概念出发,逐步深入其构建过程,包括特征选择、树的生成与剪枝等关键技术点,并以一个简单的例子演示如何用Python代码实现一个决策树分类器。文章不仅注重理论阐述,更侧重于实际操作,以期帮助初学者快速入门并在真实数据上应用这一算法。