基于朴素贝叶斯算法对新闻文本进行分类

2022-12-31 259

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 基于朴素贝叶斯算法对新闻文本进行分类

朴素贝叶斯算法

贝叶斯定理

贝叶斯定理（Bayes Theorem）也称贝叶斯公式，是关于随机事件的条件概率的定理定理内容：如果随机事件A1 ,A2 ,...,An构成样本空间的一个划分（不重、不漏），且都有正概率，则对任何一个事件B（P(B)>0），有

提示：贝叶斯定理是“由果溯因”的推断，所以计算的是"后验概率"

举例说明：

据天气预报预测，今日下雨(事件A)的概率为50%——P(A)；

堵车（事件B）的概率是80%——P（B）

如果下雨，堵车的概率是95%——P(B|A)

计算：如果放眼望去，已经堵车了，下雨的概率是多少？

根据贝叶斯定理：P(A|B)=0.5x0.95÷0.8=0.59375

朴素贝叶斯算法原理

重要前提条件：一定要“朴素”—— 样本的各特征之间相互独立

对于待分类样本，在此待分类样本出现的条件下（也就是样本各个特征已知），计算各个类别出现的概率，哪个最大就认为此样本属于哪个类别。

详细过程

1 设x={a1 ,a2 1 ,...,am}为一个待分类项，而每个a为x的一个特征属性

2 有类别集合C={y1 ,y2 2 ,...,yn}

3 计算P(y1|x)，P(y2|x)，...，P(yn|x)

4 如果P(yk|x)=max{P(y1|x)，P(y2|x)，...，P(yn|x)}，则x∈yk 4

对于第三步的详细计算：

朴素贝叶斯的三种方式

三种朴素贝叶斯的适用条件

伯努利朴素贝叶斯

适用于离散变量，条件是各个特征是服从伯努利分布（0-1分布），每一个特征的取值只能有两种值。在scikit-learn中，使用 sklearn.naive_bayes.BernoulliNB实现伯努利朴素贝叶斯。

高斯朴素贝叶斯

适用于连续变量，条件是各个特征是服从正态分布的。在scikitlearn中，使用 sklearn.naive_bayes.GaussianNB实现高斯朴素贝叶斯。

多项式朴素贝叶斯

适用于离散变量，条件是各个特征是服从多项式分布的，所以每个特征值不能是负数。在scikit-learn中，使用sklearn.naive_bayes.MultinomialNB实现多项式朴素贝叶斯。

补充：多项式分布来源于统计学中的多项式实验：实验包括n次重复试验，每项试验都有不同的可能结果。在任何给定的试验中，特定结果发生的概率是不变的

实战——对新闻文本进行文本分类

文本特征向量化

使用朴素贝叶斯模型去给文本数据分类，就必须对文本数据进行文本特征向量化

本节课使用CountVectorizer进行文本特征向量化

CountVectorizer会统计特定文档中单词出现的次数（统计词频）

CountVectorizer通过fit_transform()函数计算各个词语出现的次数

加载新闻数据、文本分类

本案例使用sklearn.datasets.fetch_20newsgroups函数下载新闻数据（比较耗时）

使用sklearn.naive_bayes.MultinomialNB进行文本分类

from sklearn.datasets import fetch_20newsgroups  # 从sklearn.datasets里导入新闻数据抓取器 fetch_20newsgroups
from sklearn.model_selection import  train_test_split
from sklearn.feature_extraction.text import CountVectorizer  # 从sklearn.feature_extraction.text里导入文本特征向量化模块
from sklearn.naive_bayes import MultinomialNB  
news = fetch_20newsgroups(subset='all')   # 下载新闻数据，比较耗时
len(news.data)  # 输出数据的条数：18846
# 拆分数据集
X_train,X_test,y_train,y_test = train_test_split(news.data,news.target,test_size=0.25,random_state=666)
# 文本特征向量化
vec = CountVectorizer()  # 通过统计词频进行文本向量化
X_train = vec.fit_transform(X_train)
X_test = vec.transform(X_test)
# 使用多项式朴素贝叶斯进行文本分类
mnb = MultinomialNB()
mnb.fit(X_train,y_train)
mnb.score(X_test,y_test)  # 测试集上的准确率

基于朴素贝叶斯算法对新闻文本进行分类

朴素贝叶斯算法

朴素贝叶斯的三种方式

实战——对新闻文本进行文本分类

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

基于朴素贝叶斯算法对新闻文本进行分类

朴素贝叶斯算法

朴素贝叶斯的三种方式

实战——对新闻文本进行文本分类

热门文章

最新文章

相关课程

相关电子书

相关实验场景