ML之NB:基于news新闻文本数据集利用朴素贝叶斯算法实现文本分类预测daiding

简介: ML之NB:基于news新闻文本数据集利用朴素贝叶斯算法实现文本分类预测daiding

输出结果


image.png


<class 'pandas.core.frame.DataFrame'>

RangeIndex: 1293 entries, 0 to 1292

Data columns (total 6 columns):

#   Column      Non-Null Count  Dtype

---  ------      --------------  -----

0   Unnamed: 0  1293 non-null   int64

1   content     1292 non-null   object

2   id          1293 non-null   int64

3   tags        1293 non-null   object

4   time        1293 non-null   object

5   title       1293 non-null   object

dtypes: int64(2), object(4)

memory usage: 60.7+ KB

None

  Unnamed: 0                                            content  \

0           0   牵动人心的雄安新区规划细节内容和出台时间表敲定。日前,北京商报记者从业内获悉,京津冀协同发...  

1           1  去年以来,多个城市先后发布了多项楼市调控政策。在限购、限贷甚至限售的政策“组合拳”下,房地产...  

2           2  在今年中国国际自行车展上,上海凤凰自行车总裁王朝阳表示,共享单车的到来把我们打懵了,影响更是...  

3           3  25家上市银行迎来了一年一度的“分红季”,21世纪经济报道记者根据公开信息梳理发现,25家银...  

4           4  说起卷饼,大家其实并不陌生,这个来自中原的传统美食,发展至今也衍生出各种各样的种类,卷边的制...  

                   id                                  tags  \

0  6428905748545732865   ['财经', '白洋淀', '城市规划', '徐匡迪', '太行山']  

1  6428954136200855810   ['财经', '碧桂园', '万科集团', '投资', '广州恒大']  

2  6420576443738784002    ['财经', '自行车', '凤凰', '王朝阳', '汽车展览']  

3  6429007290541031681  ['财经', '银行', '工商银行', '兴业银行', '交通银行']  

4  6397481672254619905     ['财经', '小吃', '装修', '市场营销', '手工艺']  

                 time                   title  

0  2017-06-07 22:52:55  雄安新区规划“骨架”敲定,方案有望9月底出炉  

1  2017-06-08 08:01:13       “红五月”不红 房企资金链压力攀升  

2  2017-05-16 12:03:00      凤凰自行车总裁:共享单车把我们打懵了  

3  2017-06-08 07:00:00    25家银行分红季派出3536亿“大红包”  

4  2017-03-15 07:03:22      五万以下的小本餐饮项目,卷饼赚钱最稳  

chinese_pattern re.compile('[\\u4e00-\\u9fff]+')

Building prefix dict from F:\File_Jupyter\实用代码\naive_bayes(简单贝叶斯)\jieba_dict\dict.txt.big ...

Loading model from cache

Prefix dict has been built succesfully.

<class 'gensim.corpora.dictionary.Dictionary'> Dictionary(46351 unique tokens: ['一个', '一个个', '一举一动', '一些', '一体']...)

<class 'method'> <bound method Dictionary.doc2bow of <gensim.corpora.dictionary.Dictionary object at 0x00000228613844E0>>

  Unnamed: 0                                            content  \

0           0   牵动人心的雄安新区规划细节内容和出台时间表敲定。日前,北京商报记者从业内获悉,京津冀协同发...  

1           1  去年以来,多个城市先后发布了多项楼市调控政策。在限购、限贷甚至限售的政策“组合拳”下,房地产...  

2           2  在今年中国国际自行车展上,上海凤凰自行车总裁王朝阳表示,共享单车的到来把我们打懵了,影响更是...  

                   id                                 tags  \

0  6428905748545732865  ['财经', '白洋淀', '城市规划', '徐匡迪', '太行山']  

1  6428954136200855810  ['财经', '碧桂园', '万科集团', '投资', '广州恒大']  

2  6420576443738784002   ['财经', '自行车', '凤凰', '王朝阳', '汽车展览']  

                 time                   title  \

0  2017-06-07 22:52:55  雄安新区规划“骨架”敲定,方案有望9月底出炉  

1  2017-06-08 08:01:13       “红五月”不红 房企资金链压力攀升  

2  2017-05-16 12:03:00      凤凰自行车总裁:共享单车把我们打懵了  

                                          doc_words  \

0  [牵动人心, 雄安, 新区, 规划, 细节, 内容, 出台, 时间表, 敲定, 日前, 北京...  

1  [去年, 以来, 多个, 城市, 先后, 发布, 多项, 楼市, 调控, 政策, 限购, 限...  

2  [今年, 中国, 国际, 自行车, 展上, 上海, 凤凰, 自行车, 总裁, 王, 朝阳, ...  

                                             corpus  \

0  [(0, 6), (1, 1), (2, 1), (3, 3), (4, 2), (5, 2...  

1  [(0, 1), (3, 3), (13, 1), (17, 1), (41, 1), (5...  

2  [(15, 1), (53, 1), (167, 1), (262, 1), (396, 1...  

                                              tfidf  

0  [(0, 0.005554342859788116), (1, 0.007470250835...  

1  [(0, 0.002081356679198299), (3, 0.012288034179...  

2  [(15, 0.057457146244872616), (53, 0.0543395377...  

sims (1293, 1293)

  Unnamed: 0                                            content  \

0           0   牵动人心的雄安新区规划细节内容和出台时间表敲定。日前,北京商报记者从业内获悉,京津冀协同发...  

1           1  去年以来,多个城市先后发布了多项楼市调控政策。在限购、限贷甚至限售的政策“组合拳”下,房地产...  

2           2  在今年中国国际自行车展上,上海凤凰自行车总裁王朝阳表示,共享单车的到来把我们打懵了,影响更是...  

                   id                                 tags  \

0  6428905748545732865  ['财经', '白洋淀', '城市规划', '徐匡迪', '太行山']  

1  6428954136200855810  ['财经', '碧桂园', '万科集团', '投资', '广州恒大']  

2  6420576443738784002   ['财经', '自行车', '凤凰', '王朝阳', '汽车展览']  

                 time                   title  \

0  2017-06-07 22:52:55  雄安新区规划“骨架”敲定,方案有望9月底出炉  

1  2017-06-08 08:01:13       “红五月”不红 房企资金链压力攀升  

2  2017-05-16 12:03:00      凤凰自行车总裁:共享单车把我们打懵了  

                                          doc_words  \

0  [牵动人心, 雄安, 新区, 规划, 细节, 内容, 出台, 时间表, 敲定, 日前, 北京...  

1  [去年, 以来, 多个, 城市, 先后, 发布, 多项, 楼市, 调控, 政策, 限购, 限...  

2  [今年, 中国, 国际, 自行车, 展上, 上海, 凤凰, 自行车, 总裁, 王, 朝阳, ...  

                                             corpus  \

0  [(0, 6), (1, 1), (2, 1), (3, 3), (4, 2), (5, 2...  

1  [(0, 1), (3, 3), (13, 1), (17, 1), (41, 1), (5...  

2  [(15, 1), (53, 1), (167, 1), (262, 1), (396, 1...  

                                              tfidf   visual01   visual02  \

0  [(0, 0.005554342859788116), (1, 0.007470250835... -51.261967  11.873204  

1  [(0, 0.002081356679198299), (3, 0.012288034179... -31.842293  16.635918  

2  [(15, 0.057457146244872616), (53, 0.0543395377... -16.561825  48.171242  

  keyword_index  

0              2  

1              2  

2              2  




核心代码


data_frame_train=train_data_frame.corpus.apply(word_feature)

data_frame_test = test_data_frame.corpus.apply(word_feature)

print (type(data_frame_train.values))

from sklearn.naive_bayes import MultinomialNB

mnb=MultinomialNB()

pre_mnb=gnb.fit(list(data_frame_train.values),train_data_frame.keyword_index).predict(list(data_frame_test.values))

from sklearn.naive_bayes import BernoulliNB

bnb=BernoulliNB()

pre_bnb=bnb.fit(list(data_frame_train.values),train_data_frame.keyword_index).predict(list(data_frame_test.values))

from sklearn.lda import LDA

lda=LDA()

pre_lda=lda.fit(list(data_frame_train.values),train_data_frame.keyword_index).predict(list(data_frame_test.values))

 


相关文章
|
2月前
|
数据采集 算法 数据可视化
基于Python的k-means聚类分析算法的实现与应用,可以用在电商评论、招聘信息等各个领域的文本聚类及指标聚类,效果很好
本文介绍了基于Python实现的k-means聚类分析算法,并通过微博考研话题的数据清洗、聚类数量评估、聚类分析实现与结果可视化等步骤,展示了该算法在文本聚类领域的应用效果。
|
10天前
|
机器学习/深度学习 人工智能 算法
【新闻文本分类识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
文本分类识别系统。本系统使用Python作为主要开发语言,首先收集了10种中文文本数据集("体育类", "财经类", "房产类", "家居类", "教育类", "科技类", "时尚类", "时政类", "游戏类", "娱乐类"),然后基于TensorFlow搭建CNN卷积神经网络算法模型。通过对数据集进行多轮迭代训练,最后得到一个识别精度较高的模型,并保存为本地的h5格式。然后使用Django开发Web网页端操作界面,实现用户上传一段文本识别其所属的类别。
22 1
【新闻文本分类识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
|
15天前
|
机器学习/深度学习 存储 人工智能
文本情感识别分析系统Python+SVM分类算法+机器学习人工智能+计算机毕业设计
使用Python作为开发语言,基于文本数据集(一个积极的xls文本格式和一个消极的xls文本格式文件),使用Word2vec对文本进行处理。通过支持向量机SVM算法训练情绪分类模型。实现对文本消极情感和文本积极情感的识别。并基于Django框架开发网页平台实现对用户的可视化操作和数据存储。
20 0
文本情感识别分析系统Python+SVM分类算法+机器学习人工智能+计算机毕业设计
|
2月前
|
数据采集 机器学习/深度学习 算法
【python】python客户信息审计风险决策树算法分类预测(源码+数据集+论文)【独一无二】
【python】python客户信息审计风险决策树算法分类预测(源码+数据集+论文)【独一无二】
|
2月前
|
数据采集 前端开发 算法
基于朴素贝叶斯算法的新闻类型预测,django框架开发,前端bootstrap,有爬虫有数据库
本文介绍了一个基于Django框架和朴素贝叶斯算法开发的新闻类型预测系统,该系统具备用户登录注册、后台管理、数据展示、新闻分类分布分析、新闻数量排名和新闻标题预测等功能,旨在提高新闻处理效率和个性化推荐服务。
|
3月前
|
机器学习/深度学习 数据采集 算法
Python基于KMeans算法进行文本聚类项目实战
Python基于KMeans算法进行文本聚类项目实战
113 19
|
2月前
|
机器学习/深度学习 算法 Python
python与朴素贝叶斯算法(附示例和代码)
朴素贝叶斯算法以其高效性和优良的分类性能,成为文本处理领域一项受欢迎的方法。提供的代码示例证明了其在Python语言中的易用性和实用性。尽管算法假设了特征之间的独立性,但在实际应用中,它仍然能够提供强大的分类能力。通过调整参数和优化模型,你可以进一步提升朴素贝叶斯分类器的性能。
48 0
|
2月前
|
算法 数据可视化 搜索推荐
基于python的k-means聚类分析算法,对文本、数据等进行聚类,有轮廓系数和手肘法检验
本文详细介绍了基于Python实现的k-means聚类分析算法,包括数据准备、预处理、标准化、聚类数目确定、聚类分析、降维可视化以及结果输出的完整流程,并应用该算法对文本数据进行聚类分析,展示了轮廓系数法和手肘法检验确定最佳聚类数目的方法。
|
2月前
|
数据采集 自然语言处理 数据可视化
基于Python的社交媒体评论数据挖掘,使用LDA主题分析、文本聚类算法、情感分析实现
本文介绍了基于Python的社交媒体评论数据挖掘方法,使用LDA主题分析、文本聚类算法和情感分析技术,对数据进行深入分析和可视化,以揭示文本数据中的潜在主题、模式和情感倾向。
|
2月前
|
监控 数据可视化 算法
基于朴素贝叶斯算法的微博舆情监控系统,flask后端,可视化丰富
本文介绍了一个基于朴素贝叶斯算法和Python技术栈的微博舆情监控系统,该系统使用Flask作为后端框架,通过数据爬取、清洗、情感分析和可视化等手段,为用户提供丰富的舆情分析和监测功能。
下一篇
无影云桌面