基于词云图+Kmeans聚类+LDA主题分析+社会网络语义分析对大唐不夜城用户评论进行分析(下)

简介: 基于词云图+Kmeans聚类+LDA主题分析+社会网络语义分析对大唐不夜城用户评论进行分析

基于词云图+Kmeans聚类+LDA主题分析+社会网络语义分析对大唐不夜城用户评论进行分析(上):https://developer.aliyun.com/article/1434918


2.3TF-IDF+Kmeans聚类分析


首先还是导入用到的第三方库以及数据


编写一个中文分词的函数


对分词结果进行词向量化并降维到1000维同时进行标准化操作


使用TF-IDF提权关键词并获取权重


使用Kmeans进行聚类,关于K的确定,我是试了几个数字,发现还是2最合适。


最后将聚类结果进行可视化


2.4LDA主题分析


首先还是导入我们的数据


在中文分词之前,我们先删除重复数据并且将评论长度小于10的进行剔除,从结果发现,我们剔除了40条评论。


中文分词


确定最佳主题个数K值


从图可看出,8是最低的点,但是8个主题明显太多,会出现过拟合,所以还剩下3和5。最后经过主题可视化我们最终确定了3是最佳的K值。


可以使用summary查看模型信息


Lda主题可视化


最后我们也可以将每个主题的关键词进行词云图展示


运行完上面的代码会生成3个html页面


主题0词云图


主题1词云图


主题2词云图


2.5社会语义网络分析


这里我们主要使用到的工具是ROSTCM6,关于软件的安装及使用可参考我的博文

ROSTCM6软件下载及语义网络分析详细操作教程(附网盘链接)_艾派森的博客-CSDN博客


三、总结


       本次实验我们使用了词云图、情感分析、LDA主题分析、TF-IDF+Kmeans、社会网络语义分析等对大唐不夜城的评论进行了分析。关于博文中的源码大家可以关注派森小木屋公众号进入粉丝群领取,如对文章有疑惑,请评论区留言。


目录
相关文章
|
3天前
|
数据可视化 数据挖掘
【视频】复杂网络分析CNA简介与R语言对婚礼数据聚类社区检测和可视化|数据分享
【视频】复杂网络分析CNA简介与R语言对婚礼数据聚类社区检测和可视化|数据分享
10 2
|
2天前
|
人工智能 数据可视化
【数据分享】维基百科Wiki负面有害评论(网络暴力)文本数据多标签分类挖掘可视化
【数据分享】维基百科Wiki负面有害评论(网络暴力)文本数据多标签分类挖掘可视化
12 2
|
10天前
|
机器学习/深度学习 数据可视化 测试技术
深度学习:Keras使用神经网络进行简单文本分类分析新闻组数据
深度学习:Keras使用神经网络进行简单文本分类分析新闻组数据
21 0
|
11天前
|
Python 数据可视化 索引
PYTHON用GARCH、离散随机波动率模型DSV模拟估计股票收益时间序列与蒙特卡洛可视化
PYTHON用GARCH、离散随机波动率模型DSV模拟估计股票收益时间序列与蒙特卡洛可视化
24 0
PYTHON用GARCH、离散随机波动率模型DSV模拟估计股票收益时间序列与蒙特卡洛可视化
|
11天前
|
机器学习/深度学习 算法 数据可视化
用SPSS Modeler的Web复杂网络对所有腧穴进行关联规则分析3
用SPSS Modeler的Web复杂网络对所有腧穴进行关联规则分析3
17 0
用SPSS Modeler的Web复杂网络对所有腧穴进行关联规则分析3
|
11天前
|
存储 算法 前端开发
R语言中贝叶斯网络(BN)、动态贝叶斯网络、线性模型分析错颌畸形数据
R语言中贝叶斯网络(BN)、动态贝叶斯网络、线性模型分析错颌畸形数据
32 0
|
11天前
|
数据可视化 网络可视化
R语言混合图形模型MGM的网络可预测性分析
R语言混合图形模型MGM的网络可预测性分析
11 0
|
12天前
|
算法 定位技术 Windows
R语言最大流最小割定理和最短路径算法分析交通网络流量拥堵问题
R语言最大流最小割定理和最短路径算法分析交通网络流量拥堵问题
16 4
|
1月前
|
机器学习/深度学习 数据采集 人工智能
m基于深度学习网络的手势识别系统matlab仿真,包含GUI界面
m基于深度学习网络的手势识别系统matlab仿真,包含GUI界面
43 0
|
1月前
|
机器学习/深度学习 算法 计算机视觉
基于yolov2深度学习网络的火焰烟雾检测系统matlab仿真
基于yolov2深度学习网络的火焰烟雾检测系统matlab仿真