基于词云图+Kmeans聚类+LDA主题分析+社会网络语义分析对大唐不夜城用户评论进行分析(上):https://developer.aliyun.com/article/1434918
2.3TF-IDF+Kmeans聚类分析
首先还是导入用到的第三方库以及数据
编写一个中文分词的函数
对分词结果进行词向量化并降维到1000维同时进行标准化操作
使用TF-IDF提权关键词并获取权重
使用Kmeans进行聚类,关于K的确定,我是试了几个数字,发现还是2最合适。
最后将聚类结果进行可视化
2.4LDA主题分析
首先还是导入我们的数据
在中文分词之前,我们先删除重复数据并且将评论长度小于10的进行剔除,从结果发现,我们剔除了40条评论。
中文分词
确定最佳主题个数K值
从图可看出,8是最低的点,但是8个主题明显太多,会出现过拟合,所以还剩下3和5。最后经过主题可视化我们最终确定了3是最佳的K值。
可以使用summary查看模型信息
Lda主题可视化
最后我们也可以将每个主题的关键词进行词云图展示
运行完上面的代码会生成3个html页面
主题0词云图
主题1词云图
主题2词云图
2.5社会语义网络分析
这里我们主要使用到的工具是ROSTCM6,关于软件的安装及使用可参考我的博文
ROSTCM6软件下载及语义网络分析详细操作教程(附网盘链接)_艾派森的博客-CSDN博客
三、总结
本次实验我们使用了词云图、情感分析、LDA主题分析、TF-IDF+Kmeans、社会网络语义分析等对大唐不夜城的评论进行了分析。关于博文中的源码大家可以关注派森小木屋公众号进入粉丝群领取,如对文章有疑惑,请评论区留言。