基于python豆瓣电影评论的情感分析和聚类分析,聚类分析有手肘法进行检验,情感分析用snownlp

简介: 本文介绍了一个基于Python的情感分析和聚类分析项目,使用snownlp库对豆瓣电影评论进行情感分析,并采用手肘法辅助K-means算法进行聚类分析,以探索评论中的不同主题和情感集群。

基于Python的豆瓣电影评论的情感分析和聚类分析是一种用于探索电影评论数据的方法。

情感分析
情感分析旨在从文本中提取情感信息,并对其进行分类,如正面、负面或中性。在这里,我们使用了一个名为snownlp的Python库来进行情感分析。Snownlp是一个基于概率算法和自然语言处理技术的情感分析工具。

首先,我们需要收集豆瓣电影的评论数据。可以使用豆瓣API或其他方式获取评论文本。接下来,我们将使用snownlp库对每条评论进行情感分析。该库会对文本进行处理并返回情感得分,该得分可以表示评论的情感极性。通过设定阈值,我们可以将评论划分为正面、负面或中性。

情感分析可以帮助我们了解用户对电影的情感倾向,并评估电影的受欢迎程度。例如,通过统计正面评论的比例,我们可以获知电影是否受到观众的喜爱。

聚类分析
聚类分析是一种将数据划分为相似组的方法,以便发现其中的模式和结构。在豆瓣电影评论中,我们可以使用聚类分析来将评论划分为不同的群组,每个群组具有相似的主题或情感。

一种常用的聚类算法是K-means算法。它通过计算数据点之间的距离,并将数据点分配到最近的簇中。在聚类分析中,我们通常会使用手肘法(Elbow Method)来确定最佳的簇数。

手肘法通过绘制簇数与聚类误差(即数据点与其所属簇中心的距离之和)之间的关系图。随着簇数的增加,聚类误差通常会逐渐减少。然而,当簇数增加到一定程度时,再增加簇数对聚类误差的减少作用较小。这时,图形呈现出一个明显的“弯曲”点,被称为“手肘点”。手肘点所对应的簇数被认为是最佳的簇数。

聚类分析可以帮助我们发现豆瓣电影评论中的不同主题、观点或情感集群。通过对不同群组进行进一步分析,我们可以了解电影受众的兴趣爱好、意见和评价。

主要代码:

import pandas as pd
df=pd.read\_csv('豆瓣评论 坚如磐石.csv')
from snownlp import SnowNLP
#获取情感分数
line0=\[\]
list1=\[\]
for line in df.values.tolist():
    s = SnowNLP(str(line\[1\]))
    print(s.sentiments)
    list1.append(s.sentiments)
    if (s.sentiments>= 0.6):
        line0.append('积极')
    elif (0.6>s.sentiments>= 0.4):
        line0.append('中性')
    else:
        line0.append('消极')
print(line0)
df\['情感分析'\]=line0
df\['情感分数'\]=list1
import matplotlib.pyplot as plt
from pylab import mpl
mpl.rcParams\['font.sans-serif'\] = \['FangSong'\] # 指定默认字体
mpl.rcParams\['axes.unicode\_minus'\] = False # 解决保存图像是负号'-'显示为方块的问题
data=df.groupby(by=\['情感分析'\])\['评论'\].count().reset\_index()

x=data\['情感分析'\].tolist()
y=data\['评论'\].tolist()
plt.figure(figsize=(20, 8), dpi=100)
# 绘制饼图
plt.pie(y, labels=x, autopct="%1.2f%%", colors=\['b','r','g','y','c','m','y','k','c','g','y'\])
# 显示图例
plt.legend()
# 添加标题
plt.title("情感分析饼图")
#为了让显示的饼图保持圆形,需要添加axis保证长宽一样
plt.axis('equal')
# 显示图像
plt.show()

运行效果

相关文章
|
3月前
|
数据采集 Web App开发 监控
高效爬取B站评论:Python爬虫的最佳实践
高效爬取B站评论:Python爬虫的最佳实践
|
28天前
|
数据采集 JSON 数据格式
Python爬虫:京东商品评论内容
京东商品评论接口为商家和消费者提供了重要工具。商家可分析评论优化产品,消费者则依赖评论做出购买决策。该接口通过HTTP请求获取评论内容、时间、点赞数等数据,支持分页和筛选好评、中评、差评。Python示例代码展示了如何调用接口并处理返回的JSON数据。应用场景包括产品优化、消费者决策辅助、市场竞争分析及舆情监测。
|
3月前
|
数据采集 存储 数据可视化
Python数据分析:揭秘"黑神话:悟空"Steam用户评论趋势
Python数据分析:揭秘"黑神话:悟空"Steam用户评论趋势
|
3月前
|
Python
SciPy 教程 之 Scipy 显著性检验 9
SciPy 教程之 Scipy 显著性检验第9部分,介绍了显著性检验的基本概念、作用及原理,通过样本信息判断假设是否成立。着重讲解了使用scipy.stats模块进行显著性检验的方法,包括正态性检验中的偏度和峰度计算,以及如何利用normaltest()函数评估数据是否符合正态分布。示例代码展示了如何计算一组随机数的偏度和峰度。
44 1
|
3月前
|
BI Python
SciPy 教程 之 Scipy 显著性检验 8
本教程介绍SciPy中显著性检验的应用,包括如何利用scipy.stats模块进行显著性检验,以判断样本与总体假设间的差异是否显著。通过示例代码展示了如何使用describe()函数获取数组的统计描述信息,如观测次数、最小最大值、均值、方差等。
47 1
|
3月前
|
Python
SciPy 教程 之 Scipy 显著性检验 7
SciPy 教程之 Scipy 显著性检验第7部分,介绍显著性检验的基本概念及其在 SciPy 中的应用。显著性检验用于评估样本数据与假设之间的差异是否由随机因素引起。SciPy 的 `scipy.stats` 模块提供了执行显著性检验的功能,包括 KS 检验等方法,用于检测数据是否符合特定分布。示例代码展示了如何使用 KS 检验验证一组数据是否符合正态分布。
43 2
|
3月前
|
Python
SciPy 教程 之 Scipy 显著性检验 3
本教程介绍Scipy显著性检验,包括其基本概念、原理及应用。显著性检验用于判断样本与总体假设间的差异是否显著,是统计学中的重要工具。Scipy通过`scipy.stats`模块提供了相关功能,支持双边检验等方法。
53 1
|
3月前
|
机器学习/深度学习 数据采集 搜索推荐
利用Python和机器学习构建电影推荐系统
利用Python和机器学习构建电影推荐系统
171 1
|
3月前
|
Python
SciPy 教程 之 Scipy 显著性检验 1
本教程介绍Scipy显著性检验,包括统计假设、零假设和备择假设等概念,以及如何使用scipy.stats模块进行显著性检验,以判断样本与总体假设间是否存在显著差异。
45 0
|
5月前
|
机器学习/深度学习 数据采集 TensorFlow
使用Python实现深度学习模型:智能电影制作与剪辑
使用Python实现深度学习模型:智能电影制作与剪辑
197 5

热门文章

最新文章