用Python分析了2.7w+《速度与激情9》影评,看看观众为什么不喜欢这部影片?

简介: 大家好,我是志斌~‘速度与激情’系列电影可谓一直是高分电影,但是最近新出的《速度与激情9》的评分却还不到6分,才5.6分!

大家好,我是志斌~


‘速度与激情’系列电影可谓一直是高分电影,但是最近新出的《速度与激情9》的评分却还不到6分,才5.6分!


26.png



究竟是为什么它的评分这么低?让我们对它的豆瓣评论进行可视化分析,来看看这是什么原因!


本文通过爬取《速度与激情9》豆瓣短评,进行数据可视化分析,在后台回复【速度与激情9】即可获得全部代码。


01数据采集


在之前的文章我们已经对豆瓣短评的数据采集有过详细的介绍,有不懂的小伙伴可以看看这篇文章我用python分析《你好,李焕英》豆瓣30万+评论,终于找到了它大卖的原因。这里我们直接展示爬虫核心代码:


for page in range(80):
  try:
      params = (
          ('start', str(page * 20)),
          ('limit', '20'),
          ('status', 'P'),
          ('sort', 'new_score'),
          ('comments_only', '1'),
          ('ck', 'qN8_'),
      )
      r = requests.get('https://movie.douban.com/subject/32493124/comments', headers=headers, params=params, cookies=cookies)
      yonghumingchengs = re.findall('<a title="(.*?)href.*?">', r.json()['html'], re.S)
      youyongshus = re.findall('<span class="votes vote-count">(.*?)</span>', r.json()['html'], re.S)
      pinglunshijians = re.findall('<span class="comment-time " title="(.*?)">', r.json()['html'], re.S)
      pingluns = re.findall('<span class="short">(.*?)</span>', r.json()['html'], re.S)
      for i in range(20):
          a = a + 1
          sheet.append([yonghumingchengs[i], youyongshus[i], pinglunshijians[i].split()[0].split("-")[-1],
                        pinglunshijians[i].split()[1].split(":")[0], pingluns[i]])
      print(f"已爬取完第{page}页数据,存入{i + 1}条数据....")
  except:
      wb.save("全部.xlsx")
      print(f"共爬取{page}页数据,存入{a}条数据....")


02数据清洗


01合并Excel


因为是分全部、好评、一般、差评四个部分来对影评进行爬取的,所以我们要对这四个影评文件夹进行合并,对批量合并Excel有兴趣的读者可以看看这篇文章教你如何快速合并内容相似的Excel文件。这里我们直接展示核心代码:


for i in files:
  wb = openpyxl.load_workbook(i)
  sheet = wb['豆瓣评论']
  for i in range(2,502):
      A_cell = sheet[f'A{i}']
      B_cell = sheet[f'B{i}']
      C_cell = sheet[f'C{i}']
      D_cell = sheet[f'D{i}']
      E_cell = sheet[f'E{i}']
      a = [A_cell.value,int(B_cell.value),int(C_cell.value),int(D_cell.value),E_cell.value]
      sheet_1.append(a)


02 导入评论数据


用pandas读取合并后的影评数据并预览。


df = pd.read_excel('总.xlsx',names=['用户名称','点赞数','评论日期','评论时间','评论内容'])
print(df.head())



27.png


删除重复数据


df.drop_duplicates()


04 查看数据类型


查看字段类型和缺失值情况,符合分析需要,无需另做处理。


df.info()



28.png


03数据可视化


01 各类评论占比


29.png


这部电影的短评数有2.7w+,差评竟能占到40%,看来这部剧不是铁粉是真不行!建议大家提前避雷,不要去电影院观看。


让我们来看看观众为什么不喜欢这部影片。


30.png


从词云图中我们很难看出这部剧真正烂在那里,不过志斌看了剧觉得这部剧可能太科幻了,偏离了速度与激情的主题,太卖情怀了!


02 各类星级占比


30.png


从图中,我们可以明显的看出,打3星的观众最多,占了45.2%,其次是2星和4星,分别占28.5%和14.9%。这样看来,观众确实不太喜欢这部影片。


03 评论发表时间分布


31.png


从图中,我们可以看出,大部分影评发表时间在晚上和凌晨,白天发表影评的数量很少,但是评分这么低,还是不建议增加场次。


04小结


1.本文仅供学习研究使用,提供的评论仅供参考。

2. 本人对影视的了解有限,言论粗糙,还请勿怪。

相关文章
|
24天前
|
机器学习/深度学习 数据采集 TensorFlow
使用Python实现智能食品消费模式分析的深度学习模型
使用Python实现智能食品消费模式分析的深度学习模型
119 70
|
1月前
|
数据采集 缓存 定位技术
网络延迟对Python爬虫速度的影响分析
网络延迟对Python爬虫速度的影响分析
|
26天前
|
机器学习/深度学习 数据采集 TensorFlow
使用Python实现智能食品消费习惯分析的深度学习模型
使用Python实现智能食品消费习惯分析的深度学习模型
132 68
|
22天前
|
机器学习/深度学习 数据采集 数据挖掘
使用Python实现智能食品消费市场分析的深度学习模型
使用Python实现智能食品消费市场分析的深度学习模型
99 36
|
16天前
|
数据可视化 算法 数据挖掘
Python量化投资实践:基于蒙特卡洛模拟的投资组合风险建模与分析
蒙特卡洛模拟是一种利用重复随机抽样解决确定性问题的计算方法,广泛应用于金融领域的不确定性建模和风险评估。本文介绍如何使用Python和EODHD API获取历史交易数据,通过模拟生成未来价格路径,分析投资风险与收益,包括VaR和CVaR计算,以辅助投资者制定合理决策。
65 15
|
20天前
|
机器学习/深度学习 数据采集 数据挖掘
使用Python实现智能食品消费趋势分析的深度学习模型
使用Python实现智能食品消费趋势分析的深度学习模型
83 18
|
29天前
|
测试技术 开发者 Python
使用Python解析和分析源代码
本文介绍了如何使用Python的`ast`模块解析和分析Python源代码,包括安装准备、解析源代码、分析抽象语法树(AST)等步骤,展示了通过自定义`NodeVisitor`类遍历AST并提取信息的方法,为代码质量提升和自动化工具开发提供基础。
44 8
|
1月前
|
数据采集 存储 JSON
Python爬虫开发中的分析与方案制定
Python爬虫开发中的分析与方案制定
|
29天前
|
机器学习/深度学习 数据采集 供应链
使用Python实现深度学习模型:智能食品市场分析
使用Python实现深度学习模型:智能食品市场分析
38 0
|
1月前
|
数据采集 存储 分布式计算
超酷炫Python技术:交通数据的多维度分析
超酷炫Python技术:交通数据的多维度分析