用Python分析了2.7w+《速度与激情9》影评，看看观众为什么不喜欢这部影片？

2022-06-17 502

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 大家好，我是志斌~‘速度与激情’系列电影可谓一直是高分电影，但是最近新出的《速度与激情9》的评分却还不到6分，才5.6分！

大家好，我是志斌~

‘速度与激情’系列电影可谓一直是高分电影，但是最近新出的《速度与激情9》的评分却还不到6分，才5.6分！

究竟是为什么它的评分这么低？让我们对它的豆瓣评论进行可视化分析，来看看这是什么原因！

本文通过爬取《速度与激情9》豆瓣短评，进行数据可视化分析，在后台回复【速度与激情9】即可获得全部代码。

01数据采集

在之前的文章我们已经对豆瓣短评的数据采集有过详细的介绍，有不懂的小伙伴可以看看这篇文章我用python分析《你好，李焕英》豆瓣30万+评论，终于找到了它大卖的原因。这里我们直接展示爬虫核心代码：

for page in range(80):
  try:
      params = (
          ('start', str(page * 20)),
          ('limit', '20'),
          ('status', 'P'),
          ('sort', 'new_score'),
          ('comments_only', '1'),
          ('ck', 'qN8_'),
      )
      r = requests.get('https://movie.douban.com/subject/32493124/comments', headers=headers, params=params, cookies=cookies)
      yonghumingchengs = re.findall('<a title="(.*?)href.*?">', r.json()['html'], re.S)
      youyongshus = re.findall('<span class="votes vote-count">(.*?)</span>', r.json()['html'], re.S)
      pinglunshijians = re.findall('<span class="comment-time " title="(.*?)">', r.json()['html'], re.S)
      pingluns = re.findall('<span class="short">(.*?)</span>', r.json()['html'], re.S)
      for i in range(20):
          a = a + 1
          sheet.append([yonghumingchengs[i], youyongshus[i], pinglunshijians[i].split()[0].split("-")[-1],
                        pinglunshijians[i].split()[1].split(":")[0], pingluns[i]])
      print(f"已爬取完第{page}页数据,存入{i + 1}条数据....")
  except:
      wb.save("全部.xlsx")
      print(f"共爬取{page}页数据，存入{a}条数据....")

02数据清洗

01合并Excel

因为是分全部、好评、一般、差评四个部分来对影评进行爬取的，所以我们要对这四个影评文件夹进行合并，对批量合并Excel有兴趣的读者可以看看这篇文章教你如何快速合并内容相似的Excel文件。这里我们直接展示核心代码：

for i in files:
  wb = openpyxl.load_workbook(i)
  sheet = wb['豆瓣评论']
  for i in range(2,502):
      A_cell = sheet[f'A{i}']
      B_cell = sheet[f'B{i}']
      C_cell = sheet[f'C{i}']
      D_cell = sheet[f'D{i}']
      E_cell = sheet[f'E{i}']
      a = [A_cell.value,int(B_cell.value),int(C_cell.value),int(D_cell.value),E_cell.value]
      sheet_1.append(a)

02 导入评论数据

用pandas读取合并后的影评数据并预览。

df = pd.read_excel('总.xlsx',names=['用户名称','点赞数','评论日期','评论时间','评论内容'])
print(df.head())

删除重复数据

df.drop_duplicates()

04 查看数据类型

查看字段类型和缺失值情况，符合分析需要，无需另做处理。

df.info()

03数据可视化

01 各类评论占比

这部电影的短评数有2.7w+，差评竟能占到40%，看来这部剧不是铁粉是真不行！建议大家提前避雷，不要去电影院观看。

让我们来看看观众为什么不喜欢这部影片。

从词云图中我们很难看出这部剧真正烂在那里，不过志斌看了剧觉得这部剧可能太科幻了，偏离了速度与激情的主题，太卖情怀了！

02 各类星级占比

从图中，我们可以明显的看出，打3星的观众最多，占了45.2%，其次是2星和4星，分别占28.5%和14.9%。这样看来，观众确实不太喜欢这部影片。

03 评论发表时间分布

从图中，我们可以看出，大部分影评发表时间在晚上和凌晨，白天发表影评的数量很少，但是评分这么低，还是不建议增加场次。

04小结

1.本文仅供学习研究使用，提供的评论仅供参考。

2. 本人对影视的了解有限，言论粗糙，还请勿怪。

用Python分析了2.7w+《速度与激情9》影评，看看观众为什么不喜欢这部影片？

01数据采集

02数据清洗

01合并Excel

02 导入评论数据

删除重复数据

04 查看数据类型

03数据可视化

01 各类评论占比

02 各类星级占比

03 评论发表时间分布

04小结

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

用Python分析了2.7w+《速度与激情9》影评，看看观众为什么不喜欢这部影片？

01数据采集

02数据清洗

01合并Excel

02 导入评论数据

删除重复数据

04 查看数据类型

03数据可视化

01 各类评论占比

02 各类星级占比

03 评论发表时间分布

04小结

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像