用Python分析了5.8w+《觉醒年代》影评,观众都是怎么评价这部通吃高考作文的电视剧?

简介: 大家好,我是志斌~今天《觉醒年代》这部剧可谓是再次冲上热搜,因为它的剧情竟然通吃了许多省市的高考语文作文!这可真是谁看了这部剧,就真的偷偷乐了!

大家好,我是志斌~


今天《觉醒年代》这部剧可谓是再次冲上热搜,因为它的剧情竟然通吃了许多省市的高考语文作文!这可真是谁看了这部剧,就真的偷偷乐了!


志斌上豆瓣上搜了一下这部剧,发现它的评分是9.3分,在打分极其严格的豆瓣上竟然能得9.3分,那这部剧一定是一部非常经典的剧!


38.png


本文通过爬取《觉醒年代》豆瓣短评,进行数据可视化分析,在后台回复【觉醒】即可获得全部代码。


01数据采集


在之前的文章我们已经对豆瓣短评的数据采集有过详细的介绍,有不懂的小伙伴可以看看这篇文章我用python分析《你好,李焕英》豆瓣30万+评论,终于找到了它大卖的原因。这里我们直接展示爬虫核心代码:


for page in range(80):
  try:
      params = (
          ('start', str(page * 20)),
          ('limit', '20'),
          ('status', 'P'),
          ('sort', 'new_score'),
          ('comments_only', '1'),
          ('ck', 'qN8_'),
      )
      r = requests.get('https://movie.douban.com/subject/32493124/comments', headers=headers, params=params, cookies=cookies)
      yonghumingchengs = re.findall('<a title="(.*?)href.*?">', r.json()['html'], re.S)
      youyongshus = re.findall('<span class="votes vote-count">(.*?)</span>', r.json()['html'], re.S)
      pinglunshijians = re.findall('<span class="comment-time " title="(.*?)">', r.json()['html'], re.S)
      pingluns = re.findall('<span class="short">(.*?)</span>', r.json()['html'], re.S)
      for i in range(20):
          a = a + 1
          sheet.append([yonghumingchengs[i], youyongshus[i], pinglunshijians[i].split()[0].split("-")[-1],
                        pinglunshijians[i].split()[1].split(":")[0], pingluns[i]])
      print(f"已爬取完第{page}页数据,存入{i + 1}条数据....")
  except:
      wb.save("全部.xlsx")
      print(f"共爬取{page}页数据,存入{a}条数据....")


02数据清洗


01 合并Excel


因为是分全部、好评、一般、差评四个部分来对影评进行爬取的,所以我们要对这四个影评文件夹进行合并。代码如下:


for i in files:
  wb = openpyxl.load_workbook(i)
  sheet = wb['豆瓣评论']
  for i in range(2,502):
      A_cell = sheet[f'A{i}']
      B_cell = sheet[f'B{i}']
      C_cell = sheet[f'C{i}']
      D_cell = sheet[f'D{i}']
      E_cell = sheet[f'E{i}']
      a = [A_cell.value,int(B_cell.value),int(C_cell.value),int(D_cell.value),E_cell.value]
      sheet_1.append(a)


想要详细了解批量合并Excel的读者可以看看这篇文教你如何快速合并内容相似的Excel文件


02 导入评论数据


用pandas读取合并后的影评数据并预览。


df = pd.read_excel('全部.xlsx',names=['用户名称','点赞数','评论日期','评论时间','评论内容'])
print(df.head())



39.png


查看数据类型


查看字段类型和缺失值情况,符合分析需要,无需另做处理。


df.info()



40.png


03可视化分析


我们现在对爬取的短评数据来进行可视化分析。


01 各类评论占比


41.png


这部剧有5.8w+的短评,竟然好评占到了97%,真不愧是在豆瓣上都能得到9.3分的神剧!没刷的小伙伴,赶紧抽空刷起来!


02 主演提及次数



42.png


这部电视剧中,我选出了六位大家较为熟悉的人物,来看他们的提及次数,其中陈独秀先生的提及次数最多是214,其次是鲁迅先生和李大钊先生,分别是113和111。


这也很符合电视剧的剧情背景,那个年代陈独秀先生、鲁迅先生和李大钊先生的思想确实走在前列!


那让我们来看看大家在影评中都是怎么评价陈独秀先生的。



43.png


各类星级占比



44.png



从图中我们可以看出,有75.3%的观众给这部剧打了5星,19.3%的观众打了4星,打1星和2星的观众加起来才1.7%。这样看来观众是真的十分肯定这部电视剧!


04

评论发表时间分布



45.png


从图中我们可以看出,大部分影评发表时间在21点-次日0点,看来大部分的观众观影时间是在夜晚,可能是因为电视播放在这个时间段的缘故。



04小结


1. 本文仅供学习研究使用,提供的评论仅供参考。

2. 本人对影视的了解有限,言论粗糙,还请勿怪


相关文章
|
22小时前
|
数据处理 UED 开发者
Python并发编程之协程与多线程对比分析
本文将从Python并发编程的角度出发,对比分析协程与多线程两种并发处理方式的优缺点及适用场景,帮助读者更好地选择适合自己项目的并发方案。
|
23小时前
|
程序员 测试技术 数据处理
Python中的装饰器应用与实现Python并发编程之协程与多线程对比分析
在Python编程中,装饰器是一种强大的工具,能够简洁而优雅地扩展函数或类的功能。本文将深入探讨Python中装饰器的原理、应用场景以及实现方法,帮助读者更好地理解和运用这一重要的编程概念。 本文将从Python并发编程的角度出发,对比分析协程与多线程两种并发处理方式的优缺点及适用场景,帮助读者更好地选择适合自己项目的并发方案。
|
2天前
|
数据采集 数据处理 开发者
Python爬虫技术在数据收集与分析中的应用
随着互联网信息的爆炸式增长,数据收集与分析变得愈发重要。本文将介绍Python爬虫技术在实际项目中的应用,探讨其在数据收集、清洗和分析过程中的作用,以及如何利用Python相关库提高爬虫效率。
|
2天前
|
缓存 关系型数据库 测试技术
Python中的装饰器应用及实例分析
本文将深入探讨Python中装饰器的概念、作用以及如何应用于函数和类,通过详细的示例代码展示装饰器在Python开发中的实际用途,帮助读者更好地理解和运用这一高级技术。
|
2天前
|
数据采集 存储 数据可视化
微博数据可视化分析:利用Python构建信息图表展示话题热度
微博数据可视化分析:利用Python构建信息图表展示话题热度
|
3天前
|
程序员 测试技术 Python
Python中的装饰器应用及实例分析
Python的装饰器(Decorator)是一种强大的语法特性,它可以在不改变原始函数代码的情况下,在函数定义或调用时动态地添加额外的功能。本文将深入探讨Python中装饰器的概念和原理,并通过实例分析展示装饰器在不同场景下的应用。
|
3天前
|
数据可视化 数据挖掘 数据处理
使用Python的数据可视化技术提升分析效率
在当今信息爆炸的时代,数据分析已经成为各行各业的重要工作之一。本文将介绍如何利用Python的数据可视化技术,结合常见的数据分析库,快速高效地实现数据分析与可视化,提升分析效率和结果展示效果。
|
13天前
|
机器学习/深度学习 自然语言处理 JavaScript
GEE机器学习——最大熵分类器案例分析(JavaScript和python代码)
GEE机器学习——最大熵分类器案例分析(JavaScript和python代码)
15 0
|
14天前
|
API Python
gee python:利用核函数对影像进行平滑处理和边缘提取分析
gee python:利用核函数对影像进行平滑处理和边缘提取分析
8 0
|
14天前
|
数据采集 机器学习/深度学习 数据挖掘
用 Python 进行时间序列分析
时间序列分析是一种数据分析方法,用于研究按照时间顺序排列的数据序列。这些数据序列可以是股票价格、气温变化、人口增长等。时间序列分析的目的是发现数据中的模式、趋势和周期性,并预测未来的数值。在 Python 中,我们可以使用各种库来进行时间序列分析,其中最常用的是 pandas 和 statsmodels。