用Python分析了7w+《悬崖之上》影评,看看观众都是怎么说?

简介: 五一档的电影已经开播好几天了,要说最为好看的可谓是张艺谋导演《悬崖之上》了,在五一档电影中评分排名第一,并且在昨天综合已经超过《你的婚礼》,排在五一档电影第一名。

大家好,我是志斌~


五一档的电影已经开播好几天了,要说最为好看的可谓是张艺谋导演《悬崖之上》了,在五一档电影中评分排名第一,并且在昨天综合已经超过《你的婚礼》,排在五一档电影第一名。


0.png

虽然总票房还差一点,但是我觉得总票房升上去只是时间问题,毕竟拍片场次那么高。


1.png


本文通过爬取《悬崖之上》豆瓣短评,进行数据可视化分析,在后台回复【悬崖】即可获得全部代码。


01数据采集


在之前的文章我们已经对豆瓣短评的数据采集有过详细的介绍,有不懂的小伙伴可以看看这篇文章我用python分析《你好,李焕英》豆瓣30万+评论,终于找到了它大卖的原因。这里我们直接展示爬虫核心代码:


for page in range(80):
   try:
       params = (
           ('start', str(page * 20)),
           ('limit', '20'),
           ('status', 'P'),
           ('sort', 'new_score'),
           ('comments_only', '1'),
           ('ck', 'qN8_'),
       )
       r = requests.get('https://movie.douban.com/subject/32493124/comments', headers=headers, params=params, cookies=cookies)
       yonghumingchengs = re.findall('<a title="(.*?)href.*?">', r.json()['html'], re.S)
       youyongshus = re.findall('<span class="votes vote-count">(.*?)</span>', r.json()['html'], re.S)
       pinglunshijians = re.findall('<span class="comment-time " title="(.*?)">', r.json()['html'], re.S)
       pingluns = re.findall('<span class="short">(.*?)</span>', r.json()['html'], re.S)
       for i in range(20):
           a = a + 1
           sheet.append([yonghumingchengs[i], youyongshus[i], pinglunshijians[i].split()[0].split("-")[-1],
                         pinglunshijians[i].split()[1].split(":")[0], pingluns[i]])
       print(f"已爬取完第{page}页数据,存入{i + 1}条数据....")
   except:
       wb.save("全部.xlsx")
       print(f"共爬取{page}页数据,存入{a}条数据....")
       ~~~


02数据清洗


01合并Excel


因为是分全部、好评、一般、差评四个部分来对影评进行爬取的,所以我们要对这四个影评文件夹进行合并。代码如下:


for i in files:
   wb = openpyxl.load_workbook(i)
   sheet = wb['豆瓣评论']
   for i in range(2,502):
       A_cell = sheet[f'A{i}']
       B_cell = sheet[f'B{i}']
       C_cell = sheet[f'C{i}']
       D_cell = sheet[f'D{i}']
       E_cell = sheet[f'E{i}']
       a = [A_cell.value,int(B_cell.value),int(C_cell.value),int(D_cell.value),E_cell.value]
       sheet_1.append(a)
       ~~~


02导入评论数据


用pandas读取合并后的影评数据并预览。


df = pd.read_excel('总.xlsx',names=['用户名称','点赞数','评论日期','评论时间','评论内容'])
print(df.head())

2.png



03删除重复数据


df.drop_duplicates()


04查看数据类型


查看字段类型和缺失值情况,符合分析需要,无需另做处理。


df.info()



3.png

03数据可视化


01各类评论占比

4.png


这部电影的短评数有7w+,好评竟能占到快80%,果然张艺谋导演的剧都是好剧~,建议大家抓住五一的小尾巴,去刷一下这个剧。


主演提及次数




5.png


这部影片一共有五个主演,没想到男一张译和女一秦海璐竟然不是被提及次数最多的,反而是刘浩存被提及次数最多,那让我们来看看大家在影评中都是怎么评价她的。



微信图片_20220617102855.png


从词云图中看出,作为新晋的谋女郎,刘浩存确实实力很强,演技很好,同时影片中的角色也很好,可能是这样才导致它的被提及次数成为第一吧。


各类星级占比


6.png



从图中,我们可以明显的看出,打4星的观众最多,占了54%,其次是3星和5星,分别占26%和17%。这样看来,观众还是非常肯定这部影片的。


04论发表时间分布


6.png


从图中,我们可以看出,大部分影评发表时间在晚上和凌晨,白天发表影评的数量很少,影院可以适当增加晚上和凌晨的场次。


03小结


1. 本文仅供学习研究使用,提供的评论仅供参考。

2. 本人对影视的了解有限,言论粗糙,还请勿怪




相关文章
|
29天前
|
缓存 监控 算法
item_get - Lazada 商品详情详情接口深度分析及 Python 实现
Lazada商品详情接口item_get可获取商品全维度数据,包括价格、库存、SKU、促销及卖家信息,支持东南亚六国站点,适用于竞品监控、定价策略与市场分析,助力跨境卖家精准决策。
|
24天前
|
缓存 监控 算法
唯品会item_search - 按关键字搜索 VIP 商品接口深度分析及 Python 实现
唯品会item_search接口支持通过关键词、分类、价格等条件检索商品,广泛应用于电商数据分析、竞品监控与市场调研。结合Python可实现搜索、分析、可视化及数据导出,助力精准决策。
|
24天前
|
缓存 监控 算法
苏宁item_search - 按关键字搜索商品接口深度分析及 Python 实现
苏宁item_search接口支持通过关键词、分类、价格等条件检索商品,广泛应用于电商分析、竞品监控等场景。具备多维度筛选、分页获取、数据丰富等特性,结合Python可实现搜索、分析与可视化,助力市场研究与决策。
|
24天前
|
缓存 监控 算法
苏宁item_get - 获得商品详情接口深度# 深度分析及 Python 实现
苏宁易购item_get接口可实时获取商品价格、库存、促销等详情,支持电商数据分析与竞品监控。需认证接入,遵守调用限制,适用于价格监控、销售分析等场景,助力精准营销决策。(238字)
|
24天前
|
监控 算法 数据安全/隐私保护
唯品会 item_get - 获得 VIP 商品详情接口深度分析及 Python 实现
唯品会item_get接口通过商品ID获取商品详情,支持价格、库存、促销等数据抓取,适用于电商分析、竞品监控与价格追踪,结合Python实现可高效完成数据获取、分析与可视化,助力精准营销决策。
|
28天前
|
供应链 监控 算法
VVICitem_get - 根据 ID 取商品详情接口深度分析及 Python 实现
VVIC(搜款网)是国内领先的服装批发电商平台,其item_get接口支持通过商品ID获取详尽的商品信息,涵盖价格、规格、库存、图片及店铺数据,助力商家高效开展市场分析、竞品监控与采购决策。
|
23天前
|
JSON 缓存 供应链
电子元件 item_search - 按关键字搜索商品接口深度分析及 Python 实现
本文深入解析电子元件item_search接口的设计逻辑与Python实现,涵盖参数化筛选、技术指标匹配、供应链属性过滤及替代型号推荐等核心功能,助力高效精准的电子元器件搜索与采购决策。
|
23天前
|
缓存 供应链 芯片
电子元件类商品 item_get - 商品详情接口深度分析及 Python 实现
电子元件商品接口需精准返回型号参数、规格属性、认证及库存等专业数据,支持供应链管理与采购决策。本文详解其接口特性、数据结构与Python实现方案。
|
28天前
|
缓存 算法 数据安全/隐私保护
VVICitem_search - 根据关键词取关键词取商品列表接口深度分析及 Python 实现
VVIC item_search接口支持关键词搜索服装商品,提供价格、销量、供应商等数据,助力市场调研与采购决策。
|
29天前
|
缓存 自然语言处理 算法
item_search - Lazada 按关键字搜索商品接口深度分析及 Python 实现
Lazada的item_search接口是关键词搜索商品的核心工具,支持多语言、多站点,可获取商品价格、销量、评分等数据,适用于市场调研与竞品分析。

推荐镜像

更多