《战狼Ⅱ》豆瓣十二万影评浅析

简介:

最近<<战狼Ⅱ>>异常火爆。《战狼Ⅱ》是吴京执导的动作军事电影,由吴京、弗兰克·格里罗、吴刚、张翰、卢靖姗、丁海峰等主演。该片于2017年7月27日在中国内地上映。2017年8月11日凌晨,《战狼2》票房(含服务费)突破40亿元,打破《美人鱼》此前创下的33.92亿元记录,打破国产电影历史最高票房纪录。

电影上映过后,大家褒贬不一。纷纷在豆瓣短评上面留言,表达自己对这部电影的看法。截至目前【2017.08.11】已经有十五万左右的评论。在你看评论的时候,你可能在一段时间里看到的大部分是表扬或者是贬低的评论,那么通过浏览评论我们很难看出大家对于这部电影的总体情况。现在让我们通过用数据分析的方法看看在这些评论中究竟发生了什么有趣的事情!

数据的获取

对于数据的获取,本文采用的是Python爬虫的方式获取的数据。用到的主要是requests包与正则包re。该程序并未对验证码进行处理。之前也爬取过豆瓣的网页,当时由于爬取的内容少,所以并没有遇到验证码的事情。在写本文爬虫的时候,原以为也不会有验证码,但是当爬取到大概15000个评论的时候跳出来验证码。然后我就想不就是十二万吗?最多我也就是输入大概十几次验证码,所以就没有处理验证码的事情。但是接下来的事情就有点坑到我了。爬取15000左右评论并输入验证码的时候,我以为会接下来爬取到30000左右,可是才爬了3000左右就不行了,还是要输验证码。然后就一直这样,跌跌撞撞,有时候爬取好长时间才需要验证码,有时候则不是。不过最后还是把评论爬取下来了。

爬取的内容主要是:用户名,是否看过,评论的星星点数,评论时间,认为有用的人数,评论内容。参看下图(用户名已隐藏):

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

这个是影评的起始页:豆瓣影评

以下是Python爬虫的代码:

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

以上代码注意设置你自己的User-Agent,Cookie,CSV保存路径等。

爬取的内容保存成CSV格式的文件。保存的文件内容如下:

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

数据清洗

本文用R语言来处理数据。虽然在爬取的时候已经非常注意爬取内容的结构了,但是还是不可避免的有一些值不是我们想要的,比如有的评论内容会出现在评论者这一项中。所以还是有必要进行一下数据的清洗。

首先加载要用到的所有包:

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

导入数据并清洗:

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

数据浅析

先来看一看通过星星数评论的情况:

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

五角星的个数对应5个等级,5颗星代表力荐,4颗星代表推荐,3颗星代表还行,2颗星代表较差,1颗星代表很差。通过五角星的评论显而易见。我们有理由相信绝大部分观看者对这部影片持满意态度。

对评论结果的云图展示:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

由于数据太多,导致我的破电脑卡顿,所以在制作云图的时候去掉了频数低于1000的词汇。

云图结果如下:

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

整体来看,大家对这不影片的评论还是不错呀!剧情,动作,爱国等话题是大家谈论的焦点。但是如果把不同评价的人的评论分别展示会是什么样子呢?

不同评论等级的云图展示

也就是对五个等级(力荐,推荐,还行,较差,很差)的评论内容制作云图。代码如下(只要改变代码中力荐为其他即可):

1.力荐的评论人的评论云图

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

2.推荐的评论人的评论云图

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

3.还行的评论人的评论云图

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

4.较差的评论人的评论云图

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

5.很差的评论人的评论云图

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

结论:

从不同的评论的分词结果来看,他们都有一个共同的话题:爱国。在力荐的评论中可能爱国话题的基数比很差的评论中的多,在力荐的评论中人们更愿意讨论的是爱国话题之外的事情。在很差的评论中人们讨论的大多是爱国话题。而且他们占的比例很有意思,从力荐的人到评论很差的人,爱国话题的比例逐渐增加。我们不能主观的认为谁对谁错,只能说他们站在的角度不一样,所以看到的结果也不太一样。当我们和别人意见不同时,往往是所处的角度不同。

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy


原文发布时间为:2017-08-23本文作者:挖掘机小王子本文来自云栖社区合作伙伴“ Python中文社区”,了解相关信息可以关注“ Python中文社区”微信公众号
相关文章
|
4月前
|
数据采集 JSON JavaScript
Python爬虫案例:抓取猫眼电影排行榜
python爬取猫眼电影排行榜数据分析,实战。(正则表达式,xpath,beautifulsoup)【2月更文挑战第11天】
217 2
Python爬虫案例:抓取猫眼电影排行榜
|
3月前
|
数据采集 存储 JSON
豆瓣电影信息爬虫实战-2024年6月
使用Python和`requests`、`PyQuery`库,本文教程教你如何编写一个豆瓣电影列表页面的爬虫,抓取电影标题、导演、主演等信息。首先确保安装所需库,然后了解技术栈,包括Python、Requests、PyQuery和正则表达式。爬虫逻辑包括发送HTTP请求、解析HTML、提取数据。代码示例展示了如何实现这一过程,最后运行爬虫并将结果保存为JSON文件。注意遵守网站使用条款和应对反爬策略。
110 2
|
4月前
爬取猫眼电影
爬取猫眼电影
51 0
|
数据采集 Python
python爬虫爬取豆瓣电影排行榜
爬虫爬取豆瓣电影排行榜
|
数据挖掘 Python
Python数据分析系列03-豆瓣电影T250分析
很多人在羡慕别人身材好的时候,却不知道别人有多自律,然而,自己明明前一刻再提醒自己,一定要努力锻炼出好的身材,但是下一秒却没有办法控制自己的食欲。 总感觉自己有很多的才华,却没有机会去施展,可是却没有发现自己没有去努力的表现自己。
Python数据分析系列03-豆瓣电影T250分析
|
数据挖掘 Python
Python数据分析系列04-豆瓣影评、歌词词云分析
哈佛大学的校训之一:你所浪费的今天,是逝去的人所奢望的明天;你所厌恶的现在,是未来的你回不去的曾经。
Python数据分析系列04-豆瓣影评、歌词词云分析
|
文件存储 Python
简单爬取豆瓣电影相关信息
简单爬取豆瓣电影相关信息
135 0
简单爬取豆瓣电影相关信息
|
存储 JSON 数据格式
pyhton爬取爱豆(李易峰)微博评论
今日目标:微博,以李易峰的微博为例:
159 0
|
大数据 应用服务中间件 Linux
Python网络爬虫(正则, 内涵段子,猫眼电影, 链家爬取)
python、python爬虫、网络爬虫、爬虫框架、selenium、requests、urllib、数据分析、大数据、爬虫爬取静态网页、爬虫基础
2627 0