数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分(下)

简介: 数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分

数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分(上):

https://developer.aliyun.com/article/1497192

相比之下《黑暗骑士》排名波动较大,从上图可以看出,影片于2008年7月中旬上映,在几天之内冲到Top 250的第一,但在这个位置上它只保持了不到一个月,从8月10日开始连连下跌,最低跌到过第12名,今排第6。

df[,c("Date"  , "Change" ,  "Votes" ,  "Rating"      )]

image.png

《黑暗骑士》在2008年7月份的投票变动情况

par(new=TRUE)  
plot(x, y2,,type="l",col="blue",xaxt="n",yaxt="n",xlab="",ylab="")  
axis(4)  
mtext("y2",side=4,line=3)

image.png

点击标题查阅往期内容



01

02

03

04

image.png



《黑暗骑士》在2008年7月份的投票和新增票数变动情况

上映几天之内新增的票数和评分的走势基本一致,可以认为大量新增的评分拉高了平均分。之后恢复常态的新增票数对评分作了矫正。《黑暗骑士》上映,《教父》投票猛增,伴随排名下降。《黑暗骑士》超过了《教父》,《教父》又跌到《肖申克的救赎》之下,结论即:短期内恶评《教父》的人大量增加了。

image.png

《肖申克的救赎》的IMDb排名走势图

image.png

《肖申克的救赎》在2008年7、8月份的投票变动情况

par(new=TRUE)  
plot(x, y2,,type="l",col="blue",xaxt="n",yaxt="n",xlab="",ylab="")

image.png

2008年7月16日至2008年8月10日《教父》、《黑暗骑士》、《肖申克的救赎》的IMDb排名(《教父》和《肖申克的救赎》对应的是次坐标轴)

结合图表发现,其实《肖申克的救赎》的投票情况也受到了《黑暗骑士》上映的影响,从之前的每天100至200票,猛增到后来的每天600至1000票,个别数甚至突破1000。和《教父》情况相似,只不过《肖申克的救赎》的目标不如《教父》醒目,所以受到的“攻击”不如《教父》猛烈,最后渔翁得利。

counts <- t(proportion)  
barplot(counts, main="Vote rate",

image.png

image.png

观察《教父》、《黑暗骑士》、《肖申克的救赎》的IMDb评分比例,结合hate votes仇恨投票比例,即打1分的票数占总票数之比。《十二怒汉》[1]、《黄金三镖客》[2]、《低俗小说》[3]等其他Top 10行列的影片这个比例在2.20-3.60%之间,肖申克的救赎为3.40%,比较正常,《黑暗骑士》为3.70%,略偏高,而常年稳居第一的《教父》竟高达6.40%,即出现大量的人给《教父》打1分。从2015年12月18日《教父》、《黑暗骑士》、《肖申克的救赎》的IMDb评分比例可见三者均有被恶评的现象,其中《教父》也高于后两者。


从TOP 250看受众电影偏好


通过分析TOP 250电影特征,能够给予观众和制作者一些启发。亚马逊也靠IMDb卖出了更多的 DVD和录像带。

生产国家

"Russia",  
"Federal Republic of Yugoslavia"  
)  
barplot( y1 ,col="blue",xaxt="n", yaxt="n",xlab="",ylab="" )  
axis(4)  
mtext("y1",side=4,line=3 )

image.png

上图影片数拟合幂律分布的可决系数R²高达0.988,前五名(包括美国、英国、法国、德国、日本)集中了81.6%的影片。美国电影独占鳌头,一方面原因是IMDb的主要评分人群在北美,主要定位在北美观众;另一方面得益于严谨的商业体系,稳定的运作。


导演和演员

wb = loadWorkbook("imdb top250.xls")  
df = readWorksheet(wb, sheet = "导演", header = TRUE)  
## 生产国家

image.png

上图影片数拟合幂律分布的可决系数R²分别高达0.899和0.968。观众对于导演的喜爱程度不如演员集中。

演员与影片数和平均评分


df = readWorksheet(wb, sheet = "演员", header = TRUE)

image.png

风格流派



y=df$Count[-nrow(df)]  
names(y)=df$Genre[-nrow(df)]

image.png

风格流派与影片数


影片数拟合幂律分布的可决系数R²分别高达0.839。其中评分最高的是剧情片。由于剧情片的分数除了其本身水准以外,还会受到一定程度上的情感倾向影响,倾向于励志、感人、亲情、悲剧等一些容易唤起观众共鸣的情感,人们更容易对故事本身而不是电影水准产生认可,但最主要的因素仍是电影本身的质量好坏。


年份


df[df$Year %in% 1990:1999,-1]

image.png

观察一共884部历史曾经入选的影片制作年份,可见20世纪 90年代及本世纪初的电影有比较出色的表现。尤其是1996年(包括《美好事物》、《泰坦尼克号》、《真实的谎言》、《罗密欧与朱丽叶》)、1995年(《七宗罪》、《十二只猴子》)、1994年(《低俗小说》、《阿甘正传》、《肖申克的救赎》)

image.png

此外,入选的影片制作年份分布明显右偏。虽然20世纪30年代初到40年代末,特别是1935年到1945年是好莱坞也是美国电影的鼎盛时期。这一时期拍片的数量最多,1946年的产量达500部。电影的观众也最多,影片获得的利润也是最高的,但这并不能说这一时期的影片艺术水平最高,虽然被之后的作品借鉴,但观众最早接触到的仍是离他们最近的影片。

总结

通过以上分析可以明显发现,观众的偏好无论是对于生产国家、导演和演员、制作年份还是风格流派都服从幂律分布,并能够大致勾画出TOP 250电影的典型特征:由欧美国家制作于上世纪末本世纪初的剧情片。

面对良莠不齐的影片,通过集体智慧去粗取精,榜单是一种帮助建立品位的电影体并作为生产者参考标准之一:在IMDb上的口碑直接影响电影公司对于导演、演员的选取。


相关文章
|
3月前
|
数据可视化 数据挖掘 API
【R语言实战】聚类分析及可视化
【R语言实战】聚类分析及可视化
|
3月前
|
机器学习/深度学习 数据可视化
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为2
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为
|
13天前
|
SQL 存储 算法
【数据挖掘】恒生金融有限公司2023届秋招数据ETL工程师笔试题解析
恒生科技2022年9月24号数据ETL工程师岗位的笔试题目及答案汇总,包括了SQL选择题、SQL编程题和业务应用SQL编程题,涵盖了数据库基础知识、SQL语句编写以及数据仓库概念等多个方面。
30 2
【数据挖掘】恒生金融有限公司2023届秋招数据ETL工程师笔试题解析
|
12天前
|
机器学习/深度学习 安全 算法
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 32页和40页论文及实现代码
本文总结了2023年第十一届泰迪杯数据挖掘挑战赛A题的新冠疫情防控数据分析,提供了32页和40页的论文以及实现代码,涉及密接者追踪、疫苗接种影响分析、重点场所管控以及疫情趋势研判等多个方面,运用了机器学习算法和SEIR传染病模型等方法。
23 0
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 32页和40页论文及实现代码
|
12天前
|
机器学习/深度学习 安全 算法
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 建模方案及python代码详解
本文介绍了2023年第十一届泰迪杯数据挖掘挑战赛A题的解题思路和Python代码实现,涵盖了新冠疫情防控数据的分析、建模方案以及数据治理的具体工作。
31 0
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 建模方案及python代码详解
|
2月前
|
数据采集 数据可视化 数据挖掘
数据挖掘实战:使用Python进行数据分析与可视化
在大数据时代,Python因其强大库支持和易学性成为数据挖掘的首选语言。本文通过一个电商销售数据案例,演示如何使用Python进行数据预处理(如处理缺失值)、分析(如销售额时间趋势)和可视化(如商品类别销售条形图),揭示数据背后的模式。安装`pandas`, `numpy`, `matplotlib`, `seaborn`后,可以按照提供的代码步骤,从读取CSV到数据探索,体验Python在数据分析中的威力。这只是数据科学的入门,更多高级技术等待发掘。【6月更文挑战第14天】
98 11
|
3月前
|
数据采集 数据可视化
利用R语言进行因子分析实战(数据+代码+可视化+详细分析)
利用R语言进行因子分析实战(数据+代码+可视化+详细分析)
|
3月前
|
Web App开发 数据可视化 数据挖掘
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
|
3月前
|
数据可视化
R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码2
R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码
|
3月前
|
数据可视化 数据挖掘
R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码1
R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码

热门文章

最新文章