数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分(上):
https://developer.aliyun.com/article/1497192
相比之下《黑暗骑士》排名波动较大,从上图可以看出,影片于2008年7月中旬上映,在几天之内冲到Top 250的第一,但在这个位置上它只保持了不到一个月,从8月10日开始连连下跌,最低跌到过第12名,今排第6。
df[,c("Date" , "Change" , "Votes" , "Rating" )]
《黑暗骑士》在2008年7月份的投票变动情况
par(new=TRUE) plot(x, y2,,type="l",col="blue",xaxt="n",yaxt="n",xlab="",ylab="") axis(4) mtext("y2",side=4,line=3)
点击标题查阅往期内容
01
02
03
04
《黑暗骑士》在2008年7月份的投票和新增票数变动情况
上映几天之内新增的票数和评分的走势基本一致,可以认为大量新增的评分拉高了平均分。之后恢复常态的新增票数对评分作了矫正。《黑暗骑士》上映,《教父》投票猛增,伴随排名下降。《黑暗骑士》超过了《教父》,《教父》又跌到《肖申克的救赎》之下,结论即:短期内恶评《教父》的人大量增加了。
《肖申克的救赎》的IMDb排名走势图
《肖申克的救赎》在2008年7、8月份的投票变动情况
par(new=TRUE) plot(x, y2,,type="l",col="blue",xaxt="n",yaxt="n",xlab="",ylab="")
2008年7月16日至2008年8月10日《教父》、《黑暗骑士》、《肖申克的救赎》的IMDb排名(《教父》和《肖申克的救赎》对应的是次坐标轴)
结合图表发现,其实《肖申克的救赎》的投票情况也受到了《黑暗骑士》上映的影响,从之前的每天100至200票,猛增到后来的每天600至1000票,个别数甚至突破1000。和《教父》情况相似,只不过《肖申克的救赎》的目标不如《教父》醒目,所以受到的“攻击”不如《教父》猛烈,最后渔翁得利。
counts <- t(proportion) barplot(counts, main="Vote rate",
观察《教父》、《黑暗骑士》、《肖申克的救赎》的IMDb评分比例,结合hate votes仇恨投票比例,即打1分的票数占总票数之比。《十二怒汉》[1]、《黄金三镖客》[2]、《低俗小说》[3]等其他Top 10行列的影片这个比例在2.20-3.60%之间,肖申克的救赎为3.40%,比较正常,《黑暗骑士》为3.70%,略偏高,而常年稳居第一的《教父》竟高达6.40%,即出现大量的人给《教父》打1分。从2015年12月18日《教父》、《黑暗骑士》、《肖申克的救赎》的IMDb评分比例可见三者均有被恶评的现象,其中《教父》也高于后两者。
从TOP 250看受众电影偏好
通过分析TOP 250电影特征,能够给予观众和制作者一些启发。亚马逊也靠IMDb卖出了更多的 DVD和录像带。
生产国家
"Russia", "Federal Republic of Yugoslavia" ) barplot( y1 ,col="blue",xaxt="n", yaxt="n",xlab="",ylab="" ) axis(4) mtext("y1",side=4,line=3 )
上图影片数拟合幂律分布的可决系数R²高达0.988,前五名(包括美国、英国、法国、德国、日本)集中了81.6%的影片。美国电影独占鳌头,一方面原因是IMDb的主要评分人群在北美,主要定位在北美观众;另一方面得益于严谨的商业体系,稳定的运作。
导演和演员
wb = loadWorkbook("imdb top250.xls") df = readWorksheet(wb, sheet = "导演", header = TRUE) ## 生产国家
上图影片数拟合幂律分布的可决系数R²分别高达0.899和0.968。观众对于导演的喜爱程度不如演员集中。
演员与影片数和平均评分
df = readWorksheet(wb, sheet = "演员", header = TRUE)
风格流派
y=df$Count[-nrow(df)] names(y)=df$Genre[-nrow(df)]
风格流派与影片数
影片数拟合幂律分布的可决系数R²分别高达0.839。其中评分最高的是剧情片。由于剧情片的分数除了其本身水准以外,还会受到一定程度上的情感倾向影响,倾向于励志、感人、亲情、悲剧等一些容易唤起观众共鸣的情感,人们更容易对故事本身而不是电影水准产生认可,但最主要的因素仍是电影本身的质量好坏。
年份
df[df$Year %in% 1990:1999,-1]
观察一共884部历史曾经入选的影片制作年份,可见20世纪 90年代及本世纪初的电影有比较出色的表现。尤其是1996年(包括《美好事物》、《泰坦尼克号》、《真实的谎言》、《罗密欧与朱丽叶》)、1995年(《七宗罪》、《十二只猴子》)、1994年(《低俗小说》、《阿甘正传》、《肖申克的救赎》)
此外,入选的影片制作年份分布明显右偏。虽然20世纪30年代初到40年代末,特别是1935年到1945年是好莱坞也是美国电影的鼎盛时期。这一时期拍片的数量最多,1946年的产量达500部。电影的观众也最多,影片获得的利润也是最高的,但这并不能说这一时期的影片艺术水平最高,虽然被之后的作品借鉴,但观众最早接触到的仍是离他们最近的影片。
总结
通过以上分析可以明显发现,观众的偏好无论是对于生产国家、导演和演员、制作年份还是风格流派都服从幂律分布,并能够大致勾画出TOP 250电影的典型特征:由欧美国家制作于上世纪末本世纪初的剧情片。
面对良莠不齐的影片,通过集体智慧去粗取精,榜单是一种帮助建立品位的电影体并作为生产者参考标准之一:在IMDb上的口碑直接影响电影公司对于导演、演员的选取。