数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分（下）

2024-04-29 205 发布于山西

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分

数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分（上）：

https://developer.aliyun.com/article/1497192

相比之下《黑暗骑士》排名波动较大，从上图可以看出，影片于2008年7月中旬上映，在几天之内冲到Top 250的第一，但在这个位置上它只保持了不到一个月，从8月10日开始连连下跌，最低跌到过第12名，今排第6。

df[,c("Date"  , "Change" ,  "Votes" ,  "Rating"      )]

《黑暗骑士》在2008年7月份的投票变动情况

par(new=TRUE)  
plot(x, y2,,type="l",col="blue",xaxt="n",yaxt="n",xlab="",ylab="")  
axis(4)  
mtext("y2",side=4,line=3)

点击标题查阅往期内容

《黑暗骑士》在2008年7月份的投票和新增票数变动情况

上映几天之内新增的票数和评分的走势基本一致，可以认为大量新增的评分拉高了平均分。之后恢复常态的新增票数对评分作了矫正。《黑暗骑士》上映，《教父》投票猛增，伴随排名下降。《黑暗骑士》超过了《教父》，《教父》又跌到《肖申克的救赎》之下，结论即：短期内恶评《教父》的人大量增加了。

《肖申克的救赎》的IMDb排名走势图

《肖申克的救赎》在2008年7、8月份的投票变动情况

par(new=TRUE)  
plot(x, y2,,type="l",col="blue",xaxt="n",yaxt="n",xlab="",ylab="")

2008年7月16日至2008年8月10日《教父》、《黑暗骑士》、《肖申克的救赎》的IMDb排名（《教父》和《肖申克的救赎》对应的是次坐标轴）

结合图表发现，其实《肖申克的救赎》的投票情况也受到了《黑暗骑士》上映的影响，从之前的每天100至200票，猛增到后来的每天600至1000票，个别数甚至突破1000。和《教父》情况相似，只不过《肖申克的救赎》的目标不如《教父》醒目，所以受到的“攻击”不如《教父》猛烈，最后渔翁得利。

counts <- t(proportion)  
barplot(counts, main="Vote rate",

观察《教父》、《黑暗骑士》、《肖申克的救赎》的IMDb评分比例，结合hate votes仇恨投票比例，即打1分的票数占总票数之比。《十二怒汉》[1]、《黄金三镖客》[2]、《低俗小说》[3]等其他Top 10行列的影片这个比例在2.20-3.60%之间，肖申克的救赎为3.40%，比较正常，《黑暗骑士》为3.70%，略偏高，而常年稳居第一的《教父》竟高达6.40%，即出现大量的人给《教父》打1分。从2015年12月18日《教父》、《黑暗骑士》、《肖申克的救赎》的IMDb评分比例可见三者均有被恶评的现象，其中《教父》也高于后两者。

从TOP 250看受众电影偏好

通过分析TOP 250电影特征，能够给予观众和制作者一些启发。亚马逊也靠IMDb卖出了更多的 DVD和录像带。

生产国家

"Russia",  
"Federal Republic of Yugoslavia"  
)  
barplot( y1 ,col="blue",xaxt="n", yaxt="n",xlab="",ylab="" )  
axis(4)  
mtext("y1",side=4,line=3 )

上图影片数拟合幂律分布的可决系数R²高达0.988，前五名（包括美国、英国、法国、德国、日本）集中了81.6%的影片。美国电影独占鳌头，一方面原因是IMDb的主要评分人群在北美，主要定位在北美观众；另一方面得益于严谨的商业体系，稳定的运作。

导演和演员

wb = loadWorkbook("imdb top250.xls")  
df = readWorksheet(wb, sheet = "导演", header = TRUE)  
## 生产国家

上图影片数拟合幂律分布的可决系数R²分别高达0.899和0.968。观众对于导演的喜爱程度不如演员集中。

演员与影片数和平均评分

df = readWorksheet(wb, sheet = "演员", header = TRUE)

风格流派

y=df$Count[-nrow(df)]  
names(y)=df$Genre[-nrow(df)]

风格流派与影片数

影片数拟合幂律分布的可决系数R²分别高达0.839。其中评分最高的是剧情片。由于剧情片的分数除了其本身水准以外，还会受到一定程度上的情感倾向影响，倾向于励志、感人、亲情、悲剧等一些容易唤起观众共鸣的情感，人们更容易对故事本身而不是电影水准产生认可，但最主要的因素仍是电影本身的质量好坏。

年份

df[df$Year %in% 1990:1999,-1]

观察一共884部历史曾经入选的影片制作年份，可见20世纪 90年代及本世纪初的电影有比较出色的表现。尤其是1996年（包括《美好事物》、《泰坦尼克号》、《真实的谎言》、《罗密欧与朱丽叶》）、1995年（《七宗罪》、《十二只猴子》）、1994年（《低俗小说》、《阿甘正传》、《肖申克的救赎》）

此外，入选的影片制作年份分布明显右偏。虽然20世纪30年代初到40年代末，特别是1935年到1945年是好莱坞也是美国电影的鼎盛时期。这一时期拍片的数量最多，1946年的产量达500部。电影的观众也最多，影片获得的利润也是最高的，但这并不能说这一时期的影片艺术水平最高，虽然被之后的作品借鉴，但观众最早接触到的仍是离他们最近的影片。

总结

通过以上分析可以明显发现，观众的偏好无论是对于生产国家、导演和演员、制作年份还是风格流派都服从幂律分布，并能够大致勾画出TOP 250电影的典型特征：由欧美国家制作于上世纪末本世纪初的剧情片。

面对良莠不齐的影片，通过集体智慧去粗取精，榜单是一种帮助建立品位的电影体并作为生产者参考标准之一：在IMDb上的口碑直接影响电影公司对于导演、演员的选取。

数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分（下）

从TOP 250看受众电影偏好

生产国家

导演和演员

演员与影片数和平均评分

风格流派

风格流派与影片数

年份

总结

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分（下）

从TOP 250看受众电影偏好

生产国家

导演和演员

演员与影片数和平均评分

风格流派

风格流派与影片数

年份

总结

热门文章

最新文章

相关课程

相关电子书