数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分(上)

简介: 数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分

全文链接:https://tecdat.cn/?p=32998


本文首先介绍了IMDb(互联网电影资料库) TOP250及其排名算法、评分机制利弊,帮助客户通过分析《黑暗骑士》、《肖申克的救赎》和《教父》三部影片评分数据,分析排名变动的原因点击文末“阅读原文”获取完整代码数据


其次,通过抓取曾经入选电影的生产国家、导演和演员、制作年份、风格流派以及当前入选的制作年份和各自的计数、平均打分,总结IMDb TOP250电影特征,最终得出互联网资料库Top250多为欧美国家制作于上世纪末本世纪初剧情片的分析结果。


IMDb简介


互联网电影资料库(Internet Movie Database,简称IMDb)是一个关于电影演员、电影、电视节目、电视明星、电子游戏和电影制作的在线数据库。IMDb创建于1990年10月17日,从1998年开始成为Amazon公司旗下网站,2010年是IMDb成立20周年纪念。对于电影的评分目前使用最多的就是IMDb评分。

Top250

Top250是IMDb的特色,里面列出了注册用户投票选出的有史以来最佳250部电影查看文末了解数据免费获取方式。只有供影院播出的影片可以参加评选,而短片,纪录片,连续短剧和电视电影不在其列。用户在从“1”(最低)到“10”(最高)的范围内对影片评分。得分经过数学公式(IMDb公开的Top250算法[1])的过滤而生成最后的评定。为了保护结果不受恶意投票的影响,并且,只有“经常投票的用户”的投票被记入结果,为保护公平性,成为该类用户的条件是保密的。


[1] The formula for calculating the Top Rated 250 Titles gives a true Bayesian estimate:

weighted rating (WR) = (v ÷ (v+m)) × R + (m ÷ (v+m)) × C =C+(R-C) ×1/(1+m/v)

where:

R = average for the movie (mean) = (Rating)

v = number of votes for the movie = (votes)

m = minimum votes required to be listed in the Top 250 (currently 25000)

C = the mean vote across the whole report (currently 7.0)

for the Top 250, only votes from regular voters are considered.

因此:临界值m=v,有Rating(WR)=(R+C)/2,即最终得分为用户打分和平均分的均值,用户打分有效,但不明显;v<>m时,有Rating(WR)→R,即打分用户越多,用户打分影响越大,越趋近用户真实打分。


查看数据


image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

head(df)
df$`Highest position`=apply(df[,c("rank1" ,"rank2")],1,min)

image.png

另外在五部曾经成为过Top1里面,除了《肖申克的救赎》和《教父》,《星球大战》、《黑暗骑士》、《指环王》都是轰动一时的大片;并且排名达到过第二的电影里面既有奥斯卡得主也有商业大片:这说明一部电影在上映或评选时引起的轰动会影响到IMDb排名的剧烈波动。此外,《教父》和《肖申克的救赎》的平均评分分别是9.11和9.10,另外三部拿过第一的电影在平均评分上与前二者有明显差距。


点击标题查阅往期内容


数据分享|R语言逐步回归、方差分析anova电影市场调查问卷数据可视化


01

02

03

04


排名算法探讨

IMDb Top250算法的思路就是通过每部影片的评分人数作为调节排序的杠杆:如果这部影片的评分人数低于一个预设值,影片的最终得分会向全部影片的平均分被拉低。

由此可见,平衡评分人数和得分,避免小众高分影片排前,是这个计算方法的出发点。可问题在于:调节整个榜单的排序主要依赖于评分人数预设值。若被设置的很低,那么最终的排序结果,就是每部影片自身评分从高到低在排序;若被设置得过高,那么只适用高曝光率的影片。该预设值从500被调整至25000,遗憾的是这个算法仍然无法很好的解决他们的问题。

考虑国内电影市场,2015年11月19日上映的《我的少女时代》,在2015年12月19日在豆瓣电影得到了累计超过11万人次的评分,而1942年上映的《卡萨布兰卡》,同时刻的评分人数还不到10万。近几年由于观影方式的多样化以及影院观影的持续火爆,使得新近上映的影片很轻松地就能获得大量的评分,相较之下,老片子的曝光机会少了很多。继续调节评分人数预设值已无法满足当前国内电影排行榜的实际需求。

评分机制利弊

对于大部分电影而言,长期来看评分是有一定参考价值的。但由于存在受雇于网络公关公司,或者狂热粉丝伪装成普通用户在网站上刷口碑,给竞争对手抹黑,借以操纵市场的行为,不可盲目迷信分数。

2008年7月18日《黑暗骑士》[1]上映时,诺兰狂热粉丝为了将其推上TOP1,昼夜不停给该片打10分,同时给当时TOP1的《教父》[2]打1分,终于把一部21世纪影片送上了TOP1宝座,也让《肖申克的救赎》的分数超越了《教父》。如今《黑暗骑士》终究不敌岁月洗礼跌下去了,不过《肖申克的救赎》[3]的优势却保留了下来,成了TOP1。

下面通过采集IMDb相应时段数据,说明该过程:

# 《教父》的IMDb排名走势图  
  
df = read_excel("imdb top250.xls", sheet = 3  )

image.png

从1998年开始,《教父》基本上稳定地排在Top 250榜单的第一名,而在2008年7月底,突然降到第3名,然后从当年8月10日起至今,回升并保持在第二。

data.frame(date,na.omit(df$Change),na.omit(rank,df$Rating),na.omit(df$V

image.png

在7月中旬之前,该片每天新增投票100多,但从大约7月20日起,每天新增投票超过1000,同时它的排名降到第2,然后在6天之内降至第3。

image.png


数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分(下):https://developer.aliyun.com/article/1497193

相关文章
|
2月前
|
数据可视化 数据挖掘 API
【R语言实战】聚类分析及可视化
【R语言实战】聚类分析及可视化
|
2月前
|
机器学习/深度学习 数据可视化
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为2
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为
|
2月前
|
数据采集 数据可视化
利用R语言进行因子分析实战(数据+代码+可视化+详细分析)
利用R语言进行因子分析实战(数据+代码+可视化+详细分析)
|
2月前
利用R语言进行典型相关分析实战
利用R语言进行典型相关分析实战
|
2月前
|
Web App开发 数据可视化 数据挖掘
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
|
2月前
|
机器学习/深度学习 算法
R语言分类回归分析考研热现象分析与考研意愿价值变现
R语言分类回归分析考研热现象分析与考研意愿价值变现
|
2月前
|
数据可视化 定位技术
R语言贝叶斯INLA空间自相关、混合效应、季节空间模型、SPDE、时空分析野生动物数据可视化
R语言贝叶斯INLA空间自相关、混合效应、季节空间模型、SPDE、时空分析野生动物数据可视化
|
2月前
|
机器学习/深度学习 数据可视化 算法
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为1
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为
|
2月前
|
机器学习/深度学习 数据可视化 算法
R语言聚类分析、因子分析、主成分分析PCA农村农业相关经济指标数据可视化|数据分享
R语言聚类分析、因子分析、主成分分析PCA农村农业相关经济指标数据可视化|数据分享
|
2月前
|
机器学习/深度学习 监控 数据可视化
R语言SOM神经网络聚类、多层感知机MLP、PCA主成分分析可视化银行客户信用数据实例2
R语言SOM神经网络聚类、多层感知机MLP、PCA主成分分析可视化银行客户信用数据实例