数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分(下)

简介: 数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分

数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分(上):

https://developer.aliyun.com/article/1497192

相比之下《黑暗骑士》排名波动较大,从上图可以看出,影片于2008年7月中旬上映,在几天之内冲到Top 250的第一,但在这个位置上它只保持了不到一个月,从8月10日开始连连下跌,最低跌到过第12名,今排第6。

df[,c("Date"  , "Change" ,  "Votes" ,  "Rating"      )]

image.png

《黑暗骑士》在2008年7月份的投票变动情况

par(new=TRUE)  
plot(x, y2,,type="l",col="blue",xaxt="n",yaxt="n",xlab="",ylab="")  
axis(4)  
mtext("y2",side=4,line=3)

image.png

点击标题查阅往期内容



01

02

03

04

image.png



《黑暗骑士》在2008年7月份的投票和新增票数变动情况

上映几天之内新增的票数和评分的走势基本一致,可以认为大量新增的评分拉高了平均分。之后恢复常态的新增票数对评分作了矫正。《黑暗骑士》上映,《教父》投票猛增,伴随排名下降。《黑暗骑士》超过了《教父》,《教父》又跌到《肖申克的救赎》之下,结论即:短期内恶评《教父》的人大量增加了。

image.png

《肖申克的救赎》的IMDb排名走势图

image.png

《肖申克的救赎》在2008年7、8月份的投票变动情况

par(new=TRUE)  
plot(x, y2,,type="l",col="blue",xaxt="n",yaxt="n",xlab="",ylab="")

image.png

2008年7月16日至2008年8月10日《教父》、《黑暗骑士》、《肖申克的救赎》的IMDb排名(《教父》和《肖申克的救赎》对应的是次坐标轴)

结合图表发现,其实《肖申克的救赎》的投票情况也受到了《黑暗骑士》上映的影响,从之前的每天100至200票,猛增到后来的每天600至1000票,个别数甚至突破1000。和《教父》情况相似,只不过《肖申克的救赎》的目标不如《教父》醒目,所以受到的“攻击”不如《教父》猛烈,最后渔翁得利。

counts <- t(proportion)  
barplot(counts, main="Vote rate",

image.png

image.png

观察《教父》、《黑暗骑士》、《肖申克的救赎》的IMDb评分比例,结合hate votes仇恨投票比例,即打1分的票数占总票数之比。《十二怒汉》[1]、《黄金三镖客》[2]、《低俗小说》[3]等其他Top 10行列的影片这个比例在2.20-3.60%之间,肖申克的救赎为3.40%,比较正常,《黑暗骑士》为3.70%,略偏高,而常年稳居第一的《教父》竟高达6.40%,即出现大量的人给《教父》打1分。从2015年12月18日《教父》、《黑暗骑士》、《肖申克的救赎》的IMDb评分比例可见三者均有被恶评的现象,其中《教父》也高于后两者。


从TOP 250看受众电影偏好


通过分析TOP 250电影特征,能够给予观众和制作者一些启发。亚马逊也靠IMDb卖出了更多的 DVD和录像带。

生产国家

"Russia",  
"Federal Republic of Yugoslavia"  
)  
barplot( y1 ,col="blue",xaxt="n", yaxt="n",xlab="",ylab="" )  
axis(4)  
mtext("y1",side=4,line=3 )

image.png

上图影片数拟合幂律分布的可决系数R²高达0.988,前五名(包括美国、英国、法国、德国、日本)集中了81.6%的影片。美国电影独占鳌头,一方面原因是IMDb的主要评分人群在北美,主要定位在北美观众;另一方面得益于严谨的商业体系,稳定的运作。


导演和演员

wb = loadWorkbook("imdb top250.xls")  
df = readWorksheet(wb, sheet = "导演", header = TRUE)  
## 生产国家

image.png

上图影片数拟合幂律分布的可决系数R²分别高达0.899和0.968。观众对于导演的喜爱程度不如演员集中。

演员与影片数和平均评分


df = readWorksheet(wb, sheet = "演员", header = TRUE)

image.png

风格流派



y=df$Count[-nrow(df)]  
names(y)=df$Genre[-nrow(df)]

image.png

风格流派与影片数


影片数拟合幂律分布的可决系数R²分别高达0.839。其中评分最高的是剧情片。由于剧情片的分数除了其本身水准以外,还会受到一定程度上的情感倾向影响,倾向于励志、感人、亲情、悲剧等一些容易唤起观众共鸣的情感,人们更容易对故事本身而不是电影水准产生认可,但最主要的因素仍是电影本身的质量好坏。


年份


df[df$Year %in% 1990:1999,-1]

image.png

观察一共884部历史曾经入选的影片制作年份,可见20世纪 90年代及本世纪初的电影有比较出色的表现。尤其是1996年(包括《美好事物》、《泰坦尼克号》、《真实的谎言》、《罗密欧与朱丽叶》)、1995年(《七宗罪》、《十二只猴子》)、1994年(《低俗小说》、《阿甘正传》、《肖申克的救赎》)

image.png

此外,入选的影片制作年份分布明显右偏。虽然20世纪30年代初到40年代末,特别是1935年到1945年是好莱坞也是美国电影的鼎盛时期。这一时期拍片的数量最多,1946年的产量达500部。电影的观众也最多,影片获得的利润也是最高的,但这并不能说这一时期的影片艺术水平最高,虽然被之后的作品借鉴,但观众最早接触到的仍是离他们最近的影片。

总结

通过以上分析可以明显发现,观众的偏好无论是对于生产国家、导演和演员、制作年份还是风格流派都服从幂律分布,并能够大致勾画出TOP 250电影的典型特征:由欧美国家制作于上世纪末本世纪初的剧情片。

面对良莠不齐的影片,通过集体智慧去粗取精,榜单是一种帮助建立品位的电影体并作为生产者参考标准之一:在IMDb上的口碑直接影响电影公司对于导演、演员的选取。


相关文章
|
2月前
|
数据可视化 数据挖掘 API
【R语言实战】聚类分析及可视化
【R语言实战】聚类分析及可视化
|
2月前
|
机器学习/深度学习 数据可视化
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为2
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为
|
1月前
|
数据采集 机器学习/深度学习 数据可视化
数据挖掘实战:Python在金融数据分析中的应用案例
Python在金融数据分析中扮演关键角色,用于预测市场趋势和风险管理。本文通过案例展示了使用Python库(如pandas、numpy、matplotlib等)进行数据获取、清洗、分析和建立预测模型,例如计算苹果公司(AAPL)股票的简单移动平均线,以展示基本流程。此示例为更复杂的金融建模奠定了基础。【6月更文挑战第13天】
262 3
|
1月前
|
机器学习/深度学习 数据采集 算法
数据科学基础:数据挖掘与分析的技术探讨
【6月更文挑战第15天】本文探讨数据科学中的数据挖掘与分析技术,阐述其基础理论,包括数据预处理、探索和模型建立,并介绍统计分析、机器学习、深度学习等方法。面对数据质量、算法选择等挑战,数据挖掘在智能决策、个性化服务、预测等方面展现广阔前景,将在跨领域融合中发挥更大作用,同时也需关注隐私安全与技术伦理。
|
2月前
|
数据采集 数据可视化
利用R语言进行因子分析实战(数据+代码+可视化+详细分析)
利用R语言进行因子分析实战(数据+代码+可视化+详细分析)
|
2月前
利用R语言进行典型相关分析实战
利用R语言进行典型相关分析实战
|
2月前
|
Web App开发 数据可视化 数据挖掘
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
|
2月前
|
机器学习/深度学习 算法
R语言分类回归分析考研热现象分析与考研意愿价值变现
R语言分类回归分析考研热现象分析与考研意愿价值变现
|
2月前
|
数据可视化
R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码2
R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码
|
2月前
|
数据可视化 数据挖掘
R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码1
R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码

热门文章

最新文章