数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分(下)

简介: 数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分

数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分(上):

https://developer.aliyun.com/article/1497192

相比之下《黑暗骑士》排名波动较大,从上图可以看出,影片于2008年7月中旬上映,在几天之内冲到Top 250的第一,但在这个位置上它只保持了不到一个月,从8月10日开始连连下跌,最低跌到过第12名,今排第6。

df[,c("Date"  , "Change" ,  "Votes" ,  "Rating"      )]

image.png

《黑暗骑士》在2008年7月份的投票变动情况

par(new=TRUE)  
plot(x, y2,,type="l",col="blue",xaxt="n",yaxt="n",xlab="",ylab="")  
axis(4)  
mtext("y2",side=4,line=3)

image.png

点击标题查阅往期内容



01

02

03

04

image.png



《黑暗骑士》在2008年7月份的投票和新增票数变动情况

上映几天之内新增的票数和评分的走势基本一致,可以认为大量新增的评分拉高了平均分。之后恢复常态的新增票数对评分作了矫正。《黑暗骑士》上映,《教父》投票猛增,伴随排名下降。《黑暗骑士》超过了《教父》,《教父》又跌到《肖申克的救赎》之下,结论即:短期内恶评《教父》的人大量增加了。

image.png

《肖申克的救赎》的IMDb排名走势图

image.png

《肖申克的救赎》在2008年7、8月份的投票变动情况

par(new=TRUE)  
plot(x, y2,,type="l",col="blue",xaxt="n",yaxt="n",xlab="",ylab="")

image.png

2008年7月16日至2008年8月10日《教父》、《黑暗骑士》、《肖申克的救赎》的IMDb排名(《教父》和《肖申克的救赎》对应的是次坐标轴)

结合图表发现,其实《肖申克的救赎》的投票情况也受到了《黑暗骑士》上映的影响,从之前的每天100至200票,猛增到后来的每天600至1000票,个别数甚至突破1000。和《教父》情况相似,只不过《肖申克的救赎》的目标不如《教父》醒目,所以受到的“攻击”不如《教父》猛烈,最后渔翁得利。

counts <- t(proportion)  
barplot(counts, main="Vote rate",

image.png

image.png

观察《教父》、《黑暗骑士》、《肖申克的救赎》的IMDb评分比例,结合hate votes仇恨投票比例,即打1分的票数占总票数之比。《十二怒汉》[1]、《黄金三镖客》[2]、《低俗小说》[3]等其他Top 10行列的影片这个比例在2.20-3.60%之间,肖申克的救赎为3.40%,比较正常,《黑暗骑士》为3.70%,略偏高,而常年稳居第一的《教父》竟高达6.40%,即出现大量的人给《教父》打1分。从2015年12月18日《教父》、《黑暗骑士》、《肖申克的救赎》的IMDb评分比例可见三者均有被恶评的现象,其中《教父》也高于后两者。


从TOP 250看受众电影偏好


通过分析TOP 250电影特征,能够给予观众和制作者一些启发。亚马逊也靠IMDb卖出了更多的 DVD和录像带。

生产国家

"Russia",  
"Federal Republic of Yugoslavia"  
)  
barplot( y1 ,col="blue",xaxt="n", yaxt="n",xlab="",ylab="" )  
axis(4)  
mtext("y1",side=4,line=3 )

image.png

上图影片数拟合幂律分布的可决系数R²高达0.988,前五名(包括美国、英国、法国、德国、日本)集中了81.6%的影片。美国电影独占鳌头,一方面原因是IMDb的主要评分人群在北美,主要定位在北美观众;另一方面得益于严谨的商业体系,稳定的运作。


导演和演员

wb = loadWorkbook("imdb top250.xls")  
df = readWorksheet(wb, sheet = "导演", header = TRUE)  
## 生产国家

image.png

上图影片数拟合幂律分布的可决系数R²分别高达0.899和0.968。观众对于导演的喜爱程度不如演员集中。

演员与影片数和平均评分


df = readWorksheet(wb, sheet = "演员", header = TRUE)

image.png

风格流派



y=df$Count[-nrow(df)]  
names(y)=df$Genre[-nrow(df)]

image.png

风格流派与影片数


影片数拟合幂律分布的可决系数R²分别高达0.839。其中评分最高的是剧情片。由于剧情片的分数除了其本身水准以外,还会受到一定程度上的情感倾向影响,倾向于励志、感人、亲情、悲剧等一些容易唤起观众共鸣的情感,人们更容易对故事本身而不是电影水准产生认可,但最主要的因素仍是电影本身的质量好坏。


年份


df[df$Year %in% 1990:1999,-1]

image.png

观察一共884部历史曾经入选的影片制作年份,可见20世纪 90年代及本世纪初的电影有比较出色的表现。尤其是1996年(包括《美好事物》、《泰坦尼克号》、《真实的谎言》、《罗密欧与朱丽叶》)、1995年(《七宗罪》、《十二只猴子》)、1994年(《低俗小说》、《阿甘正传》、《肖申克的救赎》)

image.png

此外,入选的影片制作年份分布明显右偏。虽然20世纪30年代初到40年代末,特别是1935年到1945年是好莱坞也是美国电影的鼎盛时期。这一时期拍片的数量最多,1946年的产量达500部。电影的观众也最多,影片获得的利润也是最高的,但这并不能说这一时期的影片艺术水平最高,虽然被之后的作品借鉴,但观众最早接触到的仍是离他们最近的影片。

总结

通过以上分析可以明显发现,观众的偏好无论是对于生产国家、导演和演员、制作年份还是风格流派都服从幂律分布,并能够大致勾画出TOP 250电影的典型特征:由欧美国家制作于上世纪末本世纪初的剧情片。

面对良莠不齐的影片,通过集体智慧去粗取精,榜单是一种帮助建立品位的电影体并作为生产者参考标准之一:在IMDb上的口碑直接影响电影公司对于导演、演员的选取。


相关文章
|
3月前
|
数据采集 机器学习/深度学习 数据可视化
R语言从数据到决策:R语言在商业分析中的实践
【9月更文挑战第1天】R语言在商业分析中的应用广泛而深入,从数据收集、预处理、分析到预测模型构建和决策支持,R语言都提供了强大的工具和功能。通过学习和掌握R语言在商业分析中的实践应用,我们可以更好地利用数据驱动企业决策,提升企业的竞争力和盈利能力。未来,随着大数据和人工智能技术的不断发展,R语言在商业分析领域的应用将更加广泛和深入,为企业带来更多的机遇和挑战。
|
4月前
|
存储 数据采集 数据处理
R语言数据变换:使用tidyr包进行高效数据整形的探索
【8月更文挑战第29天】`tidyr`包为R语言的数据整形提供了强大的工具。通过`pivot_longer()`、`pivot_wider()`、`separate()`和`unite()`等函数,我们可以轻松地将数据从一种格式转换为另一种格式,以满足不同的分析需求。掌握这些函数的使用,将大大提高我们处理和分析数据的效率。
|
3月前
R语言基于表格文件的数据绘制具有多个系列的柱状图与直方图
【9月更文挑战第9天】在R语言中,利用`ggplot2`包可绘制多系列柱状图与直方图。首先读取数据文件`data.csv`,加载`ggplot2`包后,使用`ggplot`函数指定轴与填充颜色,并通过`geom_bar`或`geom_histogram`绘图。参数如`stat`, `position`, `alpha`等可根据需要调整,实现不同系列的图表展示。
|
3月前
|
数据采集 数据可视化 数据挖掘
R语言在金融数据分析中的深度应用:探索数据背后的市场智慧
【9月更文挑战第1天】R语言在金融数据分析中展现出了强大的功能和广泛的应用前景。通过丰富的数据处理函数、强大的统计分析功能和优秀的可视化效果,R语言能够帮助金融机构深入挖掘数据价值,洞察市场动态。未来,随着金融数据的不断积累和技术的不断进步,R语言在金融数据分析中的应用将更加广泛和深入。
|
4月前
|
数据采集 机器学习/深度学习 数据挖掘
R语言数据清洗:高效处理缺失值与重复数据的策略
【8月更文挑战第29天】处理缺失值和重复数据是数据清洗中的基础而重要的步骤。在R语言中,我们拥有多种工具和方法来有效地应对这些问题。通过识别、删除或插补缺失值,以及删除重复数据,我们可以提高数据集的质量和可靠性,为后续的数据分析和建模工作打下坚实的基础。 需要注意的是,处理缺失值和重复数据时,我们应根据实际情况和数据特性选择合适的方法,并在处理过程中保持谨慎,以避免引入新的偏差或错误。
|
4月前
|
SQL 存储 算法
【数据挖掘】恒生金融有限公司2023届秋招数据ETL工程师笔试题解析
恒生科技2022年9月24号数据ETL工程师岗位的笔试题目及答案汇总,包括了SQL选择题、SQL编程题和业务应用SQL编程题,涵盖了数据库基础知识、SQL语句编写以及数据仓库概念等多个方面。
67 2
【数据挖掘】恒生金融有限公司2023届秋招数据ETL工程师笔试题解析
|
4月前
|
数据处理
R语言数据合并:掌握`merge`与`dplyr`中`join`的巧妙技巧
【8月更文挑战第29天】如果你已经在使用`dplyr`进行数据处理,那么推荐使用`dplyr::join`进行数据合并,因为它与`dplyr`的其他函数(如`filter()`、`select()`、`mutate()`等)无缝集成,能够提供更加流畅和一致的数据处理体验。如果你的代码中尚未使用`dplyr`,但想要尝试,那么`dplyr::join`将是一个很好的起点。
|
4月前
|
数据采集 存储 数据可视化
R语言时间序列分析:处理与建模时间序列数据的深度探索
【8月更文挑战第31天】R语言作为一款功能强大的数据分析工具,为处理时间序列数据提供了丰富的函数和包。从数据读取、预处理、建模到可视化,R语言都提供了灵活且强大的解决方案。然而,时间序列数据的处理和分析是一个复杂的过程,需要结合具体的应用场景和需求来选择合适的方法和模型。希望本文能为读者在R语言中进行时间序列分析提供一些有益的参考和启示。
|
4月前
|
SQL 数据挖掘 数据处理
R语言数据操作:使用dplyr进行数据处理的深度探索
【8月更文挑战第27天】`dplyr`包以其简洁、强大的数据处理能力,在R语言的数据分析领域占据了重要地位。通过`select()`、`filter()`、`arrange()`、`mutate()`和`summarise()`等核心函数,结合管道操作符`%>%`,我们可以轻松地完成数据筛选、排序、变换和汇总等操作。掌握`dplyr`的使用,将极大地提高我们在R语言中进行
|
4月前
|
数据采集 自然语言处理 数据可视化
基于Python的社交媒体评论数据挖掘,使用LDA主题分析、文本聚类算法、情感分析实现
本文介绍了基于Python的社交媒体评论数据挖掘方法,使用LDA主题分析、文本聚类算法和情感分析技术,对数据进行深入分析和可视化,以揭示文本数据中的潜在主题、模式和情感倾向。
291 0

热门文章

最新文章

下一篇
DataWorks