数据报告分享|SPSS基于多元回归模型的电影票房预测

简介: 数据报告分享|SPSS基于多元回归模型的电影票房预测

全文链接:https://tecdat.cn/?p=33190


本文通过利用回归模型对电影的票房(以及放映场数,观影人数)进行了研究,确定了决定电影的票房的重要因素。并讲述、论证了预测电影的票房是电影投资的至关重要的环节。通过对电影票房预测技术的发展和探讨,深度剖析了电影票房预测这个研究课题点击文末“阅读原文”获取完整代码数据


一、 电影票房预测发展简介

(一) 西方电影票房的研究

美国电影的票房研究起始于上个世纪80年代,由李特曼(B. R. Litman)在1989年以1981到1986年在美国播出的697部电影作为研究样本,通过多元回归分析,初步建立了电影票房的预测模型。

我们收集了中国电影发行放映协会统计的过千万票房的国产电影的相关统计指标,共涉及275部影片查看文末了解数据免费获取方式)。

image.png

因变量为:

放映场数(千场):累积量。

观影人数(万人):累积量。

票房(万元):累积量。票房均值在一亿人民币左右,其中《人在囧途之泰囧》票房达到了12.7亿,位列第一。

自变量为:

•影片部分

genre  影片类别:分类变量,共有15个类型。为了获得大量的观众群体,大多数影片都兼具许多种影片类型,因此我们仅选取了该片最主要的类型。15个类型分别是:喜剧,魔幻,动作,爱情,灾难,历史剧情,励志,主旋律,警匪,悬疑,动画,儿童,惊悚,家庭伦理。

Year 上映年份:2010-2013四年

month 上映月份:1-12

week 上映周数:1-53,从当年1月1号起记为第一周

distribute 电影分级:C/G/L/S

runtime 时常:分钟。过长或过短的电影都会对票房产生影响,找到合理的时长,从而能够有效的控制电影的剪辑。

Story 作品是否改编 :该指标是电影产品的核心元素,在内容为王的当下,好的剧本往往能够吸引受众,对于国产影片,观众更看重的是好的故事,他们往往对国产影片的技术并不抱太大希望。因此,该指标主要包括两个水平,一是畅销小说改编成剧本1,另一个则是非改编剧本也就是原创剧本0。(N=改编,S=原创

reality 作品是否真人真事:1=真实,0=虚构

remake  作品是否翻拍:1=翻拍,0=非翻拍

sequel  作品是否续集:好莱坞的一大宗旨是誓将续集进行到底,真可谓天长地久有时尽,大片续集无绝期!因为第一,好拍;第二,票房好。那么,在中国市场,这招是否仍然管用?

•导演演员部分

导演姓名

导演年代

第几部作品:该片是该导演的第几部作品。冠军《人在囧途之泰囧》是导演徐峥的处女作,拿到了12亿的票房,而喜剧《财神客栈》已经是导演王晶的第110部影片。老导演or新导演,哪一种更吸引人?是久炼成钢,姜越老越辣?还是廉颇老矣,洗洗回家睡吧?

导演得奖情况:1=得奖,0=没得奖

导演是否转型:导演是一门确实能够自学成才的工种,就像久病成医,演的多了,拍的多了,自然也能成为优秀的导演。在中国电影市场中,演员转型当导演的赵薇、徐峥;作家转型的郭敬明、韩寒,我们希望看到已经在自己的领域取得成就的这些名人,随着工种的转变是否会对票房有影响。

Baidu index 主演的百度指数:影片的主演在分析中是一个字符变量,为了更好的使用这一指标,同时优化工作效率,我们决定在相同的时间段,选择所有演员百度指数的平均值作为衡量主演的标准。因为大多数电影不会仅有一个主演,所以我们选取了两个主演。百度指数越高,代表该演员知名度越高。


查看数据  该数据集有以下一些变量:


image.png

image.png

从上表可以看到不同变量的缺失数据均值中值最大最小值等情况和分布情况。

image.png

image.png

点击标题查阅往期内容


R语言中的多项式回归、局部回归、核平滑和平滑样条回归模型


01

02

03

04


模型建立


主要思路 为了准确的估计票房,了解电影票房的一般规律,更好为电影投资方提供参考意见,本文从电影票房和电影相关属性出发,采用多元回归分析方法,建立了线性回归模型,得出了电影票房变动的影响因素. 具体分析步骤

1.描述性统计,初步查看每个变量的均数中值等数据.

2.选择多项式回归模型

2.1变量选取 通过回归模型筛选出显著性较强的变量进行回归建模。

2.2显著性检验 根据F值和p值统计量来判断模型是否具有显著的统计意义。

2.3拟合预测 使用得到的模型对实际数据进行拟合和预测。

3.拟合不同的模型。查看模型效果。

4.分析得出结论 得出各个自变量之间的关系,以及它们对因变量的影响及其意义。  


转换数据,拟合多元线性模型


将所有数据转化成数值类型

image.png

建立多元线性:票房


尝试通过最直观的解释建立模型

image.png

进行多元线性模型并进行分析


从全变量模型可以看出大部分变量无法估计出其参数,说明部分变量不适合用来预测票房,因此对其中的部分变量进行删减后。得到筛选后的回归模型。

  • 筛选变量
  • 显示回归结果

image.png

image.png

回归结果分析


从输出结果的变量sig值可以看出,导演的情况和是否有续集以及电影的时长对电影的票房有巨大的影响。从变量的coefficient回归系数来看,导演的情况和是否有续集有正向关关系。


回归结果


残差分析可以对回归模型的假设条件即随机误差项是否独立同分布进行检验,同时还可以找出离群点。显示结果如下:

image.png

image.png

左图是残差直方图,从图上可以发现, 所有点基本上是随机地分散在0周围,密度曲线近似为正态分布。


点击标题查阅往期内容


数据分享|R语言逐步回归、方差分析anova电影市场调查问卷数据可视化


01

02

03

04


进行多元线性模型并进行分析——放映场数


image.png

image.png

回归结果分析


从输出结果的变量sig值可以看出,和票房的回归结果类似。导演的情况和是否有续集以及电影的时长对电影的演出场数有巨大的影响。


回归结果


残差分析可以对回归模型的假设条件即随机误差项是否独立同分布进行检验,同时还可以找出离群点。显示结果如下:

image.png

image.png

左图是残差直方图,从图上可以发现, 所有点基本上是随机地分散在0周围,密度曲线近似为正态分布。


进行多元线性模型并进行分析——观影人数


image.png

image.png

回归结果分析


从输出结果的变量sig值可以看出,和票房的回归结果类似。导演的情况和是否有续集以及电影的时长对电影的演出场数有巨大的影响。


回归结果


残差分析可以对回归模型的假设条件即随机误差项是否独立同分布进行检验,同时还可以找出离群点。显示结果如下:

image.png

image.png

左图是残差直方图,从图上可以发现, 所有点基本上是随机地分散在0周围,密度曲线近似为正态分布。

最后我们得到了文件结果:

image.png

image.png

代码:

GET DATA   /TYPE=TXT   /FILE='E:\电影票房\电影票房数据.csv'   /DELCASE=LINE   /DELIMITERS=" ,"   /ARRANGEMENT=DELIMITED   /FIRS
相关文章
|
8月前
|
机器学习/深度学习 数据可视化 Python
机器学习之利用线性回归预测波士顿房价和可视化分析影响房价因素实战(python实现 附源码 超详细)
机器学习之利用线性回归预测波士顿房价和可视化分析影响房价因素实战(python实现 附源码 超详细)
554 0
|
8月前
|
机器学习/深度学习 图计算
R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据(2)
R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据(2)
|
8月前
|
机器学习/深度学习 数据可视化 安全
Python随机森林、线性回归对COVID-19疫情、汇率数据预测死亡率、病例数、失业率影响可视化(下)
Python随机森林、线性回归对COVID-19疫情、汇率数据预测死亡率、病例数、失业率影响可视化
|
8月前
|
机器学习/深度学习 数据可视化 Python
Python随机森林、线性回归对COVID-19疫情、汇率数据预测死亡率、病例数、失业率影响可视化(上)
Python随机森林、线性回归对COVID-19疫情、汇率数据预测死亡率、病例数、失业率影响可视化
|
8月前
|
机器学习/深度学习 数据采集 数据可视化
R语言回归、anova方差分析、相关性分析 《精品购物指南》调研数据可视化
R语言回归、anova方差分析、相关性分析 《精品购物指南》调研数据可视化
R语言回归、anova方差分析、相关性分析 《精品购物指南》调研数据可视化
|
8月前
|
机器学习/深度学习 数据采集 数据可视化
R语言SVM、决策树与因子分析对城市空气质量分类与影响因素可视化研究
R语言SVM、决策树与因子分析对城市空气质量分类与影响因素可视化研究
|
8月前
|
机器学习/深度学习 数据可视化 算法
数据分享|R语言SVM支持向量机用大学生行为数据对助学金精准资助预测ROC可视化
数据分享|R语言SVM支持向量机用大学生行为数据对助学金精准资助预测ROC可视化
|
8月前
|
机器学习/深度学习
R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据(1)
R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据
|
8月前
|
机器学习/深度学习 算法
【视频】R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险|数据分享
【视频】R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险|数据分享
|
8月前
|
数据可视化
SPSS用多元逐步回归模型对上证指数预测、描述统计和相关分析可视化研究
SPSS用多元逐步回归模型对上证指数预测、描述统计和相关分析可视化研究