数据分享|R语言逐步回归模型对电影票房、放映场数、观影人数预测可视化1:https://developer.aliyun.com/article/1500453
拟合效果图形展示
以 原始数据作为x轴,回归拟合值为轴作图,在xy面上的点用直线连接见图。
原始图和拟合值的关系散点图
由于大部分黑色的实际数据点被红色的预测点覆盖,因此,模型具有较好的预测效果。
进行多元线性模型并进行分析——放映场数
回归结果分析
从输出结果的变量sig值可以看出,和票房的回归结果类似。导演的情况和是否有续集以及电影的时长对电影的演出场数有巨大的影响。从变量的coefficient回归系数来看,导演的情况和是否有续集有正相关关系。可以看到电影的票房和上映国家也有显著的关系,在美国上映的电影票房较高,可以看到他们的回归系p数在显著性水平0.05下均显著不为零。
回归结果
残差分析可以对回归模型的假设条件即随机误差项是否独立同分布进行检验,同时还可以找出离群点。显示结果如下:
由于模型中部分系数是不显著,因此需要对模型进行改进,本文采用逐步回归模型建模。
逐步回归模型建模
使用逐步回归之后对模型进行残差检验。下图是残差直方图,从图上可以发现, 所有点基本上是随机地分散在0周围,密度曲线近似为正态分布。右边是正态pp图,其意义与左边类似;表明随机误差项是服从正态分布的,其原因是正态qq图近似地可以看成一条直线;.
左图是残差直方图,从图上可以发现, 所有点基本上是随机地分散在0周围,密度曲线近似为正态分布。右边是正态pp图,其意义与左边类似;表明随机误差项是服从正态分布的,其原因是正态qq图近似地可以看成一条直线;
拟合效果图形展示
以 原始数据作为x轴,回归拟合值为轴作图,在xy面上的点用直线连接见图。
原始图和拟合值的关系散点图
由于大部分黑色的实际数据点被红色的预测点覆盖,因此,模型具有较好的预测效果。
进行多元线性模型并进行分析——观影人数
回归结果分析
从输出结果的变量sig值可以看出,和票房的回归结果类似。导演的情况和是否有续集以及电影的时长对电影的演出场数有巨大的影响。从变量的coefficient回归系数来看,导演的情况和是否有续集有正相关关系。可以看到电影的票房和上映国家也有显著的关系,在美国上映的电影票房较高,可以看到他们的回归系p数在显著性水平0.05下均显著不为零。
回归结果
残差分析可以对回归模型的假设条件即随机误差项是否独立同分布进行检验,同时还可以找出离群点。显示结果如下:
由于模型中部分系数是不显著,因此需要对模型进行改进,本文采用逐步回归模型建模。
使用逐步回归之后的模型进行残差检验。下图是残差直方图,从图上可以发现, 所有点基本上是随机地分散在0周围,密度曲线近似为正态分布。右边是正态pp图,其意义与左边类似;表明随机误差项是服从正态分布的,其原因是正态qq图近似地可以看成一条直线;.
左图是残差直方图,从图上可以发现, 所有点基本上是随机地分散在0周围,密度曲线近似为正态分布。右边是正态pp图,其意义与左边类似;表明随机误差项是服从正态分布的,其原因是正态qq图近似地可以看成一条直线;
拟合效果图形展示
以原始数据作为x轴,回归拟合值为轴作图,在xy面上的点用直线连接见图。
原始图和拟合值的关系散点图
由于大部分黑色的实际数据点被红色的预测点覆盖,因此,模型具有较好的预测效果。
结论
通过以上分析可以明显发现,面对良莠不齐的影片,通过集体智慧去粗取精,导演的情况和是否有续集以及电影的时长对电影的演出场数有巨大的影响,是一种帮助建立品位的电影体并作为生产者参考标准之一,他们直接影响电影公司对于导演、演员的选取