回归方程优良性评价(原理+实践+代码)

简介: 回归方程优良性评价(原理+实践+代码)

1 目的

  利用普通最小二乘法构建某乐队 CD 盘销售量及其影响变量的回归模型,发 在存在序列相关,故分别采取迭代法及一阶差分法处理数据,进行模型优化,最终结合自相 关影响、回归误差及方法的简便性方面考虑。

2 数据背景

  某乐队经理研究其乐队 CD 盘的销售额(y yy)。两个有关的影响变量是每 周演出场次x 1 x_1x1和乐队网站的周点击率 x 2 x_2x2

3 建模分析

3.1 理论模型

  设回归方程为:

image.png

3.2 普通最小二乘回归

  运行程序:

1. data<-read.csv("G:\\某乐队 CD 盘销售情况.csv") #数据读取 
2. names(data) <- c("周次","y","x1","x2") #列命名 
3. fm=lm(y~x1+x2,data=data) #最小二乘回归 
4. summary(fm) #结果

  运行结果:

Call: 
lm(formula = data$y ~ data$x1 + data$x2, data = data) 
 
Residuals: 
 Min 1Q Median 3Q Max 
-747.71 -229.80 -2.14 267.23 547.68 
 
Coefficients: 
 Estimate Std. Error t value Pr(>|t|) 
(Intercept) -574.0550 349.2701 -1.644 0.1067 
x1 191.1001 73.3090 2.607 0.0121 * 
x2 2.0451 0.9107 2.246 0.0293 * 
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
 
Residual standard error: 329.7 on 49 degrees of freedom 
Multiple R-squared: 0.2928, Adjusted R-squared: 0.264 
F-statistic: 10.15 on 2 and 49 DF, p-value: 0.0002057

  结果见表1所示。

表1 最小二乘回归模型显著性检验表

  由运行结果可以知道,此时的回归方程为:

image.png

3.2 残差图检验序列相关性

  运行程序:

1. par(mfrow = c(1,3)) #1×3 画布 
2. plot(fm,which = 1) 
3. x<-fm$residuals[1:51] 
4. y<-fm$residuals[2:52] 
5. plot(x,y,xlab = "e(t-1)",ylab ="e(t)") #残差图,横坐标为 e(t-1),纵坐标为 e(t) 
6. lines(lowess(x,y),col="red",lwd="2") #添加拟合曲线 
7. abline(h = 0, v = 0, col = "gray60") #添加坐标轴 
8. plot(data$周次,fm$residuals,type='b',xlab = "时间",ylab ="e(t)") 
9. #残差图,横坐标为序号,纵坐标为 e(t) 
10. abline(h = 0, v = 0, col = "gray60") #添加坐标轴

  运行结果:

图1 残差图

  图 1 中残差图纵坐标选取残差值,横坐标分别选取y yy 拟合值、et1 ,周次 序列,由残差图可以看出拟合值残差项存在偏移现象;(et1,et) 散点图大部分点落 在第Ⅰ、Ⅲ象限;按照时间序列绘制的回归残差项{t}et 随着时间的变化逐次变化且几 个正的{t}et跟着几个负的,综上,随机扰动项 {t}ϵt之间存在序列正相关。

3.3 DW 诊断检验序列自相关

  运行程序:

1. library(zoo) #加载包 
2. library(lmtest) #加载包 
3. dwtest(fm,alternative = "two.sided") #DW 检验

  运行结果:

Durbin-Watson test 
 
data: fm 
DW = 0.74524, p-value = 3.514e-07 
alternative hypothesis: true autocorrelation is not 0

image.png

image.png

  程序运行:

1. x1t<-data$x1[2:52] 
2. x1t.<-data$x1[1:51] 
3. x2t<-data$x2[2:52] 
4. x2t.<-data$x2[1:51] 
5. yt<-data$y[2:52] 
6. yt.<-data$y[1:51] 
7. x1t..<-x1t-p*x1t. 
8. x2t..<-x2t-p*x2t. 
9. yt..<-yt-p*yt. 
10. new<-data.frame(cbind(yt..,x1t..,x2t..)) 
11. lm.new<-lm(yt..~x1t..+x2t..,data=new) 
12. summary(lm.nxw) 
13. dwtest(lm.new,alternative = "two.sided") #DW 检验 
14. newe<-resid(lm.new) #存储残差

  运行结果:

Call: 
lm(formula = yt.. ~ x1t.. + x2t.., data = new) 
 
Residuals: 
 Min 1Q Median 3Q Max 
-496.06 -228.25 40.02 180.34 574.87 
 
Coefficients: 
 Estimate Std. Error t value Pr(>|t|) 
(Intercept) -178.8370 90.3656 -1.979 0.0536 . 
x1t.. 211.1114 47.7492 4.421 5.6e-05 *** 
x2t.. 1.4365 0.6287 2.285 0.0268 * --- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
 
Residual standard error: 257.9 on 48 degrees of freedom 
Multiple R-squared: 0.4731, Adjusted R-squared: 0.4511 
F-statistic: 21.55 on 2 and 48 DF, p-value: 2.098e-07 
 
> dwtest(lm.new,alternative = "two.sided") #DW 检验 
 
 Durbin-Watson test 
 
data: lm.new 
DW = 1.7162, p-value = 0.3612 
alternative hypothesis: true autocorrelation is not 0

  迭代法检验结果见表2所示。

表2 迭代法显著性检验表

  此时回归方程为:

image.png

  还原为原始变量方程为:

image.png

3.5一阶差分处理序列相关性

image.png

  运行程序:

1. x1c<-x1t-x1t. 
2. x2c<-x2t-x2t. 
3. yc<-yt-yt. 
4. new1<-data.frame(cbind(yc,x1c,x2c)) 
5. lm.new1<-lm(yc~x1c+x2c-1,data=new1) 
6. summary(lm.new1) 
7. dwtest(lm.new1,alternative = "two.sided") #DW 检验 
8. newe1<-resid(lm.new1) #存储残差

  运行结果:

Call: 
lm(formula = yc ~ x1c + x2c - 1, data = new1) 
 
Residuals: 
 Min 1Q Median 3Q Max 
-538.97 -201.04 -16.02 200.08 624.32 
 
Coefficients: 
 Estimate Std. Error t value Pr(>|t|) 
x1c 210.1193 43.6913 4.809 1.48e-05 *** 
x2c 1.3966 0.5769 2.421 0.0192 * --- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
 
Residual standard error: 281 on 49 degrees of freedom 
Multiple R-squared: 0.5106, Adjusted R-squared: 0.4907 
F-statistic: 25.57 on 2 and 49 DF, p-value: 2.489e-08 
 
> dwtest(lm.new1,alternative = "two.sided") #DW 检验 
 
 Durbin-Watson test 
 
data: lm.new1 
DW = 2.0404, p-value = 0.6845 
alternative hypothesis: true autocorrelation is not 0

  一阶差分法显著性检验结果见表3所示。

表3 一阶差分法显著性检验表

image.png

3.6 回归方程优良性比较

  通过以上实验结果表明,原始数据直接进行普通最小二乘法拟合回归方程, 数据存在自相关性。经过迭代法和一阶差分法均能消除自相关性,接下来对两种 方法所建的回归方程进行优良性比较,见表4。

表4 回归方程优良性对比表

  由表 4 可以看出,两种方法得到的 DW 值均在(1.63,2.37)之间,即均消除 了自相关影响,其中差分法得出的 DW=0.0404 最大,及差分法对自相关的影响消 除得最彻底,但 σ ^ \hat \sigmaσ^ 相对来说也更大,即拟合效果并不好,综合自相关影响、回归误 差及方法的简便性考虑,针对此问题,迭代法相对差分法的效果更好。

相关文章
|
9月前
如何用公式化思维?几个经典公式收集
如何用公式化思维?几个经典公式收集
|
9月前
|
机器学习/深度学习 算法
大模型开发:解释随机森林算法以及它是如何做出决策的。
随机森林是集成学习方法,利用多棵决策树提升性能。通过随机抽样和特征选择创建弱分类器,减少模型相关性。每个决策树基于子数据集和特征子集构建,预测时集成所有决策树结果,分类问题采用投票,回归问题取平均值。这种方法降低过拟合风险,提高准确性和稳定性,对噪声和异常值容忍度高,广泛应用。
119 0
|
1月前
|
数据挖掘
五种被低估的非常规统计检验方法:数学原理剖析与多领域应用价值研究
本文将详细介绍五种具有重要应用价值的统计检验方法,并探讨它们在免疫学(TCR/BCR库分析)、金融数据分析和运动科学等领域的具体应用。
62 11
|
3月前
|
数据采集 监控 并行计算
基于MCMC的贝叶斯营销组合模型评估方法论: 系统化诊断、校准及选择的理论框架
贝叶斯营销组合建模(Bayesian Marketing Mix Modeling,MMM)作为一种先进的营销效果评估方法,其核心在于通过贝叶斯框架对营销投资的影响进行量化分析。
88 3
基于MCMC的贝叶斯营销组合模型评估方法论: 系统化诊断、校准及选择的理论框架
|
6月前
|
数据挖掘 Python
【Python数据分析】假设检验的基本思想、原理和步骤
文章详细介绍了假设检验的基本思想、原理、可能犯的错误类型、基本步骤以及在不同总体情况下的检验方法,阐述了如何在Python中应用假设检验,并通过P值来判断假设的可靠性。
119 1
|
8月前
|
机器学习/深度学习 数据采集 数据可视化
基于聚类和回归分析方法探究蓝莓产量影响因素与预测模型研究附录
k均值聚类模型多元线性回归模型随机森林模型在数据分析项目中,选择合适的模型是至关重要的。本项目中,我们采用了三种不同的模型来分析蓝莓的生长条件和产量,以确保从不同角度全面理解数据。一、K均值聚类模型K均值聚类模型是一种无监督学习方法,用于根据数据的相似性将样本分成不同的组。在这个项目中,我们使用K均值聚类模型来识别具有相似特征的蓝莓品种。通过聚类分析,我们将蓝莓分为4个类别,每个类别代表了不同的生长条件和产量特性。这种分类有助于我们理解在不同环境条件下,哪些因素对蓝莓产量有显著影响。
140 0
基于聚类和回归分析方法探究蓝莓产量影响因素与预测模型研究附录
|
9月前
|
机器学习/深度学习 存储 供应链
【软件设计师备考 专题 】运算基本方法:预测与决策、线性规划、网络图、模拟
【软件设计师备考 专题 】运算基本方法:预测与决策、线性规划、网络图、模拟
132 0
|
算法
评价模型:TOPSIS法(理想解法)
评价模型:TOPSIS法(理想解法)
1100 0
评价模型:TOPSIS法(理想解法)
|
机器学习/深度学习 算法 知识图谱
浙大团队将化学知识引入机器学习,提出可外推、可解释的分子图模型预测反应性能
浙大团队将化学知识引入机器学习,提出可外推、可解释的分子图模型预测反应性能
253 0
|
机器学习/深度学习 人工智能 算法
强化学习从基础到进阶-常见问题和面试必知必答[2]:马尔科夫决策、贝尔曼方程、动态规划、策略价值迭代
强化学习从基础到进阶-常见问题和面试必知必答[2]:马尔科夫决策、贝尔曼方程、动态规划、策略价值迭代