【视频】广义相加模型(GAM)在电力负荷预测中的应用(三)https://developer.aliyun.com/article/1485896
让我们绘制拟合值:
这似乎比gam_3
模型好得多。
## \[1\] 0.965618 summary(gam\_4\_fx)$s.table ## edf Ref.df F p-value ## te(Daily,Weekly) 335 335 57.25389 5.289648e-199 我们可以看到R平方比模型gam_4低,这是因为我们过度拟合了模型。证明lambda和EDF的估计工作正常。 因此,让我们在案例(模型)中尝试ti方法。 ## \[1\] 0.9717469 summary(gam_5)$sp.criterion ## GCV.Cp ## 35772.35 summary(gam_5)$s.table ## edf Ref.df F p-value ## s(Daily) 22.583649 27.964970 444.19962 0 ## s(Weekly) 5.914531 5.995934 1014.72482 0 ## ti(Daily,Weekly) 85.310314 110.828814 41.22288 0 然后使用t2。 ## \[1\] 0.9738273 summary(gam_6)$sp.criterion ## GCV.Cp ## 32230.68 summary(gam_6)$s.table ## edf Ref.df F p-value ## t2(Daily,Weekly) 98.12005 120.2345 86.70754 0 我还输出了最后三个模型的GCV得分值,这也是在一组拟合模型中选择最佳模型的良好标准。我们可以看到,对于t2相应模型gam_6,GCV值最低。 在统计中广泛使用的其他模型选择标准是AIC(Akaike信息准则)。让我们看看三个模型: AIC(gam\_4, gam\_5, gam_6) ## df AIC ## gam_4 121.4117 8912.611 ## gam_5 115.8085 8932.746 ## gam_6 100.1200 8868.628
最低值在gam_6
模型中。让我们再次查看拟合值。
我们可以看到的模型的拟合值gam_4
和gam_6
非常相似。可以使用软件包的更多可视化和模型诊断功能来比较这两个模型。
第一个是function gam.check
,它绘制了四个图:残差的QQ图,线性预测变量与残差,残差的直方图以及拟合值与因变量的关系图。让我们诊断模型gam_4
和gam_6
。
gam.check(gam_4)
## ## Method: GCV Optimizer: magic ## Smoothing parameter selection converged after 7 iterations. ## The RMS GCV score gradiant at convergence was 0.2833304 . ## The Hessian was positive definite. ## The estimated model rank was 336 (maximum possible: 336) ## Model rank = 336 / 336 ## ## Basis dimension (k) checking results. Low p-value (k-index<1) may ## indicate that k is too low, especially if edf is close to k'. ## ## k' edf k-index p-value ## te(Daily,Weekly) 335.00 119.41 1.22 1 gam.check(gam_6)
## ## Method: GCV Optimizer: magic ## Smoothing parameter selection converged after 9 iterations. ## The RMS GCV score gradiant at convergence was 0.05208856 . ## The Hessian was positive definite. ## The estimated model rank was 336 (maximum possible: 336) ## Model rank = 336 / 336 ## ## Basis dimension (k) checking results. Low p-value (k-index<1) may ## indicate that k is too low, especially if edf is close to k'. ## ## k' edf k-index p-value ## t2(Daily,Weekly) 335.00 98.12 1.18 1 我们可以再次看到模型非常相似,只是在直方图中可以看到一些差异。 layout(matrix(1:2, nrow = 1)) plot(gam_4, rug = FALSE, se = FALSE, n2 = 80, main = "gam n.4 with te()") plot(gam_6, rug = FALSE, se = FALSE, n2 = 80, main = "gam n.6 with t2()")
该模型gam_6
有更多的“波浪形”的轮廓。因此,这意味着它对因变量的拟合度更高,而平滑因子更低。
vis.gam(gam_6, n.grid = 50, theta = 35, phi = 32, zlab = "", ticktype = "detailed", color = "topo", main = "t2(D, W)")
我们可以看到最高峰值是Daily变量的值接近30(下午3点),而Weekly变量的值是1(星期一)。
vis.gam(gam_6, main = "t2(D, W)", plot.type = "contour", color = "terrain", contour.col = "black", lwd = 2)
再次可以看到,电力负荷的最高值是星期一的下午3:00,直到星期四都非常相似,然后负荷在周末减少。