工具变量法(两阶段最小二乘法2SLS)线性模型分析人均食品消费时间序列数据和回归诊断1:https://developer.aliyun.com/article/1485240
影响图中的圆圈面积与Cook's D成正比,水平线画在学生化残差标度的0和±2处(rstudent=2处的水平线不在图中),垂直线在2×h¯和3×h¯处。
为了产生一个更有趣的例子,我们将把高杠杆的第20种情况(即1941年)的QQ值从Q20=106.232改为Q20=95,这个值完全在数据中QQ的范围内,但与其他数据不一致。
然后重复对第一个结构方程的2SLS拟合,并将结果与未被破坏的数据进行比较,发现回归系数有很大变化。
compareCoefs(deq, deq1)
有问题的第20个案例(1941年)通过异常数据回归诊断法清楚地显示出来。
qqPlot(deq1)
outlier
influence Plot
avPlots(deq1)
去掉第20种情况,产生的估计系数接近于未被破坏的数据的系数。
compareCoefs(deq, deq1, deq1.20)
估计系数的标准误差比原来大,因为我们现在有19个而不是20个案例,也因为解释变量的变化减少了。
发现hatvaues的三种定义是否对这个例子产生了实际的影响,是有一定的意义的。三种hatvalues的散点图矩阵表明,它们都产生了类似的结果。
最后,让我们验证一下删除诊断的计算结果是否正确。
非线性诊断法
Cook(1993)和Cook and Croos-Dabrera(1998)系统地探讨了成分、残差图作为非线性诊断的理论属性。按照这些作者的说法,并把重点放在解释变量x1上,让我们假设响应y与x1的部分关系可能是非线性的,由部分回归函数f(x1)表示,而y与其他xxs的部分关系是线性的,因此,数据的准确模型是。
我们不知道f(),所以改用工作模型来拟合
在我们的例子中,通过2SLS回归,得到估计的回归系数a′,b′1,b′2,...,b′k。Cook和Croos-Dabrera的工作表明,只要回归估计是一致的,XXS是线性相关的。部分残差b′1x1+e可以被绘制出来,并对x1x1进行平滑处理,以显示f()的估计。其中e=y-(a′+b′1x1+b′2x2+⋯b′kxk)是因变量残差。在实践中,如果x1和其他xxs之间有很强的非线性关系,或者y与另一个与x1相关的x有非线性关系,那么分量加残差图就会被分解为f()的准确表示。
Fox和Weisberg(2018)将成分加残差图扩展到更复杂的回归模型,例如可以包括交互作用,将偏残差添加到预测变量效应图中。这些图也可以应用于由2SLS回归拟合的线性模型。
诊断非线性:一个例子
我们再一次转向Kmenta的数据和模型的需求方程来说明成分残差图,数据再一次表现良好。为一个加法回归方程中的所有数字解释变量构建了分量残差图。比如说。
crPlots(deq, smooth=list(span=1))
我们在图中为局部加权回归loess 平滑(Cleveland, Grosse, and Shyu 1992)设置了一个较大的跨度,因为在数据集中只有n=20个案例。跨度的默认值是2/3。在每个面板中,红线给出的loess 平滑度与蓝线给出的最小二乘线紧密匹配,蓝线代表的是解释变量方向的拟合回归面,左边是P,右边是D。因此,两种偏关系似乎都是线性的。
CERES图(Cook 1993),是成分加残差图的一个版本,它使用平滑器而不是线性回归,因此对预测因子之间的非线性关系更加稳定。
ceresPlots(deq, smooth=list(span=1))
在当前的例子中,这是一个加性模型,我们得到的图形与之前的基本相同,只是y轴的缩放比例不同。
plot(predictorEffects)
预测效应图中的蓝色阴影区域代表拟合的部分回归线周围95%的置信度包络。
然而,假设我们对数据拟合了错误的模型。
deq2 <- update(deq, . ~ I((P - 85)^4/10^5) + D) crPlots(deq2, smooth=list(span=1))
因为max(P)/min(P)=113.49/86.50=1.3的比率不比1大多少,所以我们在把变量提高到4次方之前,从P中减去一个比min(P)略小的数字,以引起拟合部分回归曲线中的非线性。变换后的P的成分加残差图清楚地反映了由此产生的缺乏拟合,而D的图仍然是合理的线性。
带有部分残差的预测器效应图显示了对同一情况的不同看法,它将P而不是转换后的P放在横轴上,并揭示了拟合的非线性部分回归函数未能捕获数据的线性模式。
plot(predictorEffects(deq2, residuals=TRUE), partial.residuals=list(span=1))