R语言用于线性回归的稳健方差估计

简介: R语言用于线性回归的稳健方差估计

在这篇文章中,我们将看看如何在实践中使用R  。为了说明,我们首先从线性回归模型中模拟一些简单数据,其中残差方差随着协变量的增加而急剧增加:

n < -  100
x < -  rnorm(n)
residual_sd < -  exp(x)
y < -  2 * x + residual_sd * rnorm(n)

该代码从给定X的线性回归模型生成Y,具有真正的截距0和真实斜率2.然而,残差标准差已经生成为exp(x),使得残差方差随着X的增加而增加。可以直观地看到这个效果:

这使


模拟Y对X数据的图,其中残差方差随着X的增加而增加

在这个简单的情况下,视觉上清楚的是,对于较大的X值,残差方差要大得多,因此违反了“基于模型”的标准误差所需的关键假设之一。无论如何,如果我们像往常一样拟合线性回归模型,让我们看看结果是什么:



            估计标准 误差t值Pr(> | t |)
-0.08757 0.36229 -0.242 0.809508
x 1.18069 0.31071 3.800 0.000251 ***
---
Si0'***'0.001'**'0.01'*'0.05'。' 0.1 '' 1

残余标准误差:3.605 98自由度
多R方:0.1284,调整R方:0.1195
 

这表明我们有强有力的证据反对Y和X独立的零假设。为了便于比较,我们注意到X效果的标准误差是0.311。

接下来,我 然后将先前安装的lm对象传递给包中的函数,该函数计算 方差估计值:

> vcovHC(mod,type =“HC”)
0.08824454 0.1465642
x 0.14656421 0.3414185

得到的矩阵是两个模型参数的估计方差协方差矩阵。因此,对角线元素是估计的方差(平方标准误差)。因此,我们可以通过采用这些对角元素和平方根来计算夹心标准误差:


> sandwich_se
(Intercept)x
  0.2970598 0.5843103

因此,X系数的 标准误差为0.584。这与先前基于模型的标准误差0.311形成对比。因为此处残差方差不是恒定的,所以基于模型的标准误差低估了估计的可变性,并且夹心标准误差对此进行了校正。让我们看看它对置信区间和p值有何影响。为此,我们使用估计量渐近(在大样本中)正态分布的结果。首先,要获得置信区间限制,我们可以使用:


> coef(mod)-1.96 * sandwich_se
x -0.66980780 0.03544496
> coef(mod)+ 1.96 * sandwich_se
x 0.4946667 2.3259412


因此,X系数的95%置信区间限制为(0.035,2.326)。为了找到p值,我们可以首先计算z-统计量(系数除以它们相应的标准误差),并将平方z-统计量与一个自由度上的卡方分布进行比较:



 > p_values < -  pchisq(z_stat ^ 2,1,lower.tail = FALSE)
> p_values
x 0.76815365 0.04331485


我们现在有一个p值表示Y对X的依赖性为0.043,而早期从lm为0.00025得到的p值。

相关文章
|
6天前
|
算法 数据挖掘
R语言中的非线性回归模型
【4月更文挑战第27天】本文探讨了R语言中非线性回归模型的构建与应用,适用于处理非线性变量关系。模型设定涉及响应变量与解释变量的非线性函数连接,如幂函数、指数函数。参数估计通过最小化残差平方和实现,R提供`nls()`等函数支持。非线性回归广泛应用于生物学、经济学和工程学等领域,解决复杂系统中的非线性问题。实践中需注意初始参数选择、局部最优解及模型诊断验证。有效运用非线性回归模型能揭示数据模式,助力数据分析和决策。
|
6天前
|
资源调度 前端开发 数据可视化
R语言参数自抽样法Bootstrap:估计MSE、经验功效、杰克刀Jackknife、非参数自抽样法可视化自测题
R语言参数自抽样法Bootstrap:估计MSE、经验功效、杰克刀Jackknife、非参数自抽样法可视化自测题
|
6天前
|
机器学习/深度学习 数据可视化 Python
R语言使用逻辑回归Logistic、单因素方差分析anova、异常点分析和可视化分类iris鸢尾花数据集|数据分享
R语言使用逻辑回归Logistic、单因素方差分析anova、异常点分析和可视化分类iris鸢尾花数据集|数据分享
|
6天前
|
算法
R语言和STAN,JAGS:用RSTAN,RJAG建立贝叶斯多元线性回归预测选举数据
R语言和STAN,JAGS:用RSTAN,RJAG建立贝叶斯多元线性回归预测选举数据
|
6天前
|
机器学习/深度学习 数据可视化
R语言非线性回归和广义线性模型:泊松、伽马、逻辑回归、Beta回归分析机动车事故、小鼠感染、蛤蜊数据、补剂钠摄入数据|数据分享(下)
R语言非线性回归和广义线性模型:泊松、伽马、逻辑回归、Beta回归分析机动车事故、小鼠感染、蛤蜊数据、补剂钠摄入数据|数据分享
|
6天前
|
机器学习/深度学习
R语言非线性回归和广义线性模型:泊松、伽马、逻辑回归、Beta回归分析机动车事故、小鼠感染、蛤蜊数据、补剂钠摄入数据|数据分享(上)
R语言非线性回归和广义线性模型:泊松、伽马、逻辑回归、Beta回归分析机动车事故、小鼠感染、蛤蜊数据、补剂钠摄入数据|数据分享
|
6天前
|
机器学习/深度学习 数据可视化 数据挖掘
R语言用逻辑回归预测BRFSS中风数据、方差分析anova、ROC曲线AUC、可视化探索
R语言用逻辑回归预测BRFSS中风数据、方差分析anova、ROC曲线AUC、可视化探索
|
6天前
|
传感器 数据可视化 定位技术
【视频】R语言用线性回归预测共享单车的需求和可视化|数据分享
【视频】R语言用线性回归预测共享单车的需求和可视化|数据分享
【视频】R语言用线性回归预测共享单车的需求和可视化|数据分享
|
6天前
|
数据可视化
R语言马科维茨Markowitz均值-方差(风险投资模型)分析最优投资组合数据预期收益率可视化(下)
R语言马科维茨Markowitz均值-方差(风险投资模型)分析最优投资组合数据预期收益率可视化(下)
|
6天前
|
存储 数据可视化 数据挖掘
R语言马科维茨Markowitz均值-方差(风险投资模型)分析最优投资组合数据预期收益率可视化(上)
R语言马科维茨Markowitz均值-方差(风险投资模型)分析最优投资组合数据预期收益率可视化

热门文章

最新文章