R语言调整随机对照试验中的基线协变量

简介: R语言调整随机对照试验中的基线协变量

随机对照试验构成通常被认为是用于评估某些干预或感兴趣治疗效果的金标准设计。参与者被随机分配到两个(有时更多)的群体这一事实确保了,至少在期望中,两个治疗组在测量的,重要的是可能影响结果的未测量因素方面是平衡的。因此,两组之间结果的差异可归因于随机化治疗而不是对照(通常是另一种治疗)的效果。


如果随机化没有受到影响,即使不调整任何基线协变量,试验的治疗效果估计也是无偏的。即使在各组之间的某些基线变量出现不平衡的情况下也是如此。这是因为偏差被定义为估计量(由我们的统计程序给出,如线性回归)是否在重复样本中具有等于目标参数的期望。有时估计值会高于真实值,有时低于真实值,但只要平均值等于目标值,我们就会说估算值是无偏见的。


协变量调整


现在让我们考虑调整一个或多个基线协变量,在我们的分析中随机化时。这通常通过拟合结果的回归模型来完成,随机组和基线变量作为协变量。

我们可以使用R来说明这一点。我们将模拟n = 50个受试者的小型研究的数据,随机化50%治疗= 0和50%治疗= 1。然后,我们将根据基线协变量X和治疗指标生成结果Y:

n < -  50
set.seed(31255)
x < -  rnorm(n)
treat< -  1 *(runif(n)<0.5)
y < -  x +treat+ rnorm(n)

在这里,第1组与第0组的真正治疗效果是1.如果我们执行未经调整的分析 ,我们获得:

> summary(lm(y~treat))

Call:
lm(formula = y ~ treat)

Residuals:
    Min      1Q  Median      3Q     Max 
-4.8977 -0.9312  0.0990  1.3050  2.7046 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  -0.5556     0.3268  -1.700 0.095571 .  
treat         1.8113     0.4447   4.073 0.000173 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.567 on 48 degrees of freedom
Multiple R-squared:  0.2568,    Adjusted R-squared:  0.2413 
F-statistic: 16.59 on 1 and 48 DF,  p-value: 0.0001731

估计治疗效果为1.81,标准误差为0.44。现在我们进行分析,我们另外调整基线:

> summary(lm(y~treat+x))

Call:
lm(formula = y ~ treat + x)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.4975 -0.6407  0.1508  0.7619  1.6868 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   0.1874     0.2440   0.768  0.44635    
treat         0.9741     0.3234   3.013  0.00416 ** 
x             1.1391     0.1521   7.491 1.48e-09 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.069 on 47 degrees of freedom
Multiple R-squared:  0.6613,    Adjusted R-squared:  0.6468 
F-statistic: 45.87 on 2 and 47 DF,  p-value: 8.955e-1

现在治疗效果估计值为0.97,标准误差为0.32。通过调整X获得的估计值更接近真实值1,并且标准误差更小,表明更精确的估计。通过调整协变量获得的精确度取决于协变量和结果之间的相关性的强度。


调整协变量时的假设

我们已经看到,调整基线协变量可以提高我们的治疗效果估计的精确度。但要做到这一点,我们已经拟合了一个更复杂的回归模型。该回归模型假设Y的平均值线性地取决于X,并且该关系的斜率在两组中是相同的。无法保证这些假设在任何特定研究中都能成立。因此,如果这些假设不成立,我们可能会担心使用协变量调整分析。


协变量调整与二元结果

前面的讨论是在连续结果的背景下进行的,我们通常会使用线性回归结果模型。如果结果是不同类型怎么办?也许最常见的是二元结果。在这种情况下,事情有点复杂。事实证明,在逻辑回归中调整基线协变量会降低治疗效果估计的精确度,但(会增加相应假设检验的能力。

非常感谢您阅读本文,有任何问题请在下方留言!


相关文章
|
7月前
|
存储 vr&ar
R语言单变量和多变量(多元)动态条件相关系数DCC-GARCH模型分析股票收益率金融时间序列数据波动率-2
R语言单变量和多变量(多元)动态条件相关系数DCC-GARCH模型分析股票收益率金融时间序列数据波动率
|
7月前
|
vr&ar
R语言单变量和多变量(多元)动态条件相关系数DCC-GARCH模型分析股票收益率金融时间序列数据波动率-1
R语言单变量和多变量(多元)动态条件相关系数DCC-GARCH模型分析股票收益率金融时间序列数据波动率
|
3月前
|
数据采集
基于R语言的GD库实现地理探测器并自动将连续变量转为类别变量
【9月更文挑战第9天】在R语言中,可通过`gd`包实现地理探测器。首先,安装并加载`gd`包;其次,准备包含地理与因变量的数据框;然后,使用`cut`函数将连续变量转换为分类变量;最后,通过`gd`函数运行地理探测器,并打印结果以获取q值等统计信息。实际应用时需根据数据特点调整参数。
150 8
|
7月前
|
存储 vr&ar
R语言单变量和多变量(多元)动态条件相关系数DCC-GARCH模型分析股票收益率金融时间序列数据波动率
R语言单变量和多变量(多元)动态条件相关系数DCC-GARCH模型分析股票收益率金融时间序列数据波动率
|
7月前
|
数据可视化
R语言多元(多变量)GARCH :GO-GARCH、BEKK、DCC-GARCH和CCC-GARCH模型和可视化
R语言多元(多变量)GARCH :GO-GARCH、BEKK、DCC-GARCH和CCC-GARCH模型和可视化
|
7月前
|
机器学习/深度学习 前端开发 数据可视化
R语言缺失数据变量选择LASSO回归:Bootstrap重(再)抽样插补和推算
R语言缺失数据变量选择LASSO回归:Bootstrap重(再)抽样插补和推算
|
7月前
|
数据挖掘 数据建模
R语言指数加权模型EWMA预测股市多变量波动率
R语言指数加权模型EWMA预测股市多变量波动率
R语言指数加权模型EWMA预测股市多变量波动率
|
7月前
|
机器学习/深度学习 数据可视化
R语言lasso协变量改进Logistic逻辑回归对特发性黄斑前膜因素交叉验证可视化分析
R语言lasso协变量改进Logistic逻辑回归对特发性黄斑前膜因素交叉验证可视化分析
|
7月前
R语言偏最小二乘回归PLS回归分析制药产品化学制造过程数据、缺失值填充、变量重要性
R语言偏最小二乘回归PLS回归分析制药产品化学制造过程数据、缺失值填充、变量重要性
|
7月前
|
机器学习/深度学习 算法 数据可视化
R语言组lasso改进逻辑回归变量选择分析高血压、易感因素、2型糖尿病和LDL可视化
R语言组lasso改进逻辑回归变量选择分析高血压、易感因素、2型糖尿病和LDL可视化