stata对包含协变量的模型进行缺失值多重插补分析

简介: stata对包含协变量的模型进行缺失值多重插补分析

多重插补已成为处理缺失数据的常用方法 。  我们可以考虑使用多个插补来估算X中的缺失值。接下来的一个自然问题是,在X的插补模型中,变量Y是否应该作为协变量包含在内?


Stata

为了说明这些概念,我们在Stata中模拟了一个小数据集,最初没有缺失数据:


gen x = rnormal()
gen y = x + 0.25 * rnormal()
twoway(scatter yx)(lfit yx)



在任何数据缺失之前,Y对X的散点图

接下来,我们将X的100个观察中的50个设置为缺失:


gen xmiss =(_ n <= 50)

插补模型

在本文中,我们有两个变量Y和X,分析模型由Y上的Y的某种类型的回归组成(意味着Y是因变量而X是协变量),我们希望生成这样的插补我们得到Y | X模型中参数的有效估计。

输入X忽略Y

假设我们使用回归模型来估算X,但是在插补模型中不包括Y作为协变量。我们可以在Stata中轻松完成此操作,为每个缺失值生成一个估算值,然后根据X的结果推算值或观察到的X(当观察到它时)绘制Y:



mi impute reg x,add(1)


Y对X,其中缺少X值而忽略了Y.

清楚地显示了在X中忽略Y的缺失值的问题 - 在我们已经估算X的那些中,Y和X之间没有关联,实际上应该存在。


将结果考虑在内的

假设如果我们反过来将X结果考虑为Y(作为X的插补模型中的协变量),则会发生以下步骤。X | Y的插补模型将使用观察到X的个体来拟合。由于我们假设X在Y处随机丢失,因此完整的案例分析拟合是有效的。因此,如果实际上X和Y之间没有关联,我们应该(在期望中)在这个完整的情况下找到它。

要继续我们的模拟数据集,我们首先丢弃之前生成的估算值,然后重新输入X,但这次包括Y作为插补模型中的协变量:



mi impute reg x = y,add(1)

Y对X,其中使用Y估算缺失的X值


多重插补中的变量选择

选择要包含在插补模型中的变量时的一般规则是,必须包括分析模型中涉及的所有变量,或者作为被估算的变量,或者作为插补模型中的协变量。


相关文章
|
3月前
|
数据可视化 算法 JavaScript
基于图论的时间序列数据平稳性与连通性分析:利用图形、数学和 Python 揭示时间序列数据中的隐藏模式
本文探讨了如何利用图论分析时间序列数据的平稳性和连通性。通过将时间序列数据转换为图结构,计算片段间的相似性,并构建连通图,可以揭示数据中的隐藏模式。文章介绍了平稳性的概念,提出了基于图的平稳性度量,并展示了图分区在可视化平稳性中的应用。此外,还模拟了不同平稳性和非平稳性程度的信号,分析了图度量的变化,为时间序列数据分析提供了新视角。
87 0
基于图论的时间序列数据平稳性与连通性分析:利用图形、数学和 Python 揭示时间序列数据中的隐藏模式
|
7月前
|
机器学习/深度学习 算法 测试技术
如何应对缺失值带来的分布变化?探索填充缺失值的最佳插补算法
该文探讨了缺失值插补的不同方法,比较了它们恢复数据真实分布的效果。文章指出,处理插补尤其在小样本或复杂数据时是个挑战,需要选择能适应数据分布变化的方法。文中介绍了完全随机缺失(MCAR)、随机缺失(MAR)和非随机缺失(MNAR)三种机制,并以一个简单的例子展示了数据分布变化。文章通过比较均值插补、回归插补和高斯插补,强调了高斯插补在重现数据分布方面更优。评估插补方法时,不应仅依赖于RMSE,而应关注分布预测,使用如能量距离这样的指标。此外,即使在随机缺失情况下,数据分布也可能因模式变化而变化,需要考虑适应这些变化的插补方法。
218 2
|
8月前
|
机器学习/深度学习 前端开发 数据可视化
R语言缺失数据变量选择LASSO回归:Bootstrap重(再)抽样插补和推算
R语言缺失数据变量选择LASSO回归:Bootstrap重(再)抽样插补和推算
|
8月前
|
算法 数据可视化 Python
【视频】逆变换抽样将数据标准化和R语言结构化转换:BOX-COX、凸规则变换方法
【视频】逆变换抽样将数据标准化和R语言结构化转换:BOX-COX、凸规则变换方法
|
8月前
|
机器学习/深度学习 大数据
stata如何处理结构方程模型(SEM)中具有缺失值的协变量
stata如何处理结构方程模型(SEM)中具有缺失值的协变量
|
8月前
|
机器学习/深度学习 算法 前端开发
【视频】为什么要处理缺失数据?如何用R语言进行缺失值填充?
【视频】为什么要处理缺失数据?如何用R语言进行缺失值填充?
|
8月前
R语言分析协变量之间的非线性关系
R语言分析协变量之间的非线性关系
|
8月前
|
机器学习/深度学习 数据可视化
R语言逻辑回归分析连续变量和分类变量之间的“相关性“
R语言逻辑回归分析连续变量和分类变量之间的“相关性“
|
8月前
R语言计量经济学:虚拟变量(哑变量)在线性回归模型中的应用
R语言计量经济学:虚拟变量(哑变量)在线性回归模型中的应用
|
算法
基于有序模式的度量对多变量时间序列进行非线性分析研究(Matlab代码实现)
基于有序模式的度量对多变量时间序列进行非线性分析研究(Matlab代码实现)
158 0