如果您熟悉线性模型,意识到它们的局限,那么您应该学习线性混合模型mixed-model。本视频中,我们讨论了线性混合模型并在R软件中进行应用。
视频:线性混合效应模型(LMM,Linear Mixed Models)和R语言实现
什么是混合效应建模,为什么要使用?
统计分析中许多问题的传统方法是拟合线性模型,通常使用最小二乘估计。与所有统计方法一样,最小二乘估计需要做出某些数学假设:数据符合正态分布的并且彼此独立。
线性统计模型的一个常见示例是多元线性回归模型:
其中Y被称为因变量,X是自变量,β是要预测的未知参数,而ϵ是随机误差向量。
对于线性回归模型,我们需要假设误差是正态分布的并且彼此独立。自然,严重违反这些假设将导致统计模型几乎没有用处。
然而,在实际情况中,例如当我们对同一个人重复测量因变量智力分数时,智力分数通常是相关的,因此需要一个模型来解释这种相关性。
有时因变量显然不是正态分布的。当我们试图预测二元因变量时,例如成功/失败或生存/死亡,误差只能取两个值,因此不是正态分布的。但可能通过诸如泊松之类的分布很好地建模。逻辑回归和泊松回归分别是在这些情况下使用的模型,并且都是广义线性模型的特例。
这就是为什么要开发混合模型来处理如此混乱的数据,即使我们的样本量较小、结构化数据和许多协变量都可以拟合。
线性混合模型
处理相关数据的传统分析技术是重复测量方差分析和混合模型。相关数据的线性混合模型可以表述为(以回归模型格式):
其中 x变量代表固定效应,而 z变量代表随机效应。
与通常拟合最小二乘的传统线性模型不同,线性混合模型要么拟合最大似然,要么拟合 REML,限制最大似然。REML 是最大似然的一种变体,通常在变异性估计中具有较小的偏差。
混合模型非常适合聚类数据、重复测量和层次模型。虽然基于经典 ANOVA 的方法可以很好地处理某些特殊情况(例如来自没有缺失数据的平衡设计的重复测量 ANOVA),但混合模型对于处理更复杂的情况至关重要,包括缺失数据、按不同时间段测量的个体等。
混合模型还可以帮助我们避免假重复的统计错误,这是统计推断中的误差来源,我们将数据视为独立的,而实际上并非如此。这导致我们夸大了样本的大小,从而夸大了自由度和p-值,这可能导致错误地得出实际不存在的统计显着性结论(即 I 类错误)。假重复通常发生在具有层次结构的观察性研究或具有不同空间和/或时间尺度的设计实验中。
随机效应和固定效应
噪声,在统计文献中被称为“随机效应”。指定这些来源决定了我们测量中的相关结构。
在最简单的线性模型中,我们认为可变性源于测量误差,因此与其他任何因素无关。但通常是不切实际的。
考虑工业过程控制中的一个问题:测试制造的瓶盖直径的变化。我们想研究时间的固定效应:之前与之后。瓶盖是由几台机器生产的。很明显,机器内部和机器之间的直径存在差异。考虑到来自许多机器的瓶盖样本,我们可以通过去除每台机器的平均值来实现测量的标准化。这意味着我们把机器当作固定效应,减去它们,并认为机器内部的变异性是唯一的变异源。减去机器效应后,就去掉了机器间变异性的信息。
另外,在推断时间固定效应时,我们可以将机器间的变异性视为另一个不确定性的来源。在这种情况下,就不会减去机器效应,而是在LMM框架中把它当作一个随机效应。
LMM的相关概念
- LMM 涉及到很多基础概念,因此它有许多名称:
- 方差分量:因为如示例所示,方差有不止一个来源。
- 分层模型或多级分析:因为我们可以将抽样视为分层的——首先对类别进行抽样,然后对其因变量进行抽样。
- 重复测量:因为我们对每个样本进行多次测量。
广义线性混合模型GLMM
广义线性混合模型相对线性混合模型更加灵活性,即我们可以为因变量假设除正态分布之外的许多族。
广义线性混合模型的一般形式是
其中 s是固定效应的数量。r是随机效应的数量。βj是固定效应xij 的参数。bik是随机效应的参数,而zik是随机效应的水平。链接函数 g(μi)=η用来表示,这样 y=g(μi) . 因此,混合模型与广义线性混合模型的结合,形成广义线性混合模型。
GLMM的链接函数
广义线性混合模型与线性混合模型 之间的不同之处在于因变量可以来自除正态分布之外的不同分布。此外,不是直接对因变量建模,而是应用一些链接函数,例如对于二元结果,我们使用Logistic链接函数和Logistic的概率密度函数。这些是
对于计数结果,我们使用对数链接函数和poisson的概率质量函数,或PMF。请注意,我们称之为概率质量函数而不是概率密度函数,因为支持是离散的(即对于正整数)。这些是
通过为因变量选择适当分布族并与线性预测因子相联系,可以更准确地对具有计数或比例的因变量设计进行建模。随机效应不再被忽视,而是被估计出来,并且可以对新的数据进行推断。
R语言对数据进行线性混合效应模型的拟合与可视化
在本文中,我们将用R语言对数据进行线性混合效应模型的拟合,然后可视化你的结果。
线性混合效应模型是在有随机效应时使用的,随机效应发生在对随机抽样的单位进行多次测量时。来自同一自然组的测量结果本身并不是独立的随机样本。因此,这些单位或群体被假定为从一个群体的 "人口 "中随机抽取的。示例情况包括
- 当你划分并对各部分进行单独实验时(随机组)。
- 当你的抽样设计是嵌套的,如横断面内的四分仪;林地内的横断面;地区内的林地(横断面、林地和地区都是随机组)。
- 当你对相关个体进行测量时(家庭是随机组)。
- 当你重复测量受试者时(受试者是随机组)。
混合效应的线性模型在R命令lme4和lmerTest包中实现。另一个选择是使用nmle包中的lme方法。lme4中用于计算近似自由度的方法比nmle包中的方法更准确一些,特别是在样本量不大的时候。
【视频】线性混合效应模型(LMM,Linear Mixed Models)和R语言实现案例(二)https://developer.aliyun.com/article/1485866