【视频】线性混合效应模型(LMM,Linear Mixed Models)和R语言实现案例（一）

2024-04-18 454

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【视频】线性混合效应模型(LMM,Linear Mixed Models)和R语言实现案例

如果您熟悉线性模型，意识到它们的局限，那么您应该学习线性混合模型mixed-model。本视频中，我们讨论了线性混合模型并在R软件中进行应用。

视频：线性混合效应模型(LMM,Linear Mixed Models)和R语言实现

什么是混合效应建模，为什么要使用？

统计分析中许多问题的传统方法是拟合线性模型，通常使用最小二乘估计。与所有统计方法一样，最小二乘估计需要做出某些数学假设：数据符合正态分布的并且彼此独立。

线性统计模型的一个常见示例是多元线性回归模型：

其中Y被称为因变量，X是自变量，β是要预测的未知参数，而ϵ是随机误差向量。

对于线性回归模型，我们需要假设误差是正态分布的并且彼此独立。自然，严重违反这些假设将导致统计模型几乎没有用处。

然而，在实际情况中，例如当我们对同一个人重复测量因变量智力分数时，智力分数通常是相关的，因此需要一个模型来解释这种相关性。

有时因变量显然不是正态分布的。当我们试图预测二元因变量时，例如成功/失败或生存/死亡，误差只能取两个值，因此不是正态分布的。但可能通过诸如泊松之类的分布很好地建模。逻辑回归和泊松回归分别是在这些情况下使用的模型，并且都是广义线性模型的特例。

这就是为什么要开发混合模型来处理如此混乱的数据，即使我们的样本量较小、结构化数据和许多协变量都可以拟合。

线性混合模型

处理相关数据的传统分析技术是重复测量方差分析和混合模型。相关数据的线性混合模型可以表述为（以回归模型格式）：

其中 x变量代表固定效应，而 z变量代表随机效应。

与通常拟合最小二乘的传统线性模型不同，线性混合模型要么拟合最大似然，要么拟合 REML，限制最大似然。REML 是最大似然的一种变体，通常在变异性估计中具有较小的偏差。

混合模型非常适合聚类数据、重复测量和层次模型。虽然基于经典 ANOVA 的方法可以很好地处理某些特殊情况（例如来自没有缺失数据的平衡设计的重复测量 ANOVA），但混合模型对于处理更复杂的情况至关重要，包括缺失数据、按不同时间段测量的个体等。

混合模型还可以帮助我们避免假重复的统计错误，这是统计推断中的误差来源，我们将数据视为独立的，而实际上并非如此。这导致我们夸大了样本的大小，从而夸大了自由度和p-值，这可能导致错误地得出实际不存在的统计显着性结论（即 I 类错误）。假重复通常发生在具有层次结构的观察性研究或具有不同空间和/或时间尺度的设计实验中。

随机效应和固定效应

噪声，在统计文献中被称为“随机效应”。指定这些来源决定了我们测量中的相关结构。

在最简单的线性模型中，我们认为可变性源于测量误差，因此与其他任何因素无关。但通常是不切实际的。

考虑工业过程控制中的一个问题：测试制造的瓶盖直径的变化。我们想研究时间的固定效应：之前与之后。瓶盖是由几台机器生产的。很明显，机器内部和机器之间的直径存在差异。考虑到来自许多机器的瓶盖样本，我们可以通过去除每台机器的平均值来实现测量的标准化。这意味着我们把机器当作固定效应，减去它们，并认为机器内部的变异性是唯一的变异源。减去机器效应后，就去掉了机器间变异性的信息。

另外，在推断时间固定效应时，我们可以将机器间的变异性视为另一个不确定性的来源。在这种情况下，就不会减去机器效应，而是在LMM框架中把它当作一个随机效应。

LMM的相关概念

LMM 涉及到很多基础概念，因此它有许多名称：
方差分量：因为如示例所示，方差有不止一个来源。
分层模型或多级分析：因为我们可以将抽样视为分层的——首先对类别进行抽样，然后对其因变量进行抽样。
重复测量：因为我们对每个样本进行多次测量。

广义线性混合模型GLMM

广义线性混合模型相对线性混合模型更加灵活性，即我们可以为因变量假设除正态分布之外的许多族。

广义线性混合模型的一般形式是

其中 s是固定效应的数量。r是随机效应的数量。βj是固定效应xij 的参数。bik是随机效应的参数，而zik是随机效应的水平。链接函数 g(μi)=η用来表示，这样 y=g(μi) . 因此，混合模型与广义线性混合模型的结合，形成广义线性混合模型。

GLMM的链接函数

广义线性混合模型与线性混合模型之间的不同之处在于因变量可以来自除正态分布之外的不同分布。此外，不是直接对因变量建模，而是应用一些链接函数，例如对于二元结果，我们使用Logistic链接函数和Logistic的概率密度函数。这些是

对于计数结果，我们使用对数链接函数和poisson的概率质量函数，或PMF。请注意，我们称之为概率质量函数而不是概率密度函数，因为支持是离散的（即对于正整数）。这些是

通过为因变量选择适当分布族并与线性预测因子相联系，可以更准确地对具有计数或比例的因变量设计进行建模。随机效应不再被忽视，而是被估计出来，并且可以对新的数据进行推断。

R语言对数据进行线性混合效应模型的拟合与可视化

在本文中，我们将用R语言对数据进行线性混合效应模型的拟合，然后可视化你的结果。

线性混合效应模型是在有随机效应时使用的，随机效应发生在对随机抽样的单位进行多次测量时。来自同一自然组的测量结果本身并不是独立的随机样本。因此，这些单位或群体被假定为从一个群体的 "人口 "中随机抽取的。示例情况包括

当你划分并对各部分进行单独实验时（随机组）。
当你的抽样设计是嵌套的，如横断面内的四分仪；林地内的横断面；地区内的林地（横断面、林地和地区都是随机组）。
当你对相关个体进行测量时（家庭是随机组）。
当你重复测量受试者时（受试者是随机组）。

混合效应的线性模型在R命令lme4和lmerTest包中实现。另一个选择是使用nmle包中的lme方法。lme4中用于计算近似自由度的方法比nmle包中的方法更准确一些，特别是在样本量不大的时候。

【视频】线性混合效应模型(LMM,Linear Mixed Models)和R语言实现案例（二）https://developer.aliyun.com/article/1485866

【视频】线性混合效应模型(LMM,Linear Mixed Models)和R语言实现案例（一）

什么是混合效应建模，为什么要使用？

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【视频】线性混合效应模型(LMM,Linear Mixed Models)和R语言实现案例（一）

什么是混合效应建模，为什么要使用？

热门文章

最新文章

相关课程

相关电子书