【视频】线性混合效应模型(LMM,Linear Mixed Models)和R语言实现案例(一)

简介: 【视频】线性混合效应模型(LMM,Linear Mixed Models)和R语言实现案例

如果您熟悉线性模型,意识到它们的局限,那么您应该学习线性混合模型mixed-model。本视频中,我们讨论了线性混合模型并在R软件中进行应用。

视频:线性混合效应模型(LMM,Linear Mixed Models)和R语言实现

image.png

什么是混合效应建模,为什么要使用?

统计分析中许多问题的传统方法是拟合线性模型,通常使用最小二乘估计。与所有统计方法一样,最小二乘估计需要做出某些数学假设:数据符合正态分布的并且彼此独立。

线性统计模型的一个常见示例是多元线性回归模型:

其中Y被称为因变量,X是自变量,β是要预测的未知参数,而ϵ是随机误差向量。

对于线性回归模型,我们需要假设误差是正态分布的并且彼此独立。自然,严重违反这些假设将导致统计模型几乎没有用处。

然而,在实际情况中,例如当我们对同一个人重复测量因变量智力分数时,智力分数通常是相关的,因此需要一个模型来解释这种相关性。

有时因变量显然不是正态分布的。当我们试图预测二元因变量时,例如成功/失败或生存/死亡,误差只能取两个值,因此不是正态分布的。但可能通过诸如泊松之类的分布很好地建模。逻辑回归和泊松回归分别是在这些情况下使用的模型,并且都是广义线性模型的特例。

这就是为什么要开发混合模型来处理如此混乱的数据,即使我们的样本量较小、结构化数据和许多协变量都可以拟合。

线性混合模型

处理相关数据的传统分析技术是重复测量方差分析和混合模型。相关数据的线性混合模型可以表述为(以回归模型格式):

其中  x变量代表固定效应,而  z变量代表随机效应。

与通常拟合最小二乘的传统线性模型不同,线性混合模型要么拟合最大似然,要么拟合 REML,限制最大似然。REML 是最大似然的一种变体,通常在变异性估计中具有较小的偏差。

混合模型非常适合聚类数据、重复测量和层次模型。虽然基于经典 ANOVA 的方法可以很好地处理某些特殊情况(例如来自没有缺失数据的平衡设计的重复测量 ANOVA),但混合模型对于处理更复杂的情况至关重要,包括缺失数据、按不同时间段测量的个体等。

混合模型还可以帮助我们避免假重复的统计错误,这是统计推断中的误差来源,我们将数据视为独立的,而实际上并非如此。这导致我们夸大了样本的大小,从而夸大了自由度和p-值,这可能导致错误地得出实际不存在的统计显着性结论(即 I 类错误)。假重复通常发生在具有层次结构的观察性研究或具有不同空间和/或时间尺度的设计实验中。

随机效应和固定效应

噪声,在统计文献中被称为“随机效应”。指定这些来源决定了我们测量中的相关结构。

在最简单的线性模型中,我们认为可变性源于测量误差,因此与其他任何因素无关。但通常是不切实际的。

考虑工业过程控制中的一个问题:测试制造的瓶盖直径的变化。我们想研究时间的固定效应:之前与之后。瓶盖是由几台机器生产的。很明显,机器内部和机器之间的直径存在差异。考虑到来自许多机器的瓶盖样本,我们可以通过去除每台机器的平均值来实现测量的标准化。这意味着我们把机器当作固定效应,减去它们,并认为机器内部的变异性是唯一的变异源。减去机器效应后,就去掉了机器间变异性的信息。

另外,在推断时间固定效应时,我们可以将机器间的变异性视为另一个不确定性的来源。在这种情况下,就不会减去机器效应,而是在LMM框架中把它当作一个随机效应。

LMM的相关概念

  • LMM 涉及到很多基础概念,因此它有许多名称:
  • 方差分量:因为如示例所示,方差有不止一个来源。
  • 分层模型或多级分析:因为我们可以将抽样视为分层的——首先对类别进行抽样,然后对其因变量进行抽样。
  • 重复测量:因为我们对每个样本进行多次测量。

广义线性混合模型GLMM

广义线性混合模型相对线性混合模型更加灵活性,即我们可以为因变量假设除正态分布之外的许多族。

广义线性混合模型的一般形式是

 


其中  s是固定效应的数量。r是随机效应的数量。βj是固定效应xij 的参数。bik是随机效应的参数,而zik是随机效应的水平。链接函数  g(μi)=η用来表示,这样  y=g(μi) . 因此,混合模型与广义线性混合模型的结合,形成广义线性混合模型。

GLMM的链接函数

广义线性混合模型与线性混合模型 之间的不同之处在于因变量可以来自除正态分布之外的不同分布。此外,不是直接对因变量建模,而是应用一些链接函数,例如对于二元结果,我们使用Logistic链接函数和Logistic的概率密度函数。这些是

对于计数结果,我们使用对数链接函数和poisson的概率质量函数,或PMF。请注意,我们称之为概率质量函数而不是概率密度函数,因为支持是离散的(即对于正整数)。这些是


通过为因变量选择适当分布族并与线性预测因子相联系,可以更准确地对具有计数或比例的因变量设计进行建模。随机效应不再被忽视,而是被估计出来,并且可以对新的数据进行推断。

R语言对数据进行线性混合效应模型的拟合与可视化

在本文中,我们将用R语言对数据进行线性混合效应模型的拟合,然后可视化你的结果。

线性混合效应模型是在有随机效应时使用的,随机效应发生在对随机抽样的单位进行多次测量时。来自同一自然组的测量结果本身并不是独立的随机样本。因此,这些单位或群体被假定为从一个群体的 "人口 "中随机抽取的。示例情况包括

  • 当你划分并对各部分进行单独实验时(随机组)。
  • 当你的抽样设计是嵌套的,如横断面内的四分仪;林地内的横断面;地区内的林地(横断面、林地和地区都是随机组)。
  • 当你对相关个体进行测量时(家庭是随机组)。
  • 当你重复测量受试者时(受试者是随机组)。

混合效应的线性模型在R命令lme4和lmerTest包中实现。另一个选择是使用nmle包中的lme方法。lme4中用于计算近似自由度的方法比nmle包中的方法更准确一些,特别是在样本量不大的时候。


【视频】线性混合效应模型(LMM,Linear Mixed Models)和R语言实现案例(二)https://developer.aliyun.com/article/1485866

相关文章
|
6月前
【R语言实战】——带有高斯新息的金融时序的GARCH模型拟合预测及VAR/ES风险度量
【R语言实战】——带有高斯新息的金融时序的GARCH模型拟合预测及VAR/ES风险度量
|
6月前
【R语言实战】——带有新息为标准学生t分布的金融时序的GARCH模型拟合预测
【R语言实战】——带有新息为标准学生t分布的金融时序的GARCH模型拟合预测
|
2月前
|
机器学习/深度学习 算法 前端开发
R语言基础机器学习模型:深入探索决策树与随机森林
【9月更文挑战第2天】决策树和随机森林作为R语言中基础且强大的机器学习模型,各有其独特的优势和适用范围。了解并熟练掌握这两种模型,对于数据科学家和机器学习爱好者来说,无疑是一个重要的里程碑。希望本文能够帮助您更好地理解这两种模型,并在实际项目中灵活应用。
|
3月前
|
资源调度 数据挖掘
R语言回归分析:线性回归模型的构建与评估
【8月更文挑战第31天】线性回归模型是统计分析中一种重要且实用的工具,能够帮助我们理解和预测自变量与因变量之间的线性关系。在R语言中,我们可以轻松地构建和评估线性回归模型,从而对数据背后的关系进行深入的探索和分析。
|
6月前
【R语言实战】——Logistic回归模型
【R语言实战】——Logistic回归模型
|
2月前
|
数据采集 机器学习/深度学习 数据可视化
R语言从数据到决策:R语言在商业分析中的实践
【9月更文挑战第1天】R语言在商业分析中的应用广泛而深入,从数据收集、预处理、分析到预测模型构建和决策支持,R语言都提供了强大的工具和功能。通过学习和掌握R语言在商业分析中的实践应用,我们可以更好地利用数据驱动企业决策,提升企业的竞争力和盈利能力。未来,随着大数据和人工智能技术的不断发展,R语言在商业分析领域的应用将更加广泛和深入,为企业带来更多的机遇和挑战。
|
24天前
|
数据挖掘 C语言 C++
R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。
【10月更文挑战第21天】时间序列分析是一种重要的数据分析方法,广泛应用于经济学、金融学、气象学、生态学等领域。R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。本文将介绍使用R语言进行时间序列分析的基本概念、方法和实例,帮助读者掌握R语言在时间序列分析中的应用。
41 3
|
6月前
|
数据可视化 数据挖掘 API
【R语言实战】聚类分析及可视化
【R语言实战】聚类分析及可视化
|
6月前
|
机器学习/深度学习 数据可视化
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为2
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为
|
2月前
|
数据采集 数据可视化 数据挖掘
R语言在金融数据分析中的深度应用:探索数据背后的市场智慧
【9月更文挑战第1天】R语言在金融数据分析中展现出了强大的功能和广泛的应用前景。通过丰富的数据处理函数、强大的统计分析功能和优秀的可视化效果,R语言能够帮助金融机构深入挖掘数据价值,洞察市场动态。未来,随着金融数据的不断积累和技术的不断进步,R语言在金融数据分析中的应用将更加广泛和深入。