结构方程模型(SEM)的假设(2)

简介: 结构方程模型(SEM)的假设 合理的样本量SEM是一般线性模型灵活有力的扩展。像其它统计方法一样,需要一系列假设。这些假设应该满足或至少近似地保证有可信赖的结果。按 照James Stevens的社会科学的应用多变量统计的说法,一个好的经验法则是在标准普通最小二乘多重回归分析中每个因子有15个个案。因为SEM在某些方面与多 重回归紧密相关,SEM中每个测量变量15个个案是合


结构方程模型(SEM)的假设

合理的样本量

SEM是一般线性模型灵活有力的扩展。像其它统计方法一样,需要一系列假设。这些假设应该满足或至少近似地保证有可信赖的结果。

按 照James Stevens的社会科学的应用多变量统计的说法,一个好的经验法则是在标准普通最小二乘多重回归分析中每个因子有15个个案。因为SEM在某些方面与多 重回归紧密相关,SEM中每个测量变量15个个案是合理的。Bentler 和Chou (1987) 注意到只要数据表现良好(例如,正态分布,无缺失数据或例外值等等),在SEM分析中研究者对每个参数估计,只需要5个个案。注意Bentler 和Chou 提及每个参数估计要有5个个案而不是每个测量变量。测量变量在分析中至少有一个典型地路径系数与其它变量相关联,加上残差项或方差估计,所以认可 Bentler 和Chou 和Stevens推荐的每个测量变量最小要15个个案相吻合是重要的。更一般的, Loehlin (1992) 使用验证性因子分析模型报告蒙特卡洛仿真的研究结果,参考一些文献后,得出对两到四因子模型,调查者应该收集至少100个个案,200更好(如果可能)。 使用小样本的结果包括迭代失败 (软件不能达到满意的解), 不合理的解 (包括测量变量的方差估计为负值)和降低参数估计的准确性,尤其是,标准误– SEM的标准误是在大样本假设下进行计算的。

当数据是非正态分布或在某些方面是有缺陷的情况下 (几乎总是对个案),需要较大的样本。当数据有偏斜,有高低峰,不完整或不尽合理时,对所需要的样本量做出绝对的推荐是困难的。一般的推荐是尽可能获得较多的数据。

内生变量的连续和正态分布

SEM程序假设因变量和中间变量(所谓的内生变量是SEM的叫法) 是连续分布,有正态分布的残差。事实上,SEM分析的残差不仅仅要求服从单变量正态分布,它们的联合分布也要服从联合多变量正态分布。然而,这个假设在实际中从未满足。

SEM专家已经开发多种方法处理非正态分布变量。这些方法是为假设有潜在连续分布的变量而设计。 例如,也许你管理一个研究参与者自信心项目的李克特量表。量表按照自信的连续程度由低到高计分,即使项目数据不是连续分布,潜在自信分布也是连续的。

相反,其它结果变量不是连续分布。例如,医学研究中病人处理后是生还是死?大部分SEM程序目前不能处理这些名义水平因变量的类型。

模型识别 (识别方程)

如 不久所见,为了产生有判断力的一组结果,SEM程序需要已知足够数量的相关阵或协方差阵作为输入。另一个要求是方程完全可识别。在SEM中,识别涉及参数 估计至少有一个唯一解的概念。参数估计只有一个可能解的模型称为恰好识别。有无限可能参数估计值的模型叫做欠识别。最后,参数估计多于一个可能解(除了一 个最佳或最优解外)的模型叫做过度识别。

下列方程,来自Rigdon (1997),或许可以帮助更清晰的理解这些概念:
x + 2y = 7
在上面方程中,x 和 y 有无穷多个解(例如, x = 5 和 y =1, x = 3 和 y = 2)。因为“已知”比“未知”少,所以这些值是欠识别的。恰好识别模型是方程个数与变量个数相同的方程。
x + 2y = 7
3x - y = 7
对这个方程,方程个数与变量个数相同,从而有一对最佳值 (x = 3, y = 2)。
当 每个参数可识别,至少一个参数是过度识别时,会出现过度识别模型(例如,方程能由多种方式求解——而不是带一个方程的参数解,多个方程都会产生这种参数估 计)。多数使用SEM的人都喜欢使用过度识别。过度识别模型有正自由度,也不必拟合恰好识别模型。当有过度模型时,施加在模型上的限制提供一组假设检验, 然后它能被绝对拟合模型的卡方统计量和各种描述模型拟合指数估计。与过度识别模型相关的正自由度允许模型有虚假的卡方检验。当过度识别模型拟合良好时,研 究者通常认为模型有足够的拟合数据。

为了进行SEM 分析,识别是结构上或数学上的需要。许多规则能用于评价模型的识别水平,但这些规则不完善,用纸笔计算(事实上,几乎不可能)非常困难,尤其是复杂模型。 SEM 软件例如AMOS把执行识别检查作为模型拟合过程的一部分。它们通常提供有关欠识别条件的合理警告。

能出现另一个复杂化的情 况是经验欠识别。当设置识别模型有非常小(接近0)估计的参数估计时,会出现经验欠识别。当SEM进行矩阵逆运算时,参数估计在模型参数定义的解空间中下 降,这样程序突然侦测到结构欠识别问题是什么。由于SEM估计的自然迭代,参数估计例如方差从正值开始在一次一次迭代中渐渐地接近0。例如,估计值接近0 的路径系数在SEM矩阵逆运算算法中被当作0来处理。如果路径系数识别模型是必须的,那么模型就变成欠识别。

各种形式欠识别模式的补救方法是设法找到识别问题的来源和确定来源是经验欠识别还是结构欠识别。对结构欠识别,唯一的补救方法是重新定义模型。经验欠识别通过收集更多的数据或重新定义模型来校正。
Rigdon (1997)的例子可以说明这些问题。考虑下列模型:

如果图片缩小请点击放大


它包含一个因子F1,两个误差或残差e1 和 e2,一个因子载荷连接F1 到 I2。模型需要估计四个参数:因子的方差,两个误差方差和一个因子载荷。

有多少可利用的输入能在分析过程中使用?三个。怎么知道要有输入三个变量?可以使用下面公式
[Q(Q + 1)] / 2

这里Q 表示模型数据库中测量变量的数目。在这个模型中有两个观测变量, I1 和 I2,所以由上面公式显示, [2(2+1)]/2 = 3。有两个方差,一个是两个变量都有的方差,一个是I1 和 I2间协方差。

用三个输入估计四个未知参数怎么可能呢?答案是这是不可能的:有三个已知变量或可利用的自由度,但有四个未知参数要估计,所以模型的自由度是 3 – 4 = -1 ,明显地不可能。模型是欠识别——为了得到满意识别水平,需要利用这个模型增加约束。

现在考虑第二个模型:

如果图片缩小请点击放大


因 为模型使用四个观测变量,所以新模型有 [4(4+1)] / 2 = 10个自由度。从10个自由度中减去四个误差方差,两个因子载荷和两个因子方差,一个因子间的协方差结果剩下一个自由度。在结构上模型是可识别的。事实 上,因为现在有一个正自由度,所以它是过度识别。

事实表明,如果F1 和 F2的协方差参数估计恰好变成零或非常接近零,模型变成经验欠识别,因为即使在F1 和 F2间通过定义协方差在结构上识别它,从计算机软件观点看,依据经验它不会被识别。

实际上,所有成功的拟合模型是恰好识别或过度识别。通常使用过度识别模型因为这些模型允许检验统计假设,包括整体模型拟合(Loehlin, 1992)。

完整数据或缺失数据的适当处理

许多SEM软件接受相关阵或协方差阵的输入。换句话说,使用另一个软件(例如SPSS),能自己计算这些矩阵,然后将数据输入到AMOS或其它SEM软件中进行分析。例如,在一本杂志中发表文章,如果打算重新分析报告的协方差阵,这个功能就很有用。

然 而,通常使用行数据输入作为首选的模型分析:研究者通过数据库,也许是SPSS或其它通用格式(像微软的Excel ),给SEM程序,计算协方差作为分析的一部分。如果数据库没有完整的数据,这些程序能够做什么?缺失数据问题的典型解决方法包括个案的列删 ,如果个案有一个或多个缺失数据,整个个案的记录被删除;对删,两变量相关系数只有用到个案数据时才被计算。对删导致数据库中两变量协方差或相关系数有不 同的样本量。缺失数据另一个典型的处理技术是在变量的缺失数据处用变量的均值替代。

但是这些典型的缺失数据处理方法从统计观点来看没 有多少吸引力。列删导致统计功效降低,特别是如果许多个案在多个变量上只有几个数据缺失,更不要说在数据库中所有完全测量的个体限制统计推断。对删在边际 上比较好,但协方差或相关使用不同的样本量的结果对模型拟合效果有很大的影响,有时包括不可能解。最后,均值替代在所替代的地方会收缩变量的方差,这不是 所期望的。这些方法最致命的问题是假设缺失数据是完全随机缺失,实际情况常常不是这回事 (Little & Rubin, 1987)。

对 缺失数据研究者能做什么?如果缺失数据个案的比例小,比如说小于或等于5%。列删可以接受 (Roth, 1994)。当然,如果5%(或更小)的个案不是完全随机缺失,会导致参数估计不一致。另外,缺失数据专家 (例如,Little 和Rubin, 1987) 推荐在分析中使用极大似然估计方法, 该方法充分利用可使用的数据。在前面的缺失数据中,AMOS使用极大似然估计。

定义模型和因果关系的理论基础

SEM 模型永远不能被接受;它们只能不被拒绝。这导致研究者临时接受一个规定的模型。SEM研究者承认在多数情况下拟合模型等价于他们自己暂时地接受模型。任何 模型可能是"正确"的,因为他们适合数据和首选模型。研究者尽力排除替选模型, 扩展替选解释,但这不总是可能的。 因此,使用SEM需要某些不确定,特别是在控制条件下没有收集的截面数据。(其它通用模型也是如此,例如方差分析和多重回归分析技术。)

因 为这个原因,SEM软件需要研究者明确地定义模型。拟合数据较好的模型只能被暂时接受时,拟合数据不好的模型绝对被拒绝。例如,如果用10个调查项拟合单 因子验证性因子分析模型,模型被拒绝,能确信单因子不能充分解释项目的共享方差,一个有用的发现,特别是如果相信一个共有因子没有足够地解释项目的共享方 差。假设运行单因子模型,然后在相同的10个项目上运行双因子模型;前一个模型被拒绝但后一个模型没有被拒绝。现在知道在测量项目中不止一个因素需要解释 共享方差。

除了评估单个模型的绝对拟合优度外,也能通过使用比较似然比卡方检验评估竞争模型。回到前面例子,能使用统计检验相互比较 单双因子模型,如果统计检验显著,能得出较复杂的双因子模型比单因子模型拟合数据更好。另一方面,要是发现两个模型间没有显著差别,能得出单因子模型与双 因子模型拟合数据效果相同。

不是所有模型都可以用这种方法比较。只有在较复杂的模型上利用一组约束或限制得出一个更简单模型的模型才可以用这种方式比较。这些模型叫做嵌套模型。当想比较不能直接比较的模型时,能使用各种描述标准比较这些非嵌套模型。

目录
相关文章
|
3月前
【代数学作业5】理想的分解:高斯整数环中理想的结构,并根据其范数和素数的性质进行分解
【代数学作业5】理想的分解:高斯整数环中理想的结构,并根据其范数和素数的性质进行分解
35 0
|
算法 计算机视觉 网络架构
YOLOv7 | 模型结构与正负样本分配解析
YOLOv7 | 模型结构与正负样本分配解析
1470 0
YOLOv7 | 模型结构与正负样本分配解析
|
14天前
|
数据可视化 前端开发
R语言中实现sem进行结构方程建模和路径图可视化(下)
R语言中实现sem进行结构方程建模和路径图可视化
|
14天前
|
数据可视化
R语言中实现sem进行结构方程建模和路径图可视化(上)
R语言中实现sem进行结构方程建模和路径图可视化
|
14天前
R语言EG(Engle-Granger)两步法协整检验、RESET、格兰杰因果检验、VAR模型分析CPI和PPI时间序列关系
R语言EG(Engle-Granger)两步法协整检验、RESET、格兰杰因果检验、VAR模型分析CPI和PPI时间序列关系
|
26天前
|
机器学习/深度学习 大数据
stata如何处理结构方程模型(SEM)中具有缺失值的协变量
stata如何处理结构方程模型(SEM)中具有缺失值的协变量
|
25天前
|
数据可视化 前端开发
在R语言中实现sem进行结构方程建模和路径图可视化1
在R语言中实现sem进行结构方程建模和路径图可视化
|
25天前
|
数据可视化
在R语言中实现sem进行结构方程建模和路径图可视化2
在R语言中实现sem进行结构方程建模和路径图可视化
|
25天前
|
数据可视化
R语言非参数模型厘定保险费率:局部回归、广义相加模型GAM、样条回归
R语言非参数模型厘定保险费率:局部回归、广义相加模型GAM、样条回归
|
24天前
|
数据可视化
结构方程模型 SEM 多元回归和模型诊断分析学生测试成绩数据与可视化
结构方程模型 SEM 多元回归和模型诊断分析学生测试成绩数据与可视化