R语言两层2^k析因试验设计(因子设计)分析工厂产量数据和Lenth方法检验显著性可视化|数据分享(一)

简介: R语言两层2^k析因试验设计(因子设计)分析工厂产量数据和Lenth方法检验显著性可视化|数据分享(一)

假设调查人员有兴趣检查减肥干预方法的三个组成部分。这三个组成部分是:

  • 记录食物日记(是/否)
  • 增加活动(是/否)
  • 家访(是/否)

调查员计划调查所有 ,实验条件的组合。实验条件为

  • 要执行因子设计,您需要为多个因子(变量)中的每一个选择固定数量的水平,然后以所有可能的组合运行实验。
  • 这些因素可以是定量的或定性的。
  • 定量变量的两个水平可以是两个不同的温度或两个不同的浓度。
  • 定性因素可能是两种类型的催化剂或某些实体的存在和不存在。

符号 :- 因子数 (3) - 每个因子的水平数 (2) - 设计中有多少实验条件 ( )

因子实验可以涉及具有不同水平数量的因子。


测试:

考虑一个 设计。

  • 有多少因子?
  • 每个因子有多少个水平?
  • 多少实验条件?



答案:

(a) 有 2+2+1 = 5 个因数。

(b) 两个因素有4个水平,2个因素有3个水平,1个因素有2个水平。

(c) 有 288 个实验条件。



方差分析和因子设计之间的区别

在 ANOVA 中,目标是比较各个实验条件。

让我们考虑一下上面的食物日记研究。

我们可以通过比较食物日记设置为 NO(条件 1-4)的所有条件的平均值和食物日记设置为 YES(条件 5-8)的所有条件的平均值来估计食物日记的效果。这也被称为食物日记的 主效应 ,形容词 主要 是提醒这个平均值超过了其他因素的水平。

食物日记的是:

体育锻炼的是:

家访的是:

使用了所有实验对象,但重新排列以进行每次比较。受试者被回收以测量不同的效应。这是析因实验更有效的原因之一。

执行  因子设计

要执行因子设计:

  • 为每个因子选择固定数量的水平。
  • 以所有可能的组合运行实验。

我们将讨论每个因子只有两个水平的设计。因素可以是定量的或定性的。两个水平的定量变量可以是两个不同的温度或浓度。定量变量的两个级别可以是两种不同类型的催化剂或某些实体的存在/不存在。

一项实验数据(查看文末了解数据获取方式采用 2^3 因子设计,具有两个定量因素 - 温度 (T) 和浓度 (C) - 以及一个定性因素 - 催化剂 K 类型。

温度T(C∘)有两个等级:160C∘和180C∘。它们分别编码为 -1 和 +1。

浓度 C (%) 有两个级别:20 和 40。它们分别编码为 -1 和 +1。

催化剂 K 有两个级别:A 和 B。它们分别编码为 -1 和 +1。

记录的每个数据值都是针对两次重复运行的平均因变量产量 y。


立方图

下图显示了立方体角处因子 T、C 和 K 的各种组合的 y 值。例如,当 T=-1、C = 1 和 K=-1 时,从运行 3 获得 y=54。

  • 立方体展示了这种设计如何沿着立方体的 12 个边缘进行 12 次比较:温度变化影响的四个测量值;浓度变化影响的四种测量方法;催化剂变化效果的四种测量方法。
  • 在立方体的每条边上,只有一个因子发生变化,而其他两个因子保持不变。
bh4 <- lm
Plot




因子效应

主要影响

运行 1 和 2 的影响仅因温度而不同,因为浓度为 20%,催化剂类型为 A。差异 72-60 = 12 提供了一种温度影响的测量值,而其余因素保持不变。对于浓度和催化剂的四种组合中的每一种,有四种这样的温度效应测量方法。

T 的主要(平均)影响是

有一组类似的浓度 C 测量值。在这些测量值中的每一个中,水平 T 和 K 都保持不变。浓度 C 的主要影响是:

C的主要(平均)影响是

K 的主要影响是

K 的主要(平均)影响是

所有 8 次运行都用于估计每个主效应。这就是因子设计比一次检查一个因子更有效的原因。

一般来说,主要影响是两个平均值之间的差异:

其中 ¯y+ 是对应于因子 +1 水平的平均响应,而 ¯y− 是对应于因子 -1 水平的平均响应。

交互效应

两因素相互作用

当催化剂 K 为 A 时,温度效应为:

当催化剂 K 为 B 时,温度效应为:

这两个平均差异之间的平均差异称为温度和催化剂之间的 相互作用 ,用 TK 表示。这就是温度和催化剂两个因素之间的相互作用——温度和催化剂之间的两个因素相互作用。

这也可以在立方图上看到:与立方体正面 (13) 相比,立方体 (33) 背面的平均温度影响更大。


三因素相互作用

当催化剂为 B(在其 +1 水平)时,浓度相互作用的温度为:

当催化剂为 A(在其 -1 水平)时,浓度相互作用的温度为:

这两种相互作用之间的差异衡量了两种催化剂的温度-浓度相互作用的一致性。这种差异的一半被定义为温度、浓度和催化剂的三因素相互作用,用 TCK 表示。

因子设计中的重复

工厂实验的结果 y是两次重复运行的平均值。两个单独的运行如下表所示。运行顺序是随机的。例如, 6 和 13 是 T、C 和 K(T=-1、C=-1、K=-1)的相同设置下的两个重复。

复制运行并不总是可行的。工厂实验运行包括清洁反应器,插入适当的催化剂装料,并在给定的进料浓度下在给定的温度下运行设备 3 小时,以使过程在所选的实验条件下稳定下来,以及 (4) 取样在运行的最后几个小时内每 15 分钟输出一次。

假设每次测量的方差为 σ2。每组条件下的估计方差为:

其中 yi1 是第 i 次运行的第一个结果。在上表中diffi=(yi1−yi2)。σ2 的汇总估计是

对于重复运行,具有一个自由度的方差估计为 . 这些产生单自由度估计的平均值产生具有 8 个自由度的合并估计 s2=8。

重复运行效应的误差方差和标准误差的估计

每个估计的效应,例如 T、C、K、TC 等,都是 8 个观测值的两个平均值之间的差异。重复运行的因子效应方差为

因此,任何因子效应的标准误为:

结果解释

哪些影响是真实的,哪些可以偶然解释?一个粗略的经验法则是,任何 2-3 倍于其标准误差的效应都不容易仅靠偶然性来解释。

如果我们假设观测值是独立且正态分布的,那么

因此,95% 的置信区间可以计算为:

其中 t8,.05/2 是 t8t 的第 97.5 个百分位数。这是通过 qt() 函数在 R 中获得的。

qt(p = 1-.025,df = 8)

因此,因子效应的 95% 置信区间为

T 的 95% 置信区间为

K 的 95% 置信区间为

1.5-3.2 #下限
## \[1\] -1.7
1.5+3.2 #上限
## \[1\] 4.7

温度的影响可能不是偶然的,但偶然不能成为催化剂的影响的规则。

只有在没有证据表明该因素与其他因素相互作用时,才应单独解释一个因素的主效应。

交互图

下图显示了每对因子 TC、TK、CK(即这些因子的每个因子水平组合)的平均产量。这些图通常称为交互图。如果两条线平行,则表明没有相互作用,如果两条线交叉或接近交叉,则表明可能存在相互作用。

下图显示了催化剂和温度之间的双向相互作用。

plot(tabT,taC,ty, type = "l")

2k 因子设计的线性模型

yi 是第 i 次运行的结果,

2^3 因子设计的线性模型是:

变量 是温度和浓度之间的相互作用,xi1xi3xi1xi3 是温度和催化剂之间的相互作用等。

参数估计是通过 lm() R 中的函数获得的。

fact.mod <-lm(y~T\*K\*C,data = tab0503)
round(summary(fact.mod)$coefficients,2)

设计矩阵 设计是:

这个模型矩阵 设计是:

model.matr

下表显示了具有因变量的模型矩阵:

如果将 T 的列乘以平均收益率并除以 4,则得到 T 的主效应。

估计的最小二乘系数是因子估计的二分之一,截距 β0 是样本均值。因此,因子估计是最小二乘系数的两倍。例如,


  • 4 的除数将对比度转换为两个平均值之间的差异。
  • 通过乘以各自因素获得交互作用对比的标识。
  • 每列相对于其他列完全平衡(正数和负数相等)。
  • 平衡(正交)设计确保每个估计的效果不受其他效果的大小的影响。

最小二乘估计可以在 R 中乘以 2。

fad <-lm
round(2*coeffits,2)

当有重复运行时,我们还从回归模型中获得因子效应的 p 值和置信区间。例如,β1 的 p 值对应于温度的阶乘效应

如果原假设为真,那么  

为了获得因子效应的 95% 置信区间,我们将回归参数的 95% 置信区间乘以 2。这在 R 中使用函数 很容易做到 confint()

2*confint.lm

浓度主效应的 95% 置信区间为 (-8.0,-1.5),温度和浓度之间的双向交互作用具有 95% 置信区间 (-1.46,4.96)。

相关文章
|
1天前
|
数据采集 数据可视化
R语言关联规则Apriori对杭州空气质量与气象因子数据研究可视化
R语言关联规则Apriori对杭州空气质量与气象因子数据研究可视化
|
1天前
|
数据采集 数据挖掘 测试技术
python、R语言ARIMA-GARCH分析南方恒生中国企业ETF基金净值时间序列分析
python、R语言ARIMA-GARCH分析南方恒生中国企业ETF基金净值时间序列分析
11 1
|
1天前
R语言偏最小二乘回归PLS回归分析制药产品化学制造过程数据、缺失值填充、变量重要性
R语言偏最小二乘回归PLS回归分析制药产品化学制造过程数据、缺失值填充、变量重要性
|
1天前
|
算法 数据挖掘
R语言面板数据回归:含时间固定效应混合模型分析交通死亡率、酒驾法和啤酒税
R语言面板数据回归:含时间固定效应混合模型分析交通死亡率、酒驾法和啤酒税
|
1天前
|
机器学习/深度学习 数据可视化 数据挖掘
数据分享|R语言对论文作者研究机构、知识单元地理空间数据可视化
数据分享|R语言对论文作者研究机构、知识单元地理空间数据可视化
|
1天前
|
机器学习/深度学习 数据可视化
R语言非线性回归和广义线性模型:泊松、伽马、逻辑回归、Beta回归分析机动车事故、小鼠感染、蛤蜊数据、补剂钠摄入数据|数据分享(下)
R语言非线性回归和广义线性模型:泊松、伽马、逻辑回归、Beta回归分析机动车事故、小鼠感染、蛤蜊数据、补剂钠摄入数据|数据分享
|
1天前
|
机器学习/深度学习
R语言非线性回归和广义线性模型:泊松、伽马、逻辑回归、Beta回归分析机动车事故、小鼠感染、蛤蜊数据、补剂钠摄入数据|数据分享(上)
R语言非线性回归和广义线性模型:泊松、伽马、逻辑回归、Beta回归分析机动车事故、小鼠感染、蛤蜊数据、补剂钠摄入数据|数据分享
|
1天前
|
数据可视化 数据挖掘 定位技术
数据分享|R语言生态学种群空间点格局分析:聚类泊松点过程对植物、蚂蚁巢穴分布数据可视化
数据分享|R语言生态学种群空间点格局分析:聚类泊松点过程对植物、蚂蚁巢穴分布数据可视化
|
1天前
|
机器学习/深度学习 数据可视化 数据挖掘
R语言用逻辑回归预测BRFSS中风数据、方差分析anova、ROC曲线AUC、可视化探索
R语言用逻辑回归预测BRFSS中风数据、方差分析anova、ROC曲线AUC、可视化探索
|
1天前
|
数据可视化 Python
R语言分析糖尿病数据:多元线性模型、MANOVA、决策树、典型判别分析、HE图、Box's M检验可视化
R语言分析糖尿病数据:多元线性模型、MANOVA、决策树、典型判别分析、HE图、Box's M检验可视化

热门文章

最新文章