文档备案控制台

开发者社区大数据文章正文

R语言两层2^k析因试验设计（因子设计）分析工厂产量数据和Lenth方法检验显著性可视化|数据分享(一)

2024-04-18 302

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： R语言两层2^k析因试验设计（因子设计）分析工厂产量数据和Lenth方法检验显著性可视化|数据分享(一)

假设调查人员有兴趣检查减肥干预方法的三个组成部分。这三个组成部分是：

记录食物日记（是/否）
增加活动（是/否）
家访（是/否）

调查员计划调查所有，实验条件的组合。实验条件为

要执行因子设计，您需要为多个因子（变量）中的每一个选择固定数量的水平，然后以所有可能的组合运行实验。
这些因素可以是定量的或定性的。
定量变量的两个水平可以是两个不同的温度或两个不同的浓度。
定性因素可能是两种类型的催化剂或某些实体的存在和不存在。

符号：- 因子数 (3) - 每个因子的水平数 (2) - 设计中有多少实验条件 ( )

因子实验可以涉及具有不同水平数量的因子。

测试：

考虑一个设计。

有多少因子？
每个因子有多少个水平？
多少实验条件？

答案：

(a) 有 2+2+1 = 5 个因数。

(b) 两个因素有4个水平，2个因素有3个水平，1个因素有2个水平。

(c) 有 288 个实验条件。

方差分析和因子设计之间的区别

在 ANOVA 中，目标是比较各个实验条件。

让我们考虑一下上面的食物日记研究。

我们可以通过比较食物日记设置为 NO（条件 1-4）的所有条件的平均值和食物日记设置为 YES（条件 5-8）的所有条件的平均值来估计食物日记的效果。这也被称为食物日记的主效应，形容词主要是提醒这个平均值超过了其他因素的水平。

食物日记的主效应是：

体育锻炼的主效应是：

家访的主效应是：

使用了所有实验对象，但重新排列以进行每次比较。受试者被回收以测量不同的效应。这是析因实验更有效的原因之一。

执行因子设计

要执行因子设计：

为每个因子选择固定数量的水平。
以所有可能的组合运行实验。

我们将讨论每个因子只有两个水平的设计。因素可以是定量的或定性的。两个水平的定量变量可以是两个不同的温度或浓度。定量变量的两个级别可以是两种不同类型的催化剂或某些实体的存在/不存在。

一项实验数据（查看文末了解数据获取方式）采用 2^3 因子设计，具有两个定量因素 - 温度 (T) 和浓度 (C) - 以及一个定性因素 - 催化剂 K 类型。

温度T（C∘）有两个等级：160C∘和180C∘。它们分别编码为 -1 和 +1。

浓度 C (%) 有两个级别：20 和 40。它们分别编码为 -1 和 +1。

催化剂 K 有两个级别：A 和 B。它们分别编码为 -1 和 +1。

记录的每个数据值都是针对两次重复运行的平均因变量产量 y。

立方图

下图显示了立方体角处因子 T、C 和 K 的各种组合的 y 值。例如，当 T=-1、C = 1 和 K=-1 时，从运行 3 获得 y=54。

立方体展示了这种设计如何沿着立方体的 12 个边缘进行 12 次比较：温度变化影响的四个测量值；浓度变化影响的四种测量方法；催化剂变化效果的四种测量方法。
在立方体的每条边上，只有一个因子发生变化，而其他两个因子保持不变。

bh4 <- lm
Plot

因子效应

主要影响

运行 1 和 2 的影响仅因温度而不同，因为浓度为 20%，催化剂类型为 A。差异 72-60 = 12 提供了一种温度影响的测量值，而其余因素保持不变。对于浓度和催化剂的四种组合中的每一种，有四种这样的温度效应测量方法。

T 的主要（平均）影响是

有一组类似的浓度 C 测量值。在这些测量值中的每一个中，水平 T 和 K 都保持不变。浓度 C 的主要影响是：

C的主要（平均）影响是

K 的主要影响是

K 的主要（平均）影响是

所有 8 次运行都用于估计每个主效应。这就是因子设计比一次检查一个因子更有效的原因。

一般来说，主要影响是两个平均值之间的差异：

其中 ¯y+ 是对应于因子 +1 水平的平均响应，而 ¯y− 是对应于因子 -1 水平的平均响应。

交互效应

两因素相互作用

当催化剂 K 为 A 时，温度效应为：

当催化剂 K 为 B 时，温度效应为：

这两个平均差异之间的平均差异称为温度和催化剂之间的相互作用，用 TK 表示。这就是温度和催化剂两个因素之间的相互作用——温度和催化剂之间的两个因素相互作用。

这也可以在立方图上看到：与立方体正面 (13) 相比，立方体 (33) 背面的平均温度影响更大。

三因素相互作用

当催化剂为 B（在其 +1 水平）时，浓度相互作用的温度为：

当催化剂为 A（在其 -1 水平）时，浓度相互作用的温度为：

这两种相互作用之间的差异衡量了两种催化剂的温度-浓度相互作用的一致性。这种差异的一半被定义为温度、浓度和催化剂的三因素相互作用，用 TCK 表示。

因子设计中的重复

工厂实验的结果 y是两次重复运行的平均值。两个单独的运行如下表所示。运行顺序是随机的。例如， 6 和 13 是 T、C 和 K（T=-1、C=-1、K=-1）的相同设置下的两个重复。

复制运行并不总是可行的。工厂实验运行包括清洁反应器，插入适当的催化剂装料，并在给定的进料浓度下在给定的温度下运行设备 3 小时，以使过程在所选的实验条件下稳定下来，以及 (4) 取样在运行的最后几个小时内每 15 分钟输出一次。

假设每次测量的方差为 σ2。每组条件下的估计方差为：

其中 yi1 是第 i 次运行的第一个结果。在上表中diffi=(yi1−yi2)。σ2 的汇总估计是

对于重复运行，具有一个自由度的方差估计为 . 这些产生单自由度估计的平均值产生具有 8 个自由度的合并估计 s2=8。

重复运行效应的误差方差和标准误差的估计

每个估计的效应，例如 T、C、K、TC 等，都是 8 个观测值的两个平均值之间的差异。重复运行的因子效应方差为

因此，任何因子效应的标准误为：

结果解释

哪些影响是真实的，哪些可以偶然解释？一个粗略的经验法则是，任何 2-3 倍于其标准误差的效应都不容易仅靠偶然性来解释。

如果我们假设观测值是独立且正态分布的，那么

因此，95% 的置信区间可以计算为：

其中 t8,.05/2 是 t8t 的第 97.5 个百分位数。这是通过 qt() 函数在 R 中获得的。

qt(p = 1-.025,df = 8)

因此，因子效应的 95% 置信区间为

T 的 95% 置信区间为

K 的 95% 置信区间为

1.5-3.2 #下限

## \[1\] -1.7

1.5+3.2 #上限

## \[1\] 4.7

温度的影响可能不是偶然的，但偶然不能成为催化剂的影响的规则。

只有在没有证据表明该因素与其他因素相互作用时，才应单独解释一个因素的主效应。

交互图

下图显示了每对因子 TC、TK、CK（即这些因子的每个因子水平组合）的平均产量。这些图通常称为交互图。如果两条线平行，则表明没有相互作用，如果两条线交叉或接近交叉，则表明可能存在相互作用。

下图显示了催化剂和温度之间的双向相互作用。

plot(tabT,taC,ty, type = "l")

2k 因子设计的线性模型

yi 是第 i 次运行的结果，

2^3 因子设计的线性模型是：

变量是温度和浓度之间的相互作用，xi1xi3xi1xi3 是温度和催化剂之间的相互作用等。

参数估计是通过 lm() R 中的函数获得的。

fact.mod <-lm(y~T\*K\*C,data = tab0503)
round(summary(fact.mod)$coefficients,2)

设计矩阵设计是：

这个模型矩阵设计是：

model.matr

下表显示了具有因变量的模型矩阵：

如果将 T 的列乘以平均收益率并除以 4，则得到 T 的主效应。

估计的最小二乘系数是因子估计的二分之一，截距 β0 是样本均值。因此，因子估计是最小二乘系数的两倍。例如，

4 的除数将对比度转换为两个平均值之间的差异。
通过乘以各自因素获得交互作用对比的标识。
每列相对于其他列完全平衡（正数和负数相等）。
平衡（正交）设计确保每个估计的效果不受其他效果的大小的影响。

最小二乘估计可以在 R 中乘以 2。

fad <-lm
round(2*coeffits,2)

当有重复运行时，我们还从回归模型中获得因子效应的 p 值和置信区间。例如，β1 的 p 值对应于温度的阶乘效应

如果原假设为真，那么

为了获得因子效应的 95% 置信区间，我们将回归参数的 95% 置信区间乘以 2。这在 R 中使用函数很容易做到 confint()。

2*confint.lm

浓度主效应的 95% 置信区间为 (-8.0,-1.5)，温度和浓度之间的双向交互作用具有 95% 置信区间 (-1.46,4.96)。

文章标签：

数据可视化

关键词：

r语言分析

r语言数据

r语言分析数据

r语言可视化

r语言因子

拓端数据部落

目录

相关文章

1941623231718325

|

数据采集机器学习/深度学习数据可视化

R语言从数据到决策：R语言在商业分析中的实践

【9月更文挑战第1天】R语言在商业分析中的应用广泛而深入，从数据收集、预处理、分析到预测模型构建和决策支持，R语言都提供了强大的工具和功能。通过学习和掌握R语言在商业分析中的实践应用，我们可以更好地利用数据驱动企业决策，提升企业的竞争力和盈利能力。未来，随着大数据和人工智能技术的不断发展，R语言在商业分析领域的应用将更加广泛和深入，为企业带来更多的机遇和挑战。

1941623231718325

562 9 9

Echo_Wish

|

数据采集机器学习/深度学习数据可视化

探索大数据分析的无限可能：R语言的应用与实践

探索大数据分析的无限可能：R语言的应用与实践

Echo_Wish

643 9 9

龙大吉

|

数据挖掘 C语言 C++

R语言是一种强大的统计分析工具，提供了丰富的函数和包用于时间序列分析。

【10月更文挑战第21天】时间序列分析是一种重要的数据分析方法，广泛应用于经济学、金融学、气象学、生态学等领域。R语言是一种强大的统计分析工具，提供了丰富的函数和包用于时间序列分析。本文将介绍使用R语言进行时间序列分析的基本概念、方法和实例，帮助读者掌握R语言在时间序列分析中的应用。

龙大吉

524 3 3

1941623231718325

|

数据采集数据可视化数据挖掘

R语言在金融数据分析中的深度应用：探索数据背后的市场智慧

【9月更文挑战第1天】R语言在金融数据分析中展现出了强大的功能和广泛的应用前景。通过丰富的数据处理函数、强大的统计分析功能和优秀的可视化效果，R语言能够帮助金融机构深入挖掘数据价值，洞察市场动态。未来，随着金融数据的不断积累和技术的不断进步，R语言在金融数据分析中的应用将更加广泛和深入。

1941623231718325

745 8 8

1941623231718325

|

机器学习/深度学习数据采集数据可视化

R语言在数据科学中的应用实例：探索与预测分析

【8月更文挑战第31天】通过上述实例，我们展示了R语言在数据科学中的强大应用。从数据准备、探索、预处理到建模与预测，R语言提供了完整的解决方案和丰富的工具集。当然，数据科学远不止于此，随着技术的不断发展和业务需求的不断变化，我们需要不断学习和探索新的方法和工具，以更好地应对挑战，挖掘数据的潜在价值。未来，随着大数据和人工智能技术的普及，R语言在数据科学领域的应用将更加广泛和深入。我们期待看到更多创新的应用实例，为各行各业的发展注入新的动力。

1941623231718325

570 1 1

1941623231718325

|

数据采集存储数据可视化

R语言时间序列分析：处理与建模时间序列数据的深度探索

【8月更文挑战第31天】R语言作为一款功能强大的数据分析工具，为处理时间序列数据提供了丰富的函数和包。从数据读取、预处理、建模到可视化，R语言都提供了灵活且强大的解决方案。然而，时间序列数据的处理和分析是一个复杂的过程，需要结合具体的应用场景和需求来选择合适的方法和模型。希望本文能为读者在R语言中进行时间序列分析提供一些有益的参考和启示。

1941623231718325

560 1 1

1941623231718325

|

资源调度数据挖掘

R语言回归分析：线性回归模型的构建与评估

【8月更文挑战第31天】线性回归模型是统计分析中一种重要且实用的工具，能够帮助我们理解和预测自变量与因变量之间的线性关系。在R语言中，我们可以轻松地构建和评估线性回归模型，从而对数据背后的关系进行深入的探索和分析。

1941623231718325

1148 1 1

aliyun1645995785-22449

|

数据可视化数据挖掘 API

【R语言实战】聚类分析及可视化

【R语言实战】聚类分析及可视化

aliyun1645995785-22449

465 2 2

拓端数据部落

|

机器学习/深度学习数据可视化

R语言逻辑回归logistic模型ROC曲线可视化分析2例：麻醉剂用量影响、汽车购买行为2

R语言逻辑回归logistic模型ROC曲线可视化分析2例：麻醉剂用量影响、汽车购买行为

拓端数据部落

466 2 2

蓝易云

|

机器学习/深度学习数据采集

R语言逻辑回归、GAM、LDA、KNN、PCA主成分分类分析预测房价及交叉验证

上述介绍仅为简要概述，每个模型在实施时都需要仔细调整与优化。为了实现高度精确的预测，模型选择与调参是至关重要的步骤，并且交叉验证是提升模型稳健性的有效途径。在真实世界的房价预测问题中，可能还需要结合地域经济、市场趋势等宏观因素进行综合分析。

蓝易云

431 3 4

热门文章

最新文章

预测分析：R语言实现.

《量化金融R语言初级教程》一1.4　波动率建模

《机器学习与R语言（原书第2版）》一3.2　例子—用kNN算法诊断乳腺癌

R语言-数据处理：dplyr包select 函数条件选择列向量用法

VET：一个基于R语言的VCF数据提取工具，支持按基因ID、物理位置、样品名称提取指定变异信息

数据清洗、数据处理入门！R语言我来了，数据不再零散！

跟着Nature Communications学数据分析：R语言做随机森林模型并对变量重要性排序

R语言中的时间序列分析模型：ARIMA-ARCH / GARCH模型分析股票价格

R语言-文件归档压缩方法

R语言DTW(Dynamic Time Warping) 动态时间规整算法分析序列数据和可视化

如何用给各种IDE配置R语言环境

R语言数据挖掘：从“挖井”到“淘金”

探索大数据分析的无限可能：R语言的应用与实践

R 语言教程之 R 数据类型 6

R 语言教程之 R 数据类型 5

R 语言教程之 R 数据类型 4

R 语言教程之 R 数据类型 3

R 语言教程之 R 数据类型 2

R 语言教程之 R 数据类型 1

R 语言教程之 R 基础运算 7

相关课程

更多

大数据之R语言速成与实战

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

阿里云重磅发布Agentic SOC，企业级AI Agent驱动的安全运营平台