全网最快入门———R语言机器学习实战篇6《功效分析》

简介: R 语言是为数学研究工作者设计的一种数学编程语言,主要用于统计分析、绘图、数据挖掘。 机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

R 语言是为数学研究工作者设计的一种数学编程语言,主要用于统计分析、绘图、数据挖掘。 机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

这节课讲功效分析

项目实操——功效分析

这节课程我们讨论一下,在数据分析的筹备阶段,我们应该选择多少样本,在一个分析中,如果样本数量过小,那么就算pvalue值非常小,非常显著,也是不可信的。


功效分析(power analysis)可以帮助在给定置信度的情况下,判断检测到给定效应值时所需的样本量,反过来,它也可以在给定置信度水平的情况下,计算在某样本量内能检测到给定效应值的概率。

功效分析的理论基础:

第一类错误:弃真,第二类错误:存伪

所以我们根据要检验的显著性水平、功效和效应值来推算所需要的样品数,R中利用pwr包来进行功效分析。

在pwr中包含了多种功效分析的函数,根据不同的假设检验选择不同的函数:


下面介绍线性回归功效分析的案例

F2=R2/1-R2,即模型解释度(模型方差平方和ssr)与平均数解释度(误差平方和sse)之比,F2效应值越大,样本越小;

V=n-u-1为误差自由度,与样本数和自变量个数相关,误差自由度越搞,说明样本越多,房差越大,F2效应值越小,即解释度越小。

U为自变量个数,与误差自由度正相关,即个数越多,所需的样本越多

Power功效,一般小于0.95,但差距不大,排除假阴性的水平之,power越大,v就越大

pwr.f2.test(u=3,sig.level=0.05,power=0.9,f2=0.0769)

结果表明,v=184.2426,也就是说假定显著性水平为0.05,在90%置信度的情况下,至少需要185个受试者才可以。


下面介绍方差分析功效分析的案例

假设现在两组样品做单因素方差分析,要达到0.9的功效,效应值为0.25,并选择0.05的显著性水平,那么每组需要多少样品量呢?可以使用pwr.anova.test()函数进行分析:

其中选项K是组的个数,n是各组的样本大小也就是我们要求的样本量,f是效应值,sig.level还是显著性水平,power为功效水平:

pwr.anova.test(k=2,f=0.25,sig.level=0.05,power=0.9)

最终求得n=85.03,所以每一组中至少要有86个样本

相关文章
|
3天前
|
数据可视化 API 开发者
R1类模型推理能力评测手把手实战
随着DeepSeek-R1模型的广泛应用,越来越多的开发者开始尝试复现类似的模型,以提升其推理能力。
|
2月前
|
机器学习/深度学习 传感器 运维
使用机器学习技术进行时间序列缺失数据填充:基础方法与入门案例
本文探讨了时间序列分析中数据缺失的问题,并通过实际案例展示了如何利用机器学习技术进行缺失值补充。文章构建了一个模拟的能源生产数据集,采用线性回归和决策树回归两种方法进行缺失值补充,并从统计特征、自相关性、趋势和季节性等多个维度进行了详细评估。结果显示,决策树方法在处理复杂非线性模式和保持数据局部特征方面表现更佳,而线性回归方法则适用于简单的线性趋势数据。文章最后总结了两种方法的优劣,并给出了实际应用建议。
131 7
使用机器学习技术进行时间序列缺失数据填充:基础方法与入门案例
|
2月前
|
机器学习/深度学习 数据可视化 大数据
机器学习与大数据分析的结合:智能决策的新引擎
机器学习与大数据分析的结合:智能决策的新引擎
239 15
|
2月前
|
机器学习/深度学习 数据采集 运维
机器学习在运维中的实时分析应用:新时代的智能运维
机器学习在运维中的实时分析应用:新时代的智能运维
101 12
|
3月前
|
机器学习/深度学习 数据采集
机器学习入门——使用Scikit-Learn构建分类器
机器学习入门——使用Scikit-Learn构建分类器
|
3月前
|
机器学习/深度学习 分布式计算 算法
【大数据分析&机器学习】分布式机器学习
本文主要介绍分布式机器学习基础知识,并介绍主流的分布式机器学习框架,结合实例介绍一些机器学习算法。
499 5
|
3月前
|
机器学习/深度学习 数据采集 数据可视化
Python数据科学实战:从Pandas到机器学习
Python数据科学实战:从Pandas到机器学习
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
探索AI的奥秘:机器学习入门指南
【10月更文挑战第30天】本篇文章是一份初学者友好的机器学习入门指南,旨在帮助读者理解并开始实践机器学习。我们将介绍机器学习的基本概念,包括监督学习、无监督学习和强化学习等。我们还将提供一些实用的代码示例,以帮助读者更好地理解和应用这些概念。无论你是编程新手,还是有一定经验的开发者,这篇文章都将为你提供一个清晰的机器学习入门路径。
63 2
|
3月前
|
机器学习/深度学习 人工智能 TensorFlow
基于TensorFlow的深度学习模型训练与优化实战
基于TensorFlow的深度学习模型训练与优化实战
150 0
|
3月前
|
机器学习/深度学习 数据采集 人工智能
机器学习入门:Python与scikit-learn实战
机器学习入门:Python与scikit-learn实战
105 0