文档备案控制台

开发者社区华章出版社文章正文

《R语言数据挖掘：实用项目解析》——2.8　假设检验

2017-07-03 3522

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来自华章计算机《R语言数据挖掘：实用项目解析》一书中的第2章，第2.8节，作者［印度］普拉迪帕塔·米什拉（Pradeepta Mishra），译黄芸，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.8　假设检验

零假设意味着什么都没有发生、平均值是恒定的，等等。对立假设则意味着有什么发生了，且平均值与总体有所不同。进行假设检验的步骤如下：

1）提出零假设：提出关于总体的假设。例如，平均市内行车英里数为40。
2）提出对立假设：如果证明零假设是错的，那么其他情况的概率有多大？例如，如果市内行车英里数不是40，那是大于40，还是小于40？如果不等于40，则这是一个非定向对立假设。
3）计算样本检验统计：检验统计可以是t-检验、f-检验、z-检验等。根据数据适用性和先前提出的假设选择恰当的检验统计。
4）确定置信区间：有90%、95%和99%三个置信区间，根据相关的特定业务问题的准确率而定。置信区间的水平由研究人员或分析师来确定。
5）确定显著性水平：如果置信区间是95%，则显著性水平将为5%。由此可见显著性水平的确定将有益于计算检验的p值。
6）结论：如果选择的p值小于显著水平值，则有理由否定零假设；否则，我们将认可零假设。

2.8.1　总体均值检验

根据前面的检验假设步骤，以Cars93为例来检验总体平均值。

已知方差情况下的单尾均值检验

假设某研究人员声明样本采集的所有汽车平均行车里程数超过35。在有93辆汽车的样本中，观察到所有汽车平均行车里程数为29。你应该认可，还是否定该研究人员的声明？

接下来的代码将解释你应该怎样对此下结论：

下面介绍在已知方差情况下对样本数据的总体均值进行单尾和双尾比例检验分析。

单尾和双尾比例检验

利用数据集Cars93，假设40%的美国产汽车的RPM（最大马力时的每分钟转速）超过5000。从样本数据得知，57辆汽车中有17辆的RPM超过5000。从上文你可得到什么解释？

如果对立假设是非定向假设，那么这就是双尾比例检验的例子。之前的计算不会有改变，除了临界值的计算。详细代码如下：

对连续型数据的双样本成对检验：用于双样本成对检验的零假设是指假设一个过程对研究对象没有影响、试验对试验对象没有影响，等等。对立假设声明存在过程的显著统计影响、试验的有效性或在对象上的作用。

虽然在Cars93中没有这样的变量，我们仍然假设在不同汽车品牌的最小价格和最大价格之间有成对关系。

双样本t检验的零假设：平均价格无差异。
对立假设：平均价格有差异。

由于p值小于0.05，因此最大价格和最小价格之差在95%置信区间内有显著差异。

对连续型数据的双样本不成对检验：假设在Cars93数据集中高速路的里程数和市内里程数是有差别的。如果两者有显著差异，可以通过独立的样本t检验来比较各自的平均值。
零假设：高速路的MPG和市内的MPG没有差别。
对立假设：高速路的MPG和市内的MPG有差别。

由双样本t检验可知，当两个样本相互独立时，p值小于0.05，所以我们可以否定假设高速路和市内的平均里程数无差别的零假设，即高速路和市内的平均里程数有显著差异。这可用略微不同的方法展现出来，即零假设手动挡与自动挡汽车各自的市内平均行车里程数不同：

从以上的检验可知，结论自动挡与手动挡汽车的市内平均行车里程数有显著差异，因为p值小于0.05。

在进行t检验之前，检查数据的正态性非常重要。一个变量的正态性可用Shapiro检验函数检测：

由市内每加仑行车里程数的正态分位图和直方图可知，里程数变量没有呈正态分布。因为该变量不是正态分布的，所以需要采取非参数方法比如Wilcoxon符号秩检验或Kolmogorov-Smirnov检验。

2.8.2　双样本方差检验

比较双样本的方差，采用F检验作为统计量：

因为p值小于0.05，我们可以否定手动挡与自动挡汽车在高速路的里程数的方差无差异的零假设。这表明两个样本的方差有95%置信水平的统计显著差异。

这两组样本的方差还可以用Bartlett检验测出：

由以上检验也可以得出这样的结论，即关于方差相同的零假设可在0.05的显著性水平拒绝，可证明这两组样本有显著差异。

单因子方差分析：可使用单因子方差分析。分析的变量是RPM，分组变量是Cylinders（汽缸个数）。

零假设：不同缸数的平均RPM值无差异。

对立假设：至少一种缸数的平均RPM有差异。

代码如下：

由上面的方差分析可知，p值小于0.05，因此否定零假设。这意味着至少有一种缸数的平均RPM存在显著差异。为了识别哪一种缸数是不同的，可在方差分析模型的结果上执行事后检验：

只要调整后的p值小于0.05，RPM的平均差异将显著有别于其他分组。

双因子方差分析及其事后检验：这里研究的因子是origin（是否美国产）和airbags（安全气囊规格）。需要检验的假设是：这两个分类变量对RPM变量是否有影响？

文章标签：

云解析DNS

数据挖掘

关键词：

r语言检验

r语言假设检验

数据挖掘检验

云解析DNS检验

华章计算机

目录

相关文章

Echo_Wish

|

数据采集机器学习/深度学习算法

R语言数据挖掘：从“挖井”到“淘金”

R语言数据挖掘：从“挖井”到“淘金”

Echo_Wish

300 9 9

拓端数据部落

|

数据可视化前端开发数据挖掘

R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享（上）

R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享

拓端数据部落

407 0 0

拓端数据部落

|

数据挖掘

R语言临床预测模型：分层构建COX生存回归模型STRATIFIED COX MODEL、KM生存曲线、PH假设检验

R语言临床预测模型：分层构建COX生存回归模型STRATIFIED COX MODEL、KM生存曲线、PH假设检验

拓端数据部落

557 3 3

拓端数据部落

|

SQL 数据可视化算法

R语言公交地铁路线进出站数据挖掘网络图可视化

R语言公交地铁路线进出站数据挖掘网络图可视化

拓端数据部落

290 1 1

胖胖雕

应用统计学与R语言实现学习笔记（六）——假设检验

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/ESA_DSQ/article/details/71420125 Chapter 6 Hypothesis Test 本篇是第6章，内容是假设检验。

胖胖雕

1702 0 0

拓端数据部落

|

算法数据挖掘数据库

R语言主成分PCA、决策树、boost预警模型在跨区域犯罪研究数据挖掘分析|数据分享

R语言主成分PCA、决策树、boost预警模型在跨区域犯罪研究数据挖掘分析|数据分享

拓端数据部落

453 0 0

拓端数据部落

|

前端开发数据可视化数据挖掘

R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享（下）

R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享

拓端数据部落

351 0 0

拓端数据部落

|

数据可视化数据挖掘

数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分（下）

数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分

拓端数据部落

527 0 0

拓端数据部落

|

数据可视化算法数据挖掘

数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分（上）

数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分

拓端数据部落

850 0 0

拓端数据部落

|

测试技术

数据分享|R语言回归，虚拟变量和交互项，假设检验:F检验、AIC和 BIC分析学生成绩数据附自测题（下）

数据分享|R语言回归，虚拟变量和交互项，假设检验:F检验、AIC和 BIC分析学生成绩数据附自测题

拓端数据部落

329 0 0

华章出版社

热门文章

最新文章

USB Type-C引脚解析 && CC、DFP、UFP、DRP用途解析

山特UPS电源三种工作模式解析

2016大数据创新大赛——机场客流量的时空分布预测模型解析

《走进git时代系列三》详解部分git思想及SVN/GIT命令对比解析

阿里视频云最强转码技术揭秘：窄带高清原理解析+用户接入指南

【区块链】深入解析Proof of Work (PoW): 区块链技术的核心驱动力

STM32学习笔记（6）串口通信数据包解析

RISC-V生态开发套件解析（五）：LicheeRV 86开发板BSP SDK开发和Xboot 镜像体验

深入解析子网划分的目的和关键步骤

深入解析Linux命令：pwd

如何用给各种IDE配置R语言环境

R语言数据挖掘：从“挖井”到“淘金”

探索大数据分析的无限可能：R语言的应用与实践

R 语言教程之 R 数据类型 6

R 语言教程之 R 数据类型 5

R 语言教程之 R 数据类型 4

R 语言教程之 R 数据类型 3

R 语言教程之 R 数据类型 2

R 语言教程之 R 数据类型 1

R 语言教程之 R 基础运算 7

相关课程

更多

高校精品课-北京理工大学-数据仓库与数据挖掘（下）

高校精品课-北京理工大学-数据仓库与数据挖掘（上）

大数据之R语言速成与实战

相关电子书

更多

“DNS+”发展白皮书（2023）

云解析DNS在安全容灾场景下的应用分享

低代码开发师（初级）实战教程

推荐镜像

更多

DNS

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！