《R语言数据挖掘:实用项目解析》——第2章,第2.7节列联表、二元统计及数据正态性检验

简介:

本节书摘来自华章出版社《R语言数据挖掘:实用项目解析》一书中的第2章,第2.7节列联表、二元统计及数据正态性检验,作者[印度]普拉迪帕塔·米什拉(Pradeepta Mishra),更多章节内容可以访问云栖社区“华章计算机”公众号查看

2.7 列联表、二元统计及数据正态性检验
列联表是由两个或多个分类变量及每个分类所占比例构成的频率表。频率表展示的是一个分类变量,而列联表用来展示两个分类变量。
我们以Cars93数据集为例,来解读列联表、二元统计和数据正态性:


2219767de9ea12ad8b2e89e9f77ebc328402ddc3

前面已给出过汽车的两个分类变量AirBags和Type各自的频率表:


9d0228c79e34fcb747f5ce19d4a8e01f0a8f29bd


42d387f54383974a82aa750ec7b201c775bf6423

如上面的代码所示,conTable对象保存了两个变量的交叉表。每个单元的百分比显示在下列代码中。如果需要计算行百分比或列百分比,则需要指定相应参数的值:


c4af3c55d03c83c65e7f89132e6c3e7253790669

若要计算行百分比,则应将值设为1。若要计算列百分比,则应将值设为2。代码如下:


d3b2edd83c74df1654afc80fb77ef4923e12ce20

列联表的概览(summary)用于实现两个分类变量的独立性检验(卡方检验):


544c1e5669ee487fd786de33af6cf203b3037b4b

对所有因子的卡方独立性检验在之前讲过了。卡方近似值有可能因列联表中存在空值或少于5个值而不准确。在之前的例子中,对于汽车类型和安全气囊这两个随机变量,如果一个变量的概率分布不影响另一个变量的概率分布,则说明它们是独立的。对于卡方独立性检验的零假设是两个变量相互独立。因为此检验的p值小于0.05,我们有5%的显著性水平否定两个变量是独立的零假设。所以结论是汽车类型和安全气囊不是相互独立的,即它们相关或依赖。
如果不是两个变量,我们给列联表再加一维会怎么样?取Origin,列联表的代码会显示如下:


fa3ec442f71e950b53ab4eb515af4233ddd6bb77

对所有因子的独立性检验结果执行summay命令可检验零假设:


6446b3075584d57943b03b3eda54b0f4a99ae65d

除了之前讨论的绘图方法,R语言中还有一些数值统计检验可用于查看一个变量是否呈正态分布。有个名为norm.test的库可用于执行数据正态性检验,该库中一系列用于检验数据正态性的函数如下所示:


c9ea5c45f004d40c80987705845efe4b9e123520


198af8d3c0792ce04f7eed9952c9b426860f5bd1

我们来对Cars93数据集中的Price变量进行正态检验:


d2703f9708ed3ec3c1c76c1fc9bf38a6bb7dc70e

由以上的检验得知,因所有统计检验的p值都小于0.05,可知Price变量不是正态分布。如果给二元关系再增加一个维度,即变成多元分析。我们来试着理解一下Cars93数据集中马力(horsepower)和车长(length of car)之间的关系:


c0090b26a577fc8825c01ea4c95c41097af4366f

当纳入更多变量时,这就变成多元关系了。下面给出一个Cars93数据集中多变量之间多元关系的示意图:


1c0871ee965987df3ad906aef704f76a93a62a4c

有多种方法可作为参数传递给关联绘图。它们是"circle""square""ellipse""number"
"shade""color"和"pie"。

相关文章
|
2天前
|
Web App开发 数据可视化 数据挖掘
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
|
2天前
|
数据采集 数据可视化
利用R语言进行因子分析实战(数据+代码+可视化+详细分析)
利用R语言进行因子分析实战(数据+代码+可视化+详细分析)
|
6天前
|
移动开发 数据可视化
广义线性模型beta二项分布的淋巴结疾病风险预测可视化R语言2实例合集|附数据代码
广义线性模型beta二项分布的淋巴结疾病风险预测可视化R语言2实例合集|附数据代码
|
6天前
|
机器学习/深度学习 人工智能 数据可视化
【视频】R语言支持向量回归SVR预测水位实例讲解|附代码数据
【视频】R语言支持向量回归SVR预测水位实例讲解|附代码数据
|
6天前
|
机器学习/深度学习 数据可视化
R语言Stan贝叶斯回归置信区间后验分布可视化模型检验|附数据代码
R语言Stan贝叶斯回归置信区间后验分布可视化模型检验|附数据代码
|
6天前
|
机器学习/深度学习 数据采集 算法
数据分享|R语言机器学习预测案例合集:众筹平台、机票折扣、糖尿病患者、员工满意度
数据分享|R语言机器学习预测案例合集:众筹平台、机票折扣、糖尿病患者、员工满意度
|
6天前
|
数据可视化 数据挖掘 索引
R语言层次聚类、多维缩放MDS分类RNA测序(RNA-seq)乳腺发育基因数据可视化|附数据代码2
R语言层次聚类、多维缩放MDS分类RNA测序(RNA-seq)乳腺发育基因数据可视化|附数据代码
|
6天前
|
存储 数据可视化 数据挖掘
R语言层次聚类、多维缩放MDS分类RNA测序(RNA-seq)乳腺发育基因数据可视化|附数据代码1
R语言层次聚类、多维缩放MDS分类RNA测序(RNA-seq)乳腺发育基因数据可视化|附数据代码
|
6天前
|
数据可视化
R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码2
R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码
|
6天前
|
数据可视化 数据挖掘
R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码1
R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码

推荐镜像

更多