《R语言数据挖掘：实用项目解析》——2.7　列联表、二元统计及数据正态性检验-阿里云开发者社区

《R语言数据挖掘：实用项目解析》——2.7　列联表、二元统计及数据正态性检验

2017-07-03 3104

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来自华章计算机《R语言数据挖掘：实用项目解析》一书中的第2章，第2.7节，作者［印度］普拉迪帕塔·米什拉（Pradeepta Mishra），译黄芸，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.7　列联表、二元统计及数据正态性检验

列联表是由两个或多个分类变量及每个分类所占比例构成的频率表。频率表展示的是一个分类变量，而列联表用来展示两个分类变量。

我们以Cars93数据集为例，来解读列联表、二元统计和数据正态性：

前面已给出过汽车的两个分类变量AirBags和Type各自的频率表：

如上面的代码所示，conTable对象保存了两个变量的交叉表。每个单元的百分比显示在下列代码中。如果需要计算行百分比或列百分比，则需要指定相应参数的值：

若要计算行百分比，则应将值设为1。若要计算列百分比，则应将值设为2。代码如下：

列联表的概览（summary）用于实现两个分类变量的独立性检验（卡方检验）：

对所有因子的卡方独立性检验在之前讲过了。卡方近似值有可能因列联表中存在空值或少于5个值而不准确。在之前的例子中，对于汽车类型和安全气囊这两个随机变量，如果一个变量的概率分布不影响另一个变量的概率分布，则说明它们是独立的。对于卡方独立性检验的零假设是两个变量相互独立。因为此检验的p值小于0.05，我们有5%的显著性水平否定两个变量是独立的零假设。所以结论是汽车类型和安全气囊不是相互独立的，即它们相关或依赖。

如果不是两个变量，我们给列联表再加一维会怎么样？取Origin，列联表的代码会显示如下：