Python实现卡方检验和相关性分析

2022-12-31 1119 发布于黑龙江

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Python实现卡方检验和相关性分析

卡方检验

卡方检验的主要用途

两个率或两个构成比比较的卡方检验

多个率或多个构成比比较的卡方检验

分类资料的相关分析

卡方检验的基本原理

H0 :观察频数与期望频数没有差别

其原理为考察基于H0的理论频数分布和实际频数分布间的差异大小，据此求出相应的P值

案例：所有受访家庭会按照家庭年收入被分为低收入家庭和高收入家庭两类，现希望考察不同收入级别的家庭其轿车拥有率是否相同。

基于H0成立，即观察频数和期望频数无差别，也就是两组变量（家庭收入级别与是否拥有轿车）相互不产生影响，两组变量不相关，如果检验P值很高，则接受H0；如果检验P值很低，则检验不通过，观察频数和期望频数有差别，两组变量相关。

卡方统计量

卡方统计量的计算公式：

其中A为实际频数，E为期望频数（理论频数）。

卡方统计量的理解：

当观察频数与期望频数完全一致时，卡方值为0

观察频数与期望频数越接近，两者之间的差异越小，卡方值越小

观察频数与期望频数差异越大，卡方值越大

卡方值的大小也和自由度有关

卡方检验的statsmodels实现

案例：所有受访家庭会按照家庭年收入被分为低收入家庭和高收入家庭两类，现希望考察不同收入级别的家庭其轿车拥有率是否相同。

statsmodels中首先需要建立对应的列联表对象：

Table类的方法: test_nominal_association() 无序分类行、列变量的独立性检验

import pandas as pd
import statsmodels.stats.contingency_tables as tbl
# 读取excel文件
home = pd.read_excel("home_income.xlsx")
# 考察不同收入级别的家庭其轿车拥有率是否相同
table = tbl.Table(pd.crosstab(home.Ts9,home.O1))
res = table.test_nominal_association()  # 卡方检验
print("卡方值：",res.statistic)
print("自由度：",res.df)
print("p值：",res.pvalue)  # 格式化后的p值

配对卡方检验

McNemar's检验（配对卡方检验）用于分析两个相关率的变化是否有统计学意义

案例：用A、B两种方法检查已确诊的某种疾病患者140名，A法检出91 名(65%)，B法检出77名(55%)，A、B两法一致的检出56名(40%)，问哪种方法阳性检出率更高？

分析思路：

H0 :两种方法阳性检出率无差别，即b单元格=c单元格

对同一个体，分别有两次不同的测量，并最终构成了两组数据，因此研究框架是自身配对设计

求出各对的差值，然后考察样本中差值的分布是否按照H0假设的情况对称分布

主对角线上的样本，两种检验方法的结论相同

非主对角线上的单元格才携带检验方法的差异信息

根据H0得到b、c两格的理论数均为(b+c)/2,对应的配对检验统计量，经过化简后是：

一般在 b + c < 40 时，需用确切概率法进行检验，或者进行校正

代码实现

statsmodels.stats.contingency_tables中常用的配对卡方的分析使用：

1 tbl.SquareTable 用于分析行列变量类别相同的对称结构方表（近似结果）

2 tbl.mcnemar 用于分析配对四格表（确切概率结果）

用SquareTable类分析

import numpy as np
import statsmodels.stats.contingency_tables as tbl
table = tbl.SquareTable(np.array([[56,35],[21,28]]))
print(table.summary())  # 查看汇总结果
print(table.symmetry())  # 只查看配对卡方检验的结果

用mcnemar类分析

table = tbl.mcnemar(pd.DataFrame([[56,35],[21,28]]))
table.pvalue  # 确切概率结果

Python实现卡方检验和相关性分析

卡方检验

卡方检验的statsmodels实现

配对卡方检验

相关分析（关联性分析）概述

相关系数的计算原理

相关分析的Python实现

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Python实现卡方检验和相关性分析

卡方检验

卡方检验的statsmodels实现

配对卡方检验

相关分析（关联性分析）概述

相关系数的计算原理

相关分析的Python实现

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像