统计: 统计假设检验-比较方法的差别与选择

简介: 本文介绍了日常应用最广泛的几种基础的假设检验比较方法及其适用条件,以供参考学习

1、统计检验方法概览

在日常应用中,最广泛接触的就是两组间比较的情况,多应用 独立样本配对样本 条件下的 t检验秩和检验 方法。
对于多组比较的情况,使用的是 单因素方差分析(ANOVA) ,其中 t检验方差分析(ANOVA) 的差别在于比较的组数不同。

>参数与非参数 检验方法的选择:【 只有当变量满足正态性和方差齐性的条件下,才选用参数检验, 否则选用非参数方法。】

2、统计方法选择


2.1 计量-计数-等级 变量辨析

  • 计量变量:这类变量的特点是具有一个连续的变化性,又称为连续性变量,可以在观测时被测量到具体的数值,通常有度量单位,例如患者的年龄、血压、心率等。统计指标 常用 均值+标准差 来描述。属于 定量观察的结果
  • 计数变量:这类变量又称为定性资料无序分类变量资料 , 是将观察对象按某种属性或类别的 计数,汇总计数得到的资料,分为二分类或多分类。一般无固有计量单位,离散型变量。统计指标是各属性(类别)的结构百分比等。例如生存/死亡人数(百分比)。属于 定性观察的结果
  • 等级变量:等级数据介于 定量观察和定性观察 之间。又称为 有序分类变量 资料。该变量的描述有等级或程度上的差别,但不能用数量来表示。特点是:有大小顺序。如评分(+,++,+++),满意度(差评,中评,好评)等等。等级变量一般转换为计数变量进行统计比较,但是检验方法上需要注意,由于相近的等级拥有更高的相似性,不能根据数值的绝对差异对结果进行统计分析,这样才能准确反映数据的一致性。


2.2 配对样本与独立样本辨析

  • 独立样本:对于需要进行比较的两组数据,如果 比较变量数据是在不同个体测量得到的,研究的是个体(群体)差异,称为独立样本数据。这种数据的比较应使用 独立样本的检验方法,3组及以上多组数据的检验应使用单因素方差分析;
  • 配对样本:对于需要进行比较的两组数据,如果 比较变量数据是对同一个体在不同条件下测量得到的,也就是两组数据中每个数据对都是对应同一个个体,则称为配对样本数据,如比较一个人服用某种药物前后,某种代谢产物的变化水平是否受到药物影响,这种数据的比较就属于 ·配对样本检验·

2.3 正态性与方差齐性

  • 满足正态性+方差齐参数检验
  • 满足正态性+方差不齐非参数检验参数检验
  • 不满足正态性非参数检验

    选用 参数与非参数,最主要的是看数据是否满足 正态性 ,对于满足正态分布的数据,方差齐与不齐对检验结果的影响不大。

    2.3.1 变量的正态性检验

    对于正态分布的判断,常用 Shapiro-Wilk(W检验)【适用于样本数 N <2000】Kolmogorov-Smirnov(D检验)【适用于样本数 N >2000】,当数据分布接近正态时有 W检验和D检验 给出 $p > 0.05$ 。除了这两种检验方法,还有其它描述数据正态性的方法如 箱线图,偏度系数,峰度系数等。

W检验与D检验对应的 R code

A <- c(-1.28,1.57,-0.12,0.22,-0.3,-0.43,-1.17,-0.56,-0.35,-0.04,-0.2,-0.81,-1.81,0.08,1.8,0.96,-0.2,-0.03,-1.7,1.07,-0.73,-0.44,1.35,-0.12,0.55,0.21,0.53,0.25,-0.8,0.63,0.76,-0.79,0.02,-0.13,0.71,-1.04,-0.32,1.32,-1.62,0.75,-0.07,-0.55,-1.23,-0.6,-1.34,0.51,-0.66,-0.45,0.64,-0.08)
shapiro.test(A)
ks.test(A)
2.3.2 变量的方差齐性检验

方差齐性主要看 Levene's 检验(该方法对正态性要求不严格,结果相对可靠) 结果,$p > 0.05$则方差齐。若方差齐,使用 t检验。如果方差不齐,则使用 矫正t检验 (记为t'),一般也常用 秩和检验的结果代替矫正t检验 的结果。

2.4 等级变量的检验方法选择 秩和检验-卡方检验

  • 卡方检验 探讨的是构成比例的分布,描述了分布轮廓的差异;当需要基于等级资料探讨群体的构成差异时, 首选 卡方检验
  • 秩和检验 探讨的是分布位置的差异,描述了平均位置的差别;当需要基于等级资料探讨群体平均程度的差异时, 首选 秩和检验

3、各种统计检验在R语言的实现:

参考: EDAV/latex/statistical_test_and_parameter_test_in_r.pdf at master · Kimtanyo/EDAV · GitHub
statistical_test_and_parameter_test_in_r

----

如何选择统计学方法?T检验、单因素方差分析、秩和检验、卡方检验到底应该选择哪一个?一个视频轻松搞定_哔哩哔哩_bilibili
R语言统计5:方差分析(ANOVA,F- test) - 简书 (jianshu.com)

目录
相关文章
|
8月前
|
存储 vr&ar
R语言单变量和多变量(多元)动态条件相关系数DCC-GARCH模型分析股票收益率金融时间序列数据波动率-2
R语言单变量和多变量(多元)动态条件相关系数DCC-GARCH模型分析股票收益率金融时间序列数据波动率
|
8月前
|
vr&ar
R语言单变量和多变量(多元)动态条件相关系数DCC-GARCH模型分析股票收益率金融时间序列数据波动率-1
R语言单变量和多变量(多元)动态条件相关系数DCC-GARCH模型分析股票收益率金融时间序列数据波动率
【数理统计实验(一)】统计量近似分布的随机模拟
【数理统计实验(一)】统计量近似分布的随机模拟
|
8月前
|
存储 vr&ar
R语言单变量和多变量(多元)动态条件相关系数DCC-GARCH模型分析股票收益率金融时间序列数据波动率
R语言单变量和多变量(多元)动态条件相关系数DCC-GARCH模型分析股票收益率金融时间序列数据波动率
|
6月前
|
资源调度 数据可视化 算法
贝叶斯统计是一种基于贝叶斯定理的统计学方法,它不同于传统的频率派统计(或称为经典统计)。
贝叶斯统计是一种基于贝叶斯定理的统计学方法,它不同于传统的频率派统计(或称为经典统计)。
|
8月前
|
前端开发 数据可视化 算法
r语言Bootstrap自助法重采样构建统计量T抽样分布近似值可视化|代码分享
r语言Bootstrap自助法重采样构建统计量T抽样分布近似值可视化|代码分享
|
8月前
|
测试技术
数据分享|R语言回归,虚拟变量和交互项,假设检验:F检验、AIC和 BIC分析学生成绩数据附自测题(下)
数据分享|R语言回归,虚拟变量和交互项,假设检验:F检验、AIC和 BIC分析学生成绩数据附自测题
|
8月前
|
机器学习/深度学习 数据可视化
|
8月前
|
数据挖掘
统计的基本概念及抽样分布
统计的基本概念及抽样分布
统计的基本概念及抽样分布
|
机器学习/深度学习 数据处理 Python
数学和统计方法
数学和统计方法
110 0