统计: 统计假设检验-比较方法的差别与选择

简介: 本文介绍了日常应用最广泛的几种基础的假设检验比较方法及其适用条件,以供参考学习

1、统计检验方法概览

在日常应用中,最广泛接触的就是两组间比较的情况,多应用 独立样本配对样本 条件下的 t检验秩和检验 方法。
对于多组比较的情况,使用的是 单因素方差分析(ANOVA) ,其中 t检验方差分析(ANOVA) 的差别在于比较的组数不同。

>参数与非参数 检验方法的选择:【 只有当变量满足正态性和方差齐性的条件下,才选用参数检验, 否则选用非参数方法。】

2、统计方法选择


2.1 计量-计数-等级 变量辨析

  • 计量变量:这类变量的特点是具有一个连续的变化性,又称为连续性变量,可以在观测时被测量到具体的数值,通常有度量单位,例如患者的年龄、血压、心率等。统计指标 常用 均值+标准差 来描述。属于 定量观察的结果
  • 计数变量:这类变量又称为定性资料无序分类变量资料 , 是将观察对象按某种属性或类别的 计数,汇总计数得到的资料,分为二分类或多分类。一般无固有计量单位,离散型变量。统计指标是各属性(类别)的结构百分比等。例如生存/死亡人数(百分比)。属于 定性观察的结果
  • 等级变量:等级数据介于 定量观察和定性观察 之间。又称为 有序分类变量 资料。该变量的描述有等级或程度上的差别,但不能用数量来表示。特点是:有大小顺序。如评分(+,++,+++),满意度(差评,中评,好评)等等。等级变量一般转换为计数变量进行统计比较,但是检验方法上需要注意,由于相近的等级拥有更高的相似性,不能根据数值的绝对差异对结果进行统计分析,这样才能准确反映数据的一致性。


2.2 配对样本与独立样本辨析

  • 独立样本:对于需要进行比较的两组数据,如果 比较变量数据是在不同个体测量得到的,研究的是个体(群体)差异,称为独立样本数据。这种数据的比较应使用 独立样本的检验方法,3组及以上多组数据的检验应使用单因素方差分析;
  • 配对样本:对于需要进行比较的两组数据,如果 比较变量数据是对同一个体在不同条件下测量得到的,也就是两组数据中每个数据对都是对应同一个个体,则称为配对样本数据,如比较一个人服用某种药物前后,某种代谢产物的变化水平是否受到药物影响,这种数据的比较就属于 ·配对样本检验·

2.3 正态性与方差齐性

  • 满足正态性+方差齐参数检验
  • 满足正态性+方差不齐非参数检验参数检验
  • 不满足正态性非参数检验

    选用 参数与非参数,最主要的是看数据是否满足 正态性 ,对于满足正态分布的数据,方差齐与不齐对检验结果的影响不大。

    2.3.1 变量的正态性检验

    对于正态分布的判断,常用 Shapiro-Wilk(W检验)【适用于样本数 N <2000】Kolmogorov-Smirnov(D检验)【适用于样本数 N >2000】,当数据分布接近正态时有 W检验和D检验 给出 $p > 0.05$ 。除了这两种检验方法,还有其它描述数据正态性的方法如 箱线图,偏度系数,峰度系数等。

W检验与D检验对应的 R code

A <- c(-1.28,1.57,-0.12,0.22,-0.3,-0.43,-1.17,-0.56,-0.35,-0.04,-0.2,-0.81,-1.81,0.08,1.8,0.96,-0.2,-0.03,-1.7,1.07,-0.73,-0.44,1.35,-0.12,0.55,0.21,0.53,0.25,-0.8,0.63,0.76,-0.79,0.02,-0.13,0.71,-1.04,-0.32,1.32,-1.62,0.75,-0.07,-0.55,-1.23,-0.6,-1.34,0.51,-0.66,-0.45,0.64,-0.08)
shapiro.test(A)
ks.test(A)
2.3.2 变量的方差齐性检验

方差齐性主要看 Levene's 检验(该方法对正态性要求不严格,结果相对可靠) 结果,$p > 0.05$则方差齐。若方差齐,使用 t检验。如果方差不齐,则使用 矫正t检验 (记为t'),一般也常用 秩和检验的结果代替矫正t检验 的结果。

2.4 等级变量的检验方法选择 秩和检验-卡方检验

  • 卡方检验 探讨的是构成比例的分布,描述了分布轮廓的差异;当需要基于等级资料探讨群体的构成差异时, 首选 卡方检验
  • 秩和检验 探讨的是分布位置的差异,描述了平均位置的差别;当需要基于等级资料探讨群体平均程度的差异时, 首选 秩和检验

3、各种统计检验在R语言的实现:

参考: EDAV/latex/statistical_test_and_parameter_test_in_r.pdf at master · Kimtanyo/EDAV · GitHub
statistical_test_and_parameter_test_in_r

----

如何选择统计学方法?T检验、单因素方差分析、秩和检验、卡方检验到底应该选择哪一个?一个视频轻松搞定_哔哩哔哩_bilibili
R语言统计5:方差分析(ANOVA,F- test) - 简书 (jianshu.com)

目录
相关文章
|
3月前
|
数据挖掘 数据处理
R语言统计基本概念:探索描述性统计与推断统计的奥秘
【8月更文挑战第30天】描述性统计与推断统计是R语言统计分析中的两大基石。描述性统计帮助我们直观地了解数据的分布特征和基本属性,而推断统计则允许我们基于样本数据对总体进行推断和预测。在数据分析的实际应用中,两者相辅相成,共同构成了数据分析的完整框架。掌握这两大概念及其在R语言中的实现方法,对于提升数据分析能力和决策效率具有重要意义。
|
6月前
【数理统计实验(一)】统计量近似分布的随机模拟
【数理统计实验(一)】统计量近似分布的随机模拟
|
4月前
|
资源调度 数据可视化 算法
贝叶斯统计是一种基于贝叶斯定理的统计学方法,它不同于传统的频率派统计(或称为经典统计)。
贝叶斯统计是一种基于贝叶斯定理的统计学方法,它不同于传统的频率派统计(或称为经典统计)。
|
6月前
|
数据挖掘
统计的基本概念及抽样分布
统计的基本概念及抽样分布
统计的基本概念及抽样分布
|
11月前
|
机器学习/深度学习 数据挖掘 Python
统计回归模型中的一些概念解释
统计回归模型中的一些概念解释
137 0
|
机器学习/深度学习 数据处理 Python
数学和统计方法
数学和统计方法
时间序列分析(2)R语言-基本统计量
时间序列分析(2)R语言-基本统计量
85 0
J3
|
数据采集 数据可视化 数据挖掘
样本大小如何影响统计结果精确性
一天,我在漫无目的地游走于数据的海洋中,突然有位科研小伙伴跑来问我:“为啥样本大小会影响统计检验结果的精确性呢?”哎呀,这不是小菜一碟嘛!但怎么回答才能展现出我的风采呢?我不就是那个总爱在数据世界里溜达的数据侠客吗!
J3
269 1
样本大小如何影响统计结果精确性
下一篇
无影云桌面