开发者学堂课程【人工智能必备基础:概率论与数理统计:卡方检验】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/545/detail/7450
卡方检验
一、卡方检验( Chi-square test )
用于检验两个(或多个)率或构成比之间差别是否有统计学意义,配对卡方检验检验配对计数资料的差异是否有统计学意义。
基本思想:
检验实际频数( A ) 和理论频数( T )的差别是否由抽样误差所引起的。也就是由样本率(或样本构成比)来推断总体率或构成比。
实例:
两种药物治疗胃溃疡有效率的比较
原假设是用了 A 药和 B 药的有效率是相同的,所以就都认为是 66.67%。A 药有效值理论是 85 乘以 66.67,B 药有效值理论是 48 乘以 66.67。
理论频数与实际频数的差别:
ARC 是位于 R 行 C 列交叉处的实际频数,TRC 是位于 R 行 C 列交叉处的理论频数。( ARC-TRC ) 反映实际频数与理论频数的差距,除以 TRC 为的是考虑相对差距。所以,x^2 值反映了实际频数与理论频数的吻合程度,x^2 值大,说明实际频数与理论频数的差距大。x^2 值的大小除了与实际频数和理论频数的差的大小有关外,还与它们的行、列数有关。即自由度的大小。
理论频数根据假设来计算的:
无效假设是 A 药组与 B 药组的总体相等,均等于合计的阳性率66 67% (110/165)。那么理论上,A 药组的 85 例中阳性人数应为85(110/165)=56.67. 阴性人数为 85(55/165)=28.33: 同理,B 药组的 80 例中阳性人数应为 80(110/165)=53.33, 阴性人数为: 80(55/165)=26.67.
一般的四格表:
基本公式:
若检验假设 H0: π1=π2 成立,四个格子的实际频数 A 与理论频数 T 相差不应该很大,即统计量 x2 不应该很大。如果 x2 值很大,即相对应的 P 值很小,若 P<=α,则反过来推断 A 与 T 相差太大,超出了抽样误差允许的范围,从而怀疑 H0 的正确性,继而拒绝 H0,接受其对立假设 H1,即 π1≠π2 。
实例:
某药晶检验所随机抽取 574 名成年人,研究抗生素的耐药性(资料如表8-11)。问两种人群的耐药率是否一致?
(1) 建立假设并确定检验水准
HO: 两种人群对该抗生素的耐药率相同,即 π1 = π2; (两总体率相等)
H1: 两种人群对该抗生素的耐药率不同,即 π1≠π2 ; ( 两总体不相等).
α=0.05
(2)计算检验统计量
(3)得出结果
在表确定 P 值,P>0.05, 得出结论。按 0.05 水准,不拒绝 H0, 可以认为两组人群对该抗生素的耐药率的差异无统计学意义。
卡方检验也可以放到特征选择中。