0 目的(意义)
拟合优度检验是用卡方统计量进行统计显著性检验的重要内容之一。它是依据总体分布状况,计算出分类变量中各类别的期望频数,与分布的观察频数进行对比,判断期望频数与观察频数是否有显著差异,从而达到从分类变量进行分析的目的。
用来检验观测数与依照某种假设或分布模型计算得到的理论数之间一致性的一种统计假设检验,以便判断该假设或模型是否与实际观测数相吻合。
1基础知识
1.1独立性检验
对于两个分类变量的分析,主要判断两个分类变量是否独立。
比如:学生存在逃课情况,又有性别之分,是否逃课和性别是两个分类变量。
独立性检验关心两者是否有关联,是不是某个性别的学生逃课更加频繁。
1.2检验统计量
拟合优度检验
由于卡方检验的目标是检查观测频数与期望频数之间的差异性水平,因此卡方检验的核心内容就是计算出观测值的频数与期望频数总体差距的统计量,就是卡方距离。这个距离可以通过“观测值频数与期望频数差值的平方与期望频率之比的累积和”来体现:
卡方值越大,表示距离越大,差异性越强。可以根据卡方值查表推导出卡方检验的概率值,然后根据概率值判定卡方检验的判断结论。
1.3 sig值、p值
- P值代表:用来判定假设检验结果的一个参数,也可以根据不同的分布使用分布的拒绝域进行比较。
- sig值包含p值。数据的显著性(sig)是“显著的”、“中度显著的”还是“高度显著的”需要自己根据P值的大小与显著性水平(0.05或0.01)进行相比较。如果P值0.01<P<0.05,则为差异显著,如果P<0.01,则差异极显著。
2拟合优度检验基本步骤
问题:某餐厅老板想了解顾客最喜欢吃的主食,因此对120位顾客进行调查,结果见下方表。评价顾客在四种主食中是否存在明显偏好(α=0.05)
2.1 提出假设检验,建立检验标准
H0:观察频数与期望频数一致(无明显偏好)
H1:观察频数与期望频数不一致(有明显偏好)
2.2 确定检验统计量
这里因为是单变量拟合优度检验,确定统计量为卡方,该统计量服从自由度为3的卡方分布。
2.3列表,带入数据计算
因此得到检验统计量卡方为2.2,由于自由度为3,显著水品α=0.05的临界值为7.815。
所以,未落入拒绝域,即符合原假设,即顾客在4种主食中选择无明显偏好。
当然也可用p值法这里就不展开了。