【数理统计】一题了解假设检验

简介: 【数理统计】一题了解假设检验

0 目的(意义)


假设检验和参数估计都是推断统计的重要内容,但是两者的角度不同:

参数估计是利用样本信息推断未知的总体参数;

假设检验是先对总体参数提出一个假设,然后利用信息进行验证。


1基础知识


1.1 原假设与备择假设

  • 原假设:除非收集充足的证据证明其错误,否则都不予以拒绝的假设,也称之为零假设,一般用H0来表示
  • 备择假设:只有收集到足够的证据证明其正确才会被接受的假设,也称为研究假设。


1.2 两类错误

image.png

假设嫌疑犯面临死刑判决,我们假设如下:H0:无罪,H1:有罪


那么这两类错误相当于:

  • 第一类错误:错杀了好人
  • 第二类错误:放走了坏人


从这里可以看出,第一类错误更严重(人死不能复生,而坏人放了还可以再抓)。在实际应用中也是,首先控制第一类错误,然后再去控制第二类错误(因为这两个错误的发生概率不能同时降低)。


1.3 置信水平与显著性水平

首先,置信水平和置信度应该是一样的,就是变量落在置信区间的可能性,“置信水平”就是相信变量在设定的置信区间的程度,是个0~1的数,用1-α表示。

置信区间,就是变量的一个范围,变量落在这个范围的可能性是就是1-α。

显著性水平就是变量落在置信区间以外的可能性,“显著”就是与设想的置信区间不一样,用α表示。


显然,显著性水平与置信水平的和为1。

显著性水平为0.05时,α=0.05,1-α=0.95

如果置信区间为(-1,1),即代表变量x在(-1,1)之间的可能性为0.95。

0.05和0.01是比较常用的,但换个数也是可以的,计算方法还是不变。


总之,置信度越高,显著性水平越低,代表假设的可靠性越高,越好。


1.4 检验统计量

前面文章有叙述过,可回顾。

image.png


1.5 拒绝域

拒绝域大小与显著性水平有关。如果检验统计量落入拒绝域,拒绝原假设。否则就接受原假设。


1.6标准正态分布表

0d7c6ffcfd5c4df7855f3f1771ed3b61.png


2 假设检验的流程


例题:在一家餐饮公司中长期以来,顾客从点餐到上菜平均要等待10min。该餐厅经理为了检验最近餐厅的服务情况,对最近一周顾客平均等餐时间进行调查。


2.1 提出原假设和备择假设

  • 原假设:μ=10min
  • 备择假设:μ≠10min


2.2 确定显著性水平及样本容量

该经理根据实际情况确定显著性水平α=0.05,样本容量n=100


2.3抽取样本获得样本数据(样本均值、方差)

抽取100个顾客,将他们的等餐时间作为一个样本,发现

image.png

2.4检验统计量

选择检验统计量,需要根据样本情况来选择。

  • 总体方差已知——Z检验
  • 总体方差未知
  1. 大样本——Z检验
  2. t检验

例题中总体方差未知,但n>30为大样本,因此使用Z检验。

image.png

带入数值得,z=1.714.


这也意味着点估计量(X拔)与假设的总体参数(平均上菜时间10min)相差了1.714个标准差的距离


2.5做出统计决策

在得到样本统计量之后,我们需要针对其做出统计决策。方法有两种:

  1. 临界值法
  2. p值法


第一种方法是我们考试中经常考察的。


临界值法

根据实现给定的显著性水平,就可以在统计量分布上找到相应的临界值,一般查表可知。


在上述例题中,由于采用双侧检验的方法,根据显著性水平α=0.05,可得对应的临界值为1.96。该样本的检验统计量为1.71,没有落入拒绝域。


因此,不拒绝原假设,即可以认为上菜平均等待时间不超过10min。


用临界值法进行决策的优点是界限清晰,但是无法给出观测数据与原假设之间不一致程度的精确度量,为了精确反应决策的风险程度,可以利用下方的P值法。


P值法

方法:在已知p值得条件下,将其与给定的显著性水平α的值进行比较,来确定是否拒绝原假设。


如果p值<α,拒绝H0;如果p值>α,接受H0.

image.png


例题中,z=1.714,通过查表可知统计量的值大于1.714的概率为:


1-0.956=0.044,


由于是双侧检验,所以p值为0.044+0.044=0.088>α,因此不拒绝H0.


利用p值进行决策的方法给出了犯错误的实际概率,这是临界值法所不具备的,因此在实际中P值法更为常用。


References

1、假设检验的基本概念 (matongxue.com)

2、《商务统计分析》机械工业出版社

目录
相关文章
|
5月前
线性代数——(期末突击)概率统计习题(概率的性质、全概率公式)
线性代数——(期末突击)概率统计习题(概率的性质、全概率公式)
45 1
|
6月前
|
算法 测试技术 C++
【动态规划】【数学】【C++算法】18赛车
【动态规划】【数学】【C++算法】18赛车
|
算法
基础算法:离散化的基本应用
基础算法:离散化的基本应用
110 0
|
容器
数学|泊松分酒问题蕴藏的数学知识
数学|泊松分酒问题蕴藏的数学知识
194 0
概率论|贝叶斯公式及其推论的理解和运用
概率论|贝叶斯公式及其推论的理解和运用
171 0
数论整理之唯一质因子分解方程
数论整理之唯一质因子分解方程
|
算法 C++ 容器
基础算法-离散化
1. 离散化简介 离散化,把无限空间中有限的个体映射到有限的空间中去,以此提高算法的时空效率。通俗的说,离散化是在不改变数据相对大小的条件下,对数据进行相应的缩小。 离散化本质上可以看成是一种哈希,其保证数据在哈希以后仍然保持原来的全/偏序关系。 当有些数据因为本身很大或者类型不支持,自身无法作为数组的下标来方便地处理,而影响最终结果的只有元素之间的相对大小关系时,我们可以将原来的数据按照从大到小编号来处理问题,即离散化。 本文针对 整数、有序数组 进行离散化。
【数理统计】一题了解拟合优度检验
【数理统计】一题了解拟合优度检验
316 0
【数理统计】一题了解拟合优度检验
【数理统计】从协方差到相关系数,原来如此
【数理统计】从协方差到相关系数,原来如此
147 0
【数理统计】从协方差到相关系数,原来如此
|
机器学习/深度学习 算法 开发者
贝叶斯公式| 学习笔记
快速学习贝叶斯公式。
贝叶斯公式| 学习笔记
下一篇
无影云桌面