开发者学堂课程【机器学习算法 :比较检验-3】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/535/detail/7180
比较检验-3
内容介绍
一、假设检验的例子:二项式检验
二、T 检验
三、原理
四、假设检验在模型比较中的应用
一、假设检验的例子:二项式检验
某工厂的一批产品,其次品率 μ 未知,按规定,如果 μ≤0.01,则该批产品可以接受。随机取样品100个,发现有3件次品,该批次产品是否达标?
如果不用假设检验,会发现100个样品会有三个次品。次品率是0.03,不达标。但是其中有一些不确定因素。这些因素会不会有影响?
确定假设:我们搜集数据是为了找到不达标的证据,即原假设Ho:μ<=0.0.1,备择假设H1:μ>0.01
确定检验水平:采取最常用的 α=0.05,或者严格的 α=0.01
构造统计量:产品是否符合二项式分布,原假设成立,则满足 b(k;n,001)
计算 P 值:即
得到结论:P 值大于显著水平 α,不能拒绝原假设(不能说次品率大于0.01),即通过本次采样得到的样本数据,并不能证明原假设 H0 不成立。
不能证明 H0 不成立,也不能证明 H0 成立。总之目前次品率到底是低于0.01还是高于0.01,在没有数据之前,没有任何结论。所以假设结论是和直觉没有关系的,是有区别的。
二、T 检验
某网站为了搞了一波市场活动,活动前一周的 PV(单位:万)为 1.40, 1.38, 1.43, 1.42,1.44,1.37,1.41,活动后六天的 PV(单位:万)为 1.35,1.40, 1.42, 1.36, 1.38,1.40。活动对 PV 有无彤响?
假设活动前后 PV 均符合正态分布,且方差相同。(这个问题比较常见)
确定假设:(双维检测)通过数据证明两者不同,即原假设 H0:U1=U2,备择假设 H1:U1 不等于 U2
确定检验水平:采取最常用的 α=0.05
构造统计量:两者均符合正态分布,且相等,方差未知(小于30个),使用T检验;Y 检验量如下:代入求T检验量的值为:T=1.525
接下来查表:
自由度是11.所以查出来是2.201.
计算 P 值,确定拒绝域:查 T 分布临界值表,T0.025/4=2.201,所以有T<T0.025/4,即P>0.05
得出结论:P 值大于显著水平 α。不能拒绝原假设。即无法证明活动有效。(不能拒绝原假设,需要收集更多的数据来进一步检验活动效果)
三、原理
1、原假设怎样设定;(相等,不相等,差异性)
2、提高,增加,降低如何选择;
3、原假设是希望收集数据推翻的,如果假设成立(当前的事情发生的概率大小,当然我们希望当前假设将原假设推翻)。如果证据无法推翻原假设,那就既证明原假设成立,也不能证明原假设不成立。
四、假设检验在模型比较中的应用
以一元线性回归为例,可以使用假设检验作如下比较和推断:
1、回归系数的显著性检验:y=β0+β1x(判断回归系数有无价值)
(1)检验自变量 x 对因变量 y 的影响程度是否显著(若影响不显著 β1 这一项就可以取消,说明 y 和 x 没有关系)
(2)假设误差 ε 满足均值为0的正态分布,原假设:H0:β1=0 备择假设:H:β1 不等于0
(3)使用 T 检验,如果原假设成立,则x和y并无线性关系(我们希望推翻 β1=0,可以证明 x 和y有关系)
2、回归方程的显著性检验:y=β0+β1x(检验方程本身有没有意义,原假设 β1=0.注意:一元线性回归只有一个参数,所以检测回归方程和回归系数是一致的;如果是多元就不一样)
(1)根据平方和分解式从回归效果检验回归方程的显著性
(2)原假设:16:β1=0 备择假设:H1:β1不等于0
(3)使用F检验,如果原假设成立,则说明回归方程不显著,该方程并无实质意义
3、相关系数的显著性检验
(1)检验两变量之间是否真正相关,或两个相关系数之间的差异是否显著
(2) 原假设:Ho:ƿ=0 备择假设:H1:ƿ+0(只要确定原假设,确定统计量即可)