开发者学堂课程【机器学习算法 :回归模型的显著性检验-1】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/535/detail/7193
回归模型的显著性检验-1
内容介绍
一、回归系数是否显著:t 检验
二、回归方程是否显著:F 检验
一、回归系数是否显著:t 检验
在之前介绍假设检验的时候,讲过在做模型检验的时候,不能直接用等或不等做一个判断。因为模型存在很多的随机性,判断模型的好坏时,也要考虑随机因素带来的影响,这里看一下如何对线性回归的模型(一元线性回归的模型)进行的假设检验。
首先上一章讲了最小二乘估计对模型的参数估计,有两种数据x、y。用x、y做的点图,做了一条线性回归的直线,用最小二乘法得到的公式,根据样本得到估计值,代入。算出x的均值是3.28,y的均值是26.4133代入得:等于4.919,利用计算得到=10.278。最终的回归方程为:y=10.278+4.919x。之后是判断这个方程有没有意义,很难直接判断,这就用到了假设检验是否显著,用到t检验。
因变量 y 和自变量 x 之间是否存在线性关系,即是否等于0,使用 t 检验进行判断。如果等于0,实际上就没有关系,这个方程拟合大再好也没有用,因为这个线性关系有可能是由随机因素造成的,所以使用 t 检验来进行详细的回归系数的检验。
确定假设:搜集数据的目的是为了找到结论不正确的证据,即原假设(就是说x和y之间没有线性关系),备择假设(实际上y和x之间存在线性关系)。现在需要搜集证据来证明不正确,也就是x与y之间有线性关系。如果找不到原假设成立的证据,是不是可以认为原假设成立,这是不一定。只是说在现有的数据下,所掌握的数据不能证明原假设不成立,可能要更多的证据来证明。
确定检验水平:采取最常用的=0.05,或者是更严格的=0.01
构造统计量:成立时:(0是均值,方差为的正态分布。之前讲满足正态分布,但均值不是0,之前的均值是,这是在前提下原假设令它为0)构造t统计量:
比较 p值和值:计算t统计量,符合自由度n-2的 t 分布,双尾检测(等于做两次检测,大于小于做一次检测),查邻接表,找到p值
得到结论:p值若大于α值,不能拒绝原假设。即通过本次采样得到的样本数据,并不能证明原假设 Ho 不成立,即本次得到的回归系数β;无显著统计意义,需重新建模。
计算统计量:
比较p值和值:计算t统计量,符合自由度 n-2 的 t 分布,双尾检测的t值为2.16。就是黄色底色所在的一行,和红色框中的交叉点
得到结论:t统计量大于查表值,拒绝原假设,接受备择假设。自由度为13时,随着p值得增大,α值越来越小,说明满足原假设得概率是非常小的,就可以推翻原假设,接受备择假设,就认为x、y之间存在线性关系。
也可以计算p值:t=12.525,degree=13,双尾检测,
得到结论:,拒绝原假设,接受备择假设
通过回归系数的t检验,认为回归系数是显著的,也就是在统计学中有意义,或者说认为是存在线性关系。
二、回归方程是否显著:F 检验
首先对下列公式进行推导,y 的估计值减去y 的平均值的平方求和,补了一项再减去一项,是为了凑项,这是为了得到满足期望的结论,这对整个的结果是没有影响的。拆开就变成了y 的第 i 项减去 y 的 height 的平方加上后面两个项的平方,再加上两倍的这两组合的乘积。
它展开就等于下图中的第一步结果,之后就变成了第二步的结果。X 是是样本中的平均值在求和,最后的值等于0.所以最的整个式子就变为了第三行的公式。第三行中,第一项叫做总离差平方和,sum of suquares for total简称为 SST;第二项叫做残差平方和,sum of suquares for error简称为SSE;第三项叫做回归平方和,sum of suquares for regressionin简称为SSR。
SST=SSE+SSR
SST :因变量y的波动程度(不确定性),SSR:由自变量x引起的波动,SSE:由其他来控制因素引起
F 检验是根据平方和分解式,直接从回归效果检验回归方程的显著性。由平方和分解式可得到 SSR 越大,回归效果越好,据此构造F统计量。一共有三个波动,总体的波动等于未控制因素的波动,如果它为0的话。也就是y的所有变化是由x和x的系数的结合全部表示出来的效果是最好的。
确定假设:我们搜集数据是为了找到不达标的证据,即原假设,备择假设。这可能会有疑问关于这个假设和之前回归系数方差的假设是一样的,实际上是一元线性回归方程,肯定是不检查一个未知量,比如有三个变量就应该是检查三个变量的线性回归系数是否显著。在一元的时候就检查回归方程和变量是一样的,在多元的结果是不一样的,会在后续讲到。
确定检验水平:采取最常用的 α=0.05
计算统计量:计算F统计量,原假设Ho其服从自由度为(k-1,T-k)
下图中的表体现三者之间的关系。
或者是直接计算p值,F=156.9,degree=(1.13),
得到结论,拒绝原假设,接受备择假设