回归模型的显著性检验-1| 学习笔记

简介: 快速学习回归模型的显著性检验-1。

开发者学堂课程【机器学习算法 :回归模型的显著性检验-1】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/535/detail/7193


回归模型的显著性检验-1

 

内容介绍

一、回归系数是否显著:t 检验

二、回归方程是否显著:F 检验

 

一、回归系数是否显著:t 检验

在之前介绍假设检验的时候,讲过在做模型检验的时候,不能直接用等或不等做一个判断。因为模型存在很多的随机性,判断模型的好坏时,也要考虑随机因素带来的影响,这里看一下如何对线性回归的模型(一元线性回归的模型)进行的假设检验。

首先上一章讲了最小二乘估计对模型的参数估计,有两种数据x、y。用x、y做的点图,做了一条线性回归的直线,用最小二乘法得到的公式,根据样本得到估计值,image.png代入。算出x的均值是3.28,y的均值是26.4133代入得:image.png等于4.919,利用image.png计算得到image.png=10.278。最终的回归方程为:y=10.278+4.919x。之后是判断这个方程有没有意义,很难直接判断,这就用到了假设检验是否显著,用到t检验。

因变量 y 和自变量 x 之间是否存在线性关系,即image.png是否等于0,使用 t 检验进行判断。如果image.png等于0,实际上就没有关系,这个方程拟合大再好也没有用,因为这个线性关系有可能是由随机因素造成的,所以使用 t 检验来进行详细的回归系数的检验。

确定假设:搜集数据的目的是为了找到结论不正确的证据,即原假设image.png(就是说x和y之间没有线性关系),备择假设image.png(实际上y和x之间存在线性关系)。现在需要搜集证据来证明image.png不正确,也就是x与y之间有线性关系。如果找不到原假设成立的证据,是不是可以认为原假设成立,这是不一定。只是说在现有的数据下,所掌握的数据不能证明原假设不成立,可能要更多的证据来证明。

确定检验水平:采取最常用的image.png=0.05,或者是更严格的image.png=0.01

构造统计量:image.png成立时:image.png(0是均值,方差为image.png的正态分布。之前讲image.png满足正态分布,但均值不是0,之前的均值是image.png,这是在前提下原假设令它为0)构造t统计量:image.pngimage.png

比较 p值和image.png值:计算t统计量,符合自由度n-2的 t 分布,双尾检测(等于做两次检测,大于小于做一次检测),查邻接表,找到p值

得到结论:p值若大于α值,不能拒绝原假设。即通过本次采样得到的样本数据,并不能证明原假设 Ho 不成立,即本次得到的回归系数β;无显著统计意义,需重新建模。

计算统计量:image.png

比较p值和值:计算t统计量,符合自由度 n-2 的 t 分布,双尾检测image.png的t值为2.16。就是黄色底色所在的一行,和红色框中的交叉点

得到结论:t统计量大于查表值,拒绝原假设image.png,接受备择假设image.png。自由度为13时,随着p值得增大,α值越来越小,说明满足原假设得概率是非常小的,就可以推翻原假设,接受备择假设,就认为x、y之间存在线性关系。

image.png

也可以计算p值:t=12.525,degree=13,双尾检测,image.png

得到结论:image.png,拒绝原假设image.png,接受备择假设image.png

通过回归系数的t检验,认为回归系数是显著的,也就是在统计学中有意义,或者说认为是存在线性关系。

 

二、回归方程是否显著:F 检验

首先对下列公式进行推导,y 的估计值减去y 的平均值的平方求和,补了一项再减去一项,是为了凑项,这是为了得到满足期望的结论,这对整个的结果是没有影响的。拆开就变成了y 的第 i 项减去 y 的 height 的平方加上后面两个项的平方,再加上两倍的这两组合的乘积。

它展开就等于下图中的第一步结果,之后image.png就变成了第二步的结果。X 是是样本中的平均值在求和,最后的值等于0.所以最的整个式子就变为了第三行的公式。第三行中,第一项叫做总离差平方和,sum of suquares for total简称为 SST;第二项叫做残差平方和,sum of suquares for error简称为SSE;第三项叫做回归平方和,sum of suquares for regressionin简称为SSR。

SST=SSE+SSR

SST :因变量y的波动程度(不确定性),SSR:由自变量x引起的波动,SSE:由其他来控制因素引起

image.png

F 检验是根据平方和分解式,直接从回归效果检验回归方程的显著性。由平方和分解式可得到 SSR 越大,回归效果越好,据此构造F统计量。一共有三个波动,总体的波动等于未控制因素的波动,如果它为0的话。也就是y的所有变化是由x和x的系数的结合全部表示出来的效果是最好的。

image.png

确定假设:我们搜集数据是为了找到不达标的证据,即原假设image.png,备择假设image.png。这可能会有疑问关于这个假设和之前回归系数方差的假设是一样的,实际上是一元线性回归方程,肯定是不检查一个未知量,比如有三个变量就应该是检查三个变量的线性回归系数是否显著。在一元的时候就检查回归方程和变量是一样的,在多元的结果是不一样的,会在后续讲到。

确定检验水平:采取最常用的 α=0.05

计算统计量:计算F统计量,原假设Ho其服从自由度为(k-1,T-k)

下图中的表体现三者之间的关系。

image.png

或者是直接计算p值,F=156.9,degree=(1.13),image.png

得到结论image.png,拒绝原假设image.png,接受备择假设image.png

相关文章
|
8月前
|
机器学习/深度学习 数据可视化
数据分享|R语言逻辑回归Logisitc逐步回归训练与验证样本估计分析心脏病数据参数可视化
数据分享|R语言逻辑回归Logisitc逐步回归训练与验证样本估计分析心脏病数据参数可视化
|
8月前
|
机器学习/深度学习 数据可视化
R语言Stan贝叶斯回归置信区间后验分布可视化模型检验|附数据代码
R语言Stan贝叶斯回归置信区间后验分布可视化模型检验|附数据代码
|
8月前
|
机器学习/深度学习 存储 5G
R语言回归中的Hosmer-Lemeshow拟合优度检验
R语言回归中的Hosmer-Lemeshow拟合优度检验
|
8月前
R语言Poisson回归的拟合优度检验
R语言Poisson回归的拟合优度检验
|
8月前
R语言t检验和非正态性的鲁棒性
R语言t检验和非正态性的鲁棒性
|
8月前
|
数据挖掘
SPSS单样本t检验
SPSS单样本t检验
73 0
|
8月前
|
数据挖掘
SPSS单样本K-S检验
SPSS单样本K-S检验
90 0
|
数据采集 知识图谱
4-1预测与回归
4-1预测与回归
129 0
4-1预测与回归
|
机器学习/深度学习
多重共线性检验-方差膨胀系数(VIF)-相关系数(机器学习)sklearn
多重共线性检验-方差膨胀系数(VIF)-相关系数(机器学习)sklearn
524 0
多重共线性检验-方差膨胀系数(VIF)-相关系数(机器学习)sklearn
|
机器学习/深度学习 数据可视化 Python
多元线性回归的模型解释、假设检验、特征选择(一)
多元线性回归的模型解释、假设检验、特征选择(一)
280 0
多元线性回归的模型解释、假设检验、特征选择(一)