回归模型的显著性检验-1| 学习笔记

简介: 快速学习回归模型的显著性检验-1。

开发者学堂课程【机器学习算法 :回归模型的显著性检验-1】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/535/detail/7193


回归模型的显著性检验-1

 

内容介绍

一、回归系数是否显著:t 检验

二、回归方程是否显著:F 检验

 

一、回归系数是否显著:t 检验

在之前介绍假设检验的时候,讲过在做模型检验的时候,不能直接用等或不等做一个判断。因为模型存在很多的随机性,判断模型的好坏时,也要考虑随机因素带来的影响,这里看一下如何对线性回归的模型(一元线性回归的模型)进行的假设检验。

首先上一章讲了最小二乘估计对模型的参数估计,有两种数据x、y。用x、y做的点图,做了一条线性回归的直线,用最小二乘法得到的公式,根据样本得到估计值,image.png代入。算出x的均值是3.28,y的均值是26.4133代入得:image.png等于4.919,利用image.png计算得到image.png=10.278。最终的回归方程为:y=10.278+4.919x。之后是判断这个方程有没有意义,很难直接判断,这就用到了假设检验是否显著,用到t检验。

因变量 y 和自变量 x 之间是否存在线性关系,即image.png是否等于0,使用 t 检验进行判断。如果image.png等于0,实际上就没有关系,这个方程拟合大再好也没有用,因为这个线性关系有可能是由随机因素造成的,所以使用 t 检验来进行详细的回归系数的检验。

确定假设:搜集数据的目的是为了找到结论不正确的证据,即原假设image.png(就是说x和y之间没有线性关系),备择假设image.png(实际上y和x之间存在线性关系)。现在需要搜集证据来证明image.png不正确,也就是x与y之间有线性关系。如果找不到原假设成立的证据,是不是可以认为原假设成立,这是不一定。只是说在现有的数据下,所掌握的数据不能证明原假设不成立,可能要更多的证据来证明。

确定检验水平:采取最常用的image.png=0.05,或者是更严格的image.png=0.01

构造统计量:image.png成立时:image.png(0是均值,方差为image.png的正态分布。之前讲image.png满足正态分布,但均值不是0,之前的均值是image.png,这是在前提下原假设令它为0)构造t统计量:image.pngimage.png

比较 p值和image.png值:计算t统计量,符合自由度n-2的 t 分布,双尾检测(等于做两次检测,大于小于做一次检测),查邻接表,找到p值

得到结论:p值若大于α值,不能拒绝原假设。即通过本次采样得到的样本数据,并不能证明原假设 Ho 不成立,即本次得到的回归系数β;无显著统计意义,需重新建模。

计算统计量:image.png

比较p值和值:计算t统计量,符合自由度 n-2 的 t 分布,双尾检测image.png的t值为2.16。就是黄色底色所在的一行,和红色框中的交叉点

得到结论:t统计量大于查表值,拒绝原假设image.png,接受备择假设image.png。自由度为13时,随着p值得增大,α值越来越小,说明满足原假设得概率是非常小的,就可以推翻原假设,接受备择假设,就认为x、y之间存在线性关系。

image.png

也可以计算p值:t=12.525,degree=13,双尾检测,image.png

得到结论:image.png,拒绝原假设image.png,接受备择假设image.png

通过回归系数的t检验,认为回归系数是显著的,也就是在统计学中有意义,或者说认为是存在线性关系。

 

二、回归方程是否显著:F 检验

首先对下列公式进行推导,y 的估计值减去y 的平均值的平方求和,补了一项再减去一项,是为了凑项,这是为了得到满足期望的结论,这对整个的结果是没有影响的。拆开就变成了y 的第 i 项减去 y 的 height 的平方加上后面两个项的平方,再加上两倍的这两组合的乘积。

它展开就等于下图中的第一步结果,之后image.png就变成了第二步的结果。X 是是样本中的平均值在求和,最后的值等于0.所以最的整个式子就变为了第三行的公式。第三行中,第一项叫做总离差平方和,sum of suquares for total简称为 SST;第二项叫做残差平方和,sum of suquares for error简称为SSE;第三项叫做回归平方和,sum of suquares for regressionin简称为SSR。

SST=SSE+SSR

SST :因变量y的波动程度(不确定性),SSR:由自变量x引起的波动,SSE:由其他来控制因素引起

image.png

F 检验是根据平方和分解式,直接从回归效果检验回归方程的显著性。由平方和分解式可得到 SSR 越大,回归效果越好,据此构造F统计量。一共有三个波动,总体的波动等于未控制因素的波动,如果它为0的话。也就是y的所有变化是由x和x的系数的结合全部表示出来的效果是最好的。

image.png

确定假设:我们搜集数据是为了找到不达标的证据,即原假设image.png,备择假设image.png。这可能会有疑问关于这个假设和之前回归系数方差的假设是一样的,实际上是一元线性回归方程,肯定是不检查一个未知量,比如有三个变量就应该是检查三个变量的线性回归系数是否显著。在一元的时候就检查回归方程和变量是一样的,在多元的结果是不一样的,会在后续讲到。

确定检验水平:采取最常用的 α=0.05

计算统计量:计算F统计量,原假设Ho其服从自由度为(k-1,T-k)

下图中的表体现三者之间的关系。

image.png

或者是直接计算p值,F=156.9,degree=(1.13),image.png

得到结论image.png,拒绝原假设image.png,接受备择假设image.png

相关文章
|
数据库
【latex】在Overleaf的IEEE会议模板中,快速插入参考文献
【latex】在Overleaf的IEEE会议模板中,快速插入参考文献
3366 1
|
2月前
|
机器学习/深度学习 自然语言处理 BI
阿里云开发者必备:GPT 从核心原理到企业级部署的全流程指南
GPT基于Transformer解码器架构,通过BPE分词、遮蔽自注意力与堆叠解码器实现自回归生成。结合指令微调与领域适配,已在汽车BI、开发者工具等场景落地。阿里云提供从模型训练到轻量化部署的全链路支持,推动GPT在产业智能化中的深度融合与应用创新。(238字)
441 2
|
8月前
|
机器学习/深度学习 算法 关系型数据库
强化学习:动态规划求解最优状态价值函数——手把手教你入门强化学习(四)
本文介绍了基于模型的强化学习算法,重点讲解动态规划(DP)。动态规划通过分解问题为子问题求解状态价值函数,利用贝尔曼期望方程迭代更新。其核心性质包括最优子结构和重叠子问题,适用于已知转移概率和奖励的MDP场景。文章回顾了前期强化学习基础,并展望了后续内容如蒙特卡罗法。适合初学者系统了解强化学习算法原理与应用。
303 7
|
机器学习/深度学习 搜索推荐 数据挖掘
深度学习之因果关系建模
基于深度学习的因果关系建模是一项旨在通过深度学习技术识别和理解数据之间因果关系的研究领域。因果关系建模不仅仅关注变量之间的相关性,还希望揭示导致某种结果的根本原因。
513 2
|
机器学习/深度学习 数据采集 人工智能
深度学习之稳健的模型推理与不确定性建模
基于深度学习的稳健模型推理与不确定性建模,是现代AI系统中至关重要的研究方向。随着深度学习在各类应用中的成功,如何保证模型在面对未知或不确定性输入时仍能做出稳健的推理,并能够量化这种不确定性,成为关键问题。稳健性与不确定性建模可以提高模型的安全性、可靠性,尤其在自动驾驶、医疗诊断等高风险领域。
493 0
|
安全 Oracle 关系型数据库
看完这篇 教你玩转渗透测试靶机vulnhub——FunBox4(CTF)
看完这篇 教你玩转渗透测试靶机vulnhub——FunBox4(CTF)
492 1
看完这篇 教你玩转渗透测试靶机vulnhub——FunBox4(CTF)
|
前端开发 数据安全/隐私保护
若依框架添加出入参加密解密
若依框架添加出入参加密解密
2042 0
|
机器学习/深度学习 人工智能 分布式计算
因果推断:效应估计的常用方法及工具变量讨论
日常工作中很多的策略/产品的效果是无法设计完美的随机实验的,要求我们从观察性数据中去(拟合随机试验)发现因果关系、测算因果效应。
2651 0
因果推断:效应估计的常用方法及工具变量讨论
|
机器学习/深度学习 算法
R语言非参数方法:使用核回归平滑估计和K-NN(K近邻算法)分类预测心脏病数据
R语言非参数方法:使用核回归平滑估计和K-NN(K近邻算法)分类预测心脏病数据