回归模型的显著性检验-2| 学习笔记

简介: 快速学习回归模型的显著性检验-2。

开发者学堂课程【机器学习算法 :回归模型的显著性检验-2】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/535/detail/7194


回归模型的显著性检验-2

 

内容介绍

一、相关系数显著性检验:t检验

二、决定系数

 

一、相关系数显著性检验:t 检验

相关系数( Correlation   Coefficient )由卡尔·皮尔逊设计的统计指标,描述了变量之间线性相关程度的量,一般用字母r表示,有多种定义方式,一般是指皮尔逊相关系数。

一般常说的相关系数,就是指的是这个皮尔逊相关系数r

image.png

r的取值范围为[-1,1],r>0表示正相关(就是x每增加一个单位,y对应的增加一个单位),r<0表示负相关(x每增加一个单位,y对应的减少一个单位),r=0表示不相关(两者之间没有关系)。

如下图中的内容显示,第一个图中是正相关的,x、y之间的变化是相关的,x增大时y也增大,x减小时y也减小;负相关刚好相反,可以看到一些点在线周围,x增大时y减小,x减小时y增大。最右侧的就是看上去没有什么关系的,就是不相关。

image.png

样本相关系数:r可作为总体相关系数image.png的估计值,但从相关系数,image.png=0的总体中抽出的样本,计算其相关系数r,因为有抽样误差所以不一定是0,要判断不等于0的r值是来自image.png=0的总体还是来自image.png的总体,必须进行显著性检验。存在随机误差,要减少随机误差带来的影响。

确定假设:我们搜集数据是为了找到不达标的证据,即原假设image.png(就是说x和y之间没有线性关系),备择假设image.png(实际上y和x之间存在线性关系)。

确定检验水平:采取较为严格的的α=0.01

计算统计量:计算t统计量,原假设image.png成立,image.png

计算p值:n=15,r=0.9610,t=13.07,计算得到 image.png

(也可以查相关系数临界值表,查到α=0.01,degree=13对应的值为0.641,小于计算大得到的t值)

得到结论:image.png,拒绝原假设image.png,接受备择假设image.png

 

二、决定系数

通过平方和分解式 SST=SSR+SSE,SSR 占的比重越大,线性回归效果越好,即回归直线与样本观测值的拟合优度越好。定义回归平方和占总离差平方和的比例为决定系数(Coefficient of  Determination ),也称确定系数,记作 r²:image.png

决定系数是一个相对指标,取值在0~1之间,接近1表明回归方程拟合效果较好,但是需要注意几点:

样本量较小时,决定系数并不能真正反应实际情况,需要调整决定系数

决定系数较大,同样也不能肯定自变量与因变量之间关系就是线性的,可能曲线拟合更好,特别当自变量取值范围较小时,决定系数通常较大,可以做模型失拟检验(Lack of Fit Test)。在讲参数估计的时候,为了变得更好其中有一点就是在可取范围取得越快,回归系数的方差越小,回归模型就越好。所以这个系数大,就不一定是线性的,也可能回归系数较好。

决定系数较小,如果样本量较小,则得到线性回归不显著的结果,如果样本量较大,则会得到线性回归显著;最后改进回归,如增加自变量、尝试曲线回归拟合等。

有一个统计学家F.J.Anscombe他创造了四组数据,每个数据中就两个变量,x、y。x、y的均值都一样,并且经验回归方程相同:y=3+0.5x,决定系数image.png,F统计量相同。看上去这四组数据拟合应该可以,但实际上如下图所示。

image.png

看第四组数据,x只有一个值不一样,剩下全相等,但对应的y值都不一样,这肯定是存在问题的。

第一组数据的图,可以看出的效果还是可以的;第二个中会看到绝对值系数还可以但用一个曲线来更好;第三个看到将一个异常值把整个正常值带偏了,一般是将异常值忽略掉,这样对方程的拟合效果更好;第四个更为离奇,一个异常值直接

image.png

可以看到这四组数据的方差均值都一样,实际上这未必证明这个模型是好用的。这也是后续在学习中要解决。明白的一个问题。

相关文章
|
8月前
|
关系型数据库 MySQL 数据库
RDS用多了,你还知道MySQL主从复制底层原理和实现方案吗?
随着数据量增长和业务扩展,单个数据库难以满足需求,需调整为集群模式以实现负载均衡和读写分离。MySQL主从复制是常见的高可用架构,通过binlog日志同步数据,确保主从数据一致性。本文详细介绍MySQL主从复制原理及配置步骤,包括一主二从集群的搭建过程,帮助读者实现稳定可靠的数据库高可用架构。
431 9
RDS用多了,你还知道MySQL主从复制底层原理和实现方案吗?
|
10月前
|
人工智能 自然语言处理 搜索推荐
智能语音助手的发展与未来:开启人机交互的新篇章
智能语音助手的发展与未来:开启人机交互的新篇章
1617 28
时序图----购买商品的时序图画法
这篇文章介绍了如何绘制购买商品的时序图,包括用户(商家、顾客)与在线购物系统以及在线购物系统与第三方支付系统之间的交互过程。
时序图----购买商品的时序图画法
|
知识图谱 自然语言处理 算法
大语言模型 RAG 论文总结(2023~202404)(1)
大语言模型 RAG 论文总结(2023~202404)
622 0
|
自动驾驶 机器人 测试技术
CVPR 2024:分割一切模型SAM泛化能力差?域适应策略给解决了
【4月更文挑战第24天】CVPR 2024 论文提出了解决图像分割基础模型 SAM 在分布偏移下泛化能力不足的问题,通过弱监督自训练策略增强模型适应性和计算效率。在多种图像分割任务上超越预训练 SAM 和现有适应方法,但弱标签质量和数量可能限制性能,且需大量计算资源。[Improving the Generalization of Segmentation Foundation Model under Distribution Shift via Weakly Supervised Adaptation](https://arxiv.org/pdf/2312.03502.pdf)
394 1
|
SQL 存储 关系型数据库
必知的 MySQL 索引失效场景【包括实践验证】,别再踩坑了!(下)
必知的 MySQL 索引失效场景【包括实践验证】,别再踩坑了!
1407 2
|
存储 开发框架 JSON
uni-app 73聊天类封装(八)-添加聊天记录,在移动应用开发中,聊
uni-app是跨平台移动应用开发框架,简化了聊天功能的实现。开发聊天应用涉及数据存储(如IndexedDB、SQLite、云服务)、数据结构设计、消息发送(WebSocket或HTTP接口)、消息接收与展示(组件化开发,如`&lt;view&gt;`、`&lt;scroll-view&gt;`)及消息保存。通过uni-app的组件和插件,开发者能高效实现聊天记录的完整流程。[Read more](http://colorsound.cn/post/173.html?093671)
339 0
|
SQL 数据库
深入理解 SQL UNION 运算符及其应用场景
SQL UNION运算符用于组合两个或多个SELECT语句的结果集。 每个UNION中的SELECT语句必须具有相同数量的列。 列的数据类型也必须相似。 每个SELECT语句中的列也必须按照相同的顺序排列。
341 1
|
安全 Ubuntu
metasploitable2安装实战
metasploitable2安装实战
959 0
|
缓存 自然语言处理 搜索推荐
推荐一款优秀电商开源项目
推荐一款优秀电商开源项目
576 0
推荐一款优秀电商开源项目