残差分析| 学习笔记

简介: 快速学习残差分析。

开发者学堂课程【机器学习算法 :残差分析】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/535/detail/7195


残差分析

 

内容简介

一、残差

二、残差图

三、残差的性质

四、残差改进

 

一、残差

以一元线性回归为例,回归拟合值就是建立一个模型之后,对使用模型对x对应的y值进行的一个预测,这个预测值就是回归拟合值。真实值和这个回归拟合值的差就是残差(Residual)。

残差的公式:image.png 残差平方和:image.png,把残差的公式代入得到后面的结果。

几个常见的“差”概念:

误差:真实值与模型输出值的差,image.png。正常来讲误差是不可测量的,公式中image.pngimage.png的真正的值是未知的,是要拿到所有的数据才能算出来。image.pngimage.png不知道就只能用估计值就是残差。另外误差的范围比较广泛,常见的误差一般来自于测量,有系统误差,还有测量方法没有选对,还有一些观测值因为读数造成的误差。这里说的是从全局角度来看的误差。它只能减小不能消除。

残差:真实值与模型拟合值(估计值)的差,即为误差的估计值:image.png

离差:真实值与模拟拟合值的期望(平均值)的差,离差平方和为:image.png。上一章讲F检验的时候讲过。

偏差:事实上的真实值(不可知)与估计值的差:image.png,所看到的值都是观测值

方差:模型估计值与模型估计值得期望(平均值)的方差:image.png

 

二、残差图

以自变量 x 为横轴,残差为纵轴,制作残差图,辅助对数据质量进行分析。如果一个模型满足所给出的基本假定,残差应该在0附近随机变化,且变化幅度不大,反之,则表明回归模型不满足基本假设。

1. 在0附近,小浮动的无规律波动。大部分情况下,会满足数据的基本假设;还有一小部分像上节课中的四组数据一样

2. 表面变量之前并非线性关系,可以看到模型预测的结果和真实值,这个真实值就是观测值就是样本里的取值,这之间的变化是一个曲线的,这个规律性很强,通常就不是一个线性的关系,没有通过模型表现出来,建议使用非线性模型来检查回归。

3. 表面因变量的方差值不相同。可以看到随着x的变化,残差越来越大,就不是等方差的。即残差的方差和x的取值有关

4. 蛛网现象,表明因变量自相关。可能还要做一些别的处理。

image.png

5. Anscombe Quartet 的残差图。上面是原来做的一个把所有样本数据拟合在一起的图,下面是在这节课中做的残差图。第一个可以看到下面的残差图基本上是在0上下浮动,这对第一个数据模型来说是很有用的。第二个可以看到是一个很有个规律的虚线,就证明在这个数据集中 x、y 不单单是一个线性关系,所有不能用一元线性回归建模。就是说残差中如果还有未提取的东西,就需要重新建模。这就建议使用非线性的数据模型。第三个可以看到有一个异常值,实际上不考虑异常值的话,把整个做一个调整是可以看到残差基本上为0,算拟合的比较好。第四个实际上并不符合线性回归模型,可以看到残杀是十分诡异的。就是这四个数据集除了均值、方差、拟合优度、残差分析,就可以看到这个模型并不是一样的。

image.png

三、残差的性质

残差的期望:

image.png

残差的约束条件

image.png

残差的方差

image.png,其中image.png称为杠杆值,取值(0,1)

image.png越接近image.png杠杆值image.png越接近0,残差就越大

image.png越远离image.png杠杆值image.png越接近1,残差就越小

image.png

 

四、残差改进

残差改进方法:

标准化残差 image.png

标准化使残差可比

可用其判断异常值,image.png

无法处理方差不等的问题

学生化残差  image.png

解决了方差不等的问题

可根据image.png判断异常值

image.png

相关文章
|
数据采集 存储 分布式计算
如何在Python中处理大规模数据集,以避免内存溢出?
如何在Python中处理大规模数据集,以避免内存溢出?
499 1
|
移动开发 Python
Bartlett 球 形检验
Bartlett 球 形检验
2660 4
|
9月前
|
人工智能 自然语言处理 安全
新浪微博AIGC业务应用探索-AIGC应用平台助力业务提效实践
本次分享围绕AIGC技术在新浪微博的应用展开,涵盖四个部分。首先分析AIGC为微博带来的机遇与挑战,特别是在内容安全和模型幻觉等问题上的应对策略;其次介绍通过工程架构快速实现AIGC技术落地的方法,包括统一部署模型和服务编排;接着展示AIGC在微博的具体应用场景,如评论互动、视频总结和智能客服等;最后展望未来,探讨大模型的发展趋势及其在多模态和特定业务场景中的应用前景。
|
6月前
|
缓存 并行计算 数据处理
全面提升Python性能的十三种优化技巧
通过应用上述十三种优化技巧,开发者可以显著提高Python代码的执行效率和性能。每个技巧都针对特定的性能瓶颈进行优化,从内存管理到并行计算,再到使用高效的数值计算库。这些优化不仅能提升代码的运行速度,还能提高代码的可读性和可维护性。希望这些技巧能帮助开发者在实际项目中实现更高效的Python编程。
377 22
|
9月前
|
数据采集 人工智能 编解码
书生·万象InternVL 2.5:上海 AI Lab 开源的多模态大语言模型,超越了目前许多商业模型
书生·万象InternVL 2.5是由上海AI实验室OpenGVLab团队推出的开源多模态大语言模型系列。该模型在多模态理解基准(MMMU)上表现优异,超越了许多商业模型,适用于图像和视频分析、视觉问答、文档理解和多语言处理等多个领域。
623 7
书生·万象InternVL 2.5:上海 AI Lab 开源的多模态大语言模型,超越了目前许多商业模型
|
10月前
|
传感器 容器
电容式水传感器的工作原理
电容式水传感器通过测量水的介电常数变化来检测水分。当传感器接触到水时,其电容值会发生变化,从而触发信号输出,实现对水分的精确检测。广泛应用于农业、环境监测等领域。
|
存储 关系型数据库 MySQL
MySQL 的核心技术有哪些?
MySQL 是一种广泛使用的关系型数据库管理系统,以下是一些 MySQL 的核心技术: 1. **存储引擎**:MySQL 支持多种存储引擎,如 InnoDB、MyISAM 等。存储引擎负责数据库的存储和检索,不同的存储引擎具有不同的特点和适用场景。 2. **索引技术**:索引是提高数据库查询性能的重要手段。MySQL 支持多种类型的索引,如 B-Tree 索引、哈希索引等,通过合理地创建和使用索引,可以大大提高查询的速度。 3. **事务处理**:MySQL 提供了事务处理的功能,保证了数据库操作的原子性、一致性、隔离性和持久性。事务可以确保一组相关操作要么全部成功,要么全部失败,从而保证
467 0
|
数据可视化 数据挖掘
SmartPLS 4.0
SmartPLS 4.0
1519 3
|
机器学习/深度学习 算法
梯度提升树GBDT系列算法
在Boosting集成算法当中,我们逐一建立多个弱评估器(基本是决策树),并且下一个弱评估器的建立方式依赖于上一个弱评估器的评估结果,最终综合多个弱评估器的结果进行输出。
|
机器学习/深度学习 数据采集 自动驾驶
探索深度学习的点云分类
点云分类是指将三维点云数据中的每个点或整个点云进行分类的任务。点云数据由大量三维点构成,每个点包含空间坐标(x, y, z),有时还包含其他信息如颜色和法向量。点云分类在自动驾驶、机器人导航、3D重建等领域有广泛应用。
546 1