多元线性回归分析-2| 学习笔记

简介: 快速学习多元线性回归分析-2。

开发者学堂课程【机器学习算法 :多元线性回归分析-2】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/535/detail/7200


多元线性回归分析-2

 

内容简介

一、回归方程是否显著:F 检验

二、回归方程是否显著:t 检验

三、自变量的标准化

 

一、回归方程是否显著:F 检验

SST=SSE+SSR

离差平方和等于残差平方和加离差平方和。残差平方和越小越好,回归平方和越大越好

image.png

求方程检验还是要构建统计量

F 检验是根据平方和分解式,直接从回归效果检验回归方程的显著性。由平方和分解式可得到 SSR 越大,回归效果越好,据此构造 F 统计量。

image.png

确定假设:检验自变量 X 对因变量 Y 是否有明显影响,即原假设image.png,这就可以看出一元和多元的区别,是要检验所有因变量和自变量的关系,有没有明显的影响。

确定检验水平:采取最常用的 α=0.05α=0.01,α=0.005…

计算统计量:计算自由度为(p,n-p-1)的 F 统计量

下图中的表体现三者之间的关系。

image.png

计算 p 值:根据 F 计算 p 值(也可以直接取比较F值)

得到结论image.png,或者image.png拒绝原假设image.png,接受备择假设

image.png

 

二、回归方程是否显著:t 检验

因变量 y 和自变量 x 之间是否存在线性关系,即image.png是否等于0,使用 t 检验进行判断。

确定假设:检验image.png对 y 是否有作用显著,即原假设image.png,备择假设

确定检验水平:采取最常用的α=0.05α=0.01,α=0.005…

计算统计量:image.png,记image.png,构造统计量 t=image.png

计算 p 值:根据 t 值计算 p 值(也可以直接取比较 T 值),t 分布临界表,自由度 n-p-1,双尾检测

得到结论image.png,或者image.png拒绝原假设image.png,接受备择假设image.png

t检验和F检验对多元线性回归来说不等价,F检验的目标是对所有自变量,t检验目标为单个自变

量,即使 F 检验拒绝原假设,也不等于所有自变量都对因变量有影响,需要使用t检验去逐个验证。

 

三、自变量的标准化

多个自变量 x 的单位不同,其取值也不同,如果取值相差太大,会因计算误差问题导致回归方程结果不理想,需要对其进行标准化。

中心化:找到样本数据的中心(image.png),回归方程会经过这点,通过坐标变化,将原点移到该中心:

image.png

image.png

中心化后的方程:

image.png

中心化不改变回归线的斜率,只改变了直线的截距,所以 β。中心化后变成了0,而其他的回归系数image.png没有变化。

标准化:自变量单位不同,数据大小差异大,不利于在同一个标准上进行比较,为了消除量纲不同和数量级的差异带来的影响,将样本数据标准化处理,然后使用最小二乘法,得到标准化后的回归系数。

y=1+10000* x1+0.1* x2 这时候是和单位有关的,一元是和单位无关的,只有一个变量不存在自变量的相加,假设 x1 的单位是分,x2 的单位是万元或是亿元。在不知道单位的情况下,x1 的影响更大,x2 的影响更小。忽略单位的影响,误差是和其系数相关的,一旦加上单位,就会发生变化,对 x1 x2 消除变量话的影响。用到标准化公式为

image.png

标准化后的方程:image.png

标准化包括中心化,标准化后的公式中有:

image.png

image.png 

简单相关系数image.png

相关阵:简单相关系数组成的矩阵,反应的是变量之间的相关程度。

自变量间的相关阵为 r,若记中心标准化后的设计阵为 X*=(x*ij)n*p 则有:r=(X*)TX*在自变量相关阵的基础上,增加因变量 y 与各自变量 xi 的相关系数 ryi,得到增广相关阵。

image.png

复相关系数与偏相关系数

复相关系数:反映了一个因变量与一组自变量之间相关程度的指标,用来度量复相关程度。复相关系数 R 的平方 R² 被称作决定系数、拟合优度等,对于一元线性方程,R 等同于简单相关系数 r。

偏决定系数;设某多元线性回归模型为image.png,i=1,2,…n。当模型中只含有自变量 x,时 y 的残差平方和记作 SSE(x),含有所有自变量x时的残差平方和记作SSE(x1,X2……Xp),自变量 xk 的加入使得残差平方和相对减少的量被称作偏决定系数。其平方根被称为偏相关系数,记作 r。偏决定系数的公式为:如下图。

image.png

相关文章
|
6月前
【视频】线性回归中的贝叶斯推断与R语言预测工人工资数据|数据分享-3
【视频】线性回归中的贝叶斯推断与R语言预测工人工资数据|数据分享
【视频】线性回归中的贝叶斯推断与R语言预测工人工资数据|数据分享-3
|
6月前
|
知识图谱
【数理统计实验(五)】回归分析
【数理统计实验(五)】回归分析
【数理统计实验(五)】回归分析
|
3月前
|
资源调度 数据挖掘
R语言回归分析:线性回归模型的构建与评估
【8月更文挑战第31天】线性回归模型是统计分析中一种重要且实用的工具,能够帮助我们理解和预测自变量与因变量之间的线性关系。在R语言中,我们可以轻松地构建和评估线性回归模型,从而对数据背后的关系进行深入的探索和分析。
|
6月前
|
机器学习/深度学习 数据可视化
R语言Stan贝叶斯回归置信区间后验分布可视化模型检验|附数据代码
R语言Stan贝叶斯回归置信区间后验分布可视化模型检验|附数据代码
|
6月前
|
机器学习/深度学习 Python
【视频】ARIMA时间序列模型原理和R语言ARIMAX预测实现案例
【视频】ARIMA时间序列模型原理和R语言ARIMAX预测实现案例
|
6月前
|
资源调度 数据可视化
【视频】线性回归中的贝叶斯推断与R语言预测工人工资数据|数据分享-1
【视频】线性回归中的贝叶斯推断与R语言预测工人工资数据|数据分享
【视频】线性回归中的贝叶斯推断与R语言预测工人工资数据|数据分享-1
|
6月前
|
数据挖掘
【视频】线性回归中的贝叶斯推断与R语言预测工人工资数据|数据分享-2
【视频】线性回归中的贝叶斯推断与R语言预测工人工资数据|数据分享
【视频】线性回归中的贝叶斯推断与R语言预测工人工资数据|数据分享-2
|
6月前
|
机器学习/深度学习 数据采集 数据可视化
R语言可视化探索BRFSS数据并逻辑回归Logistic回归预测中风
R语言可视化探索BRFSS数据并逻辑回归Logistic回归预测中风
|
6月前
R语言相关分析和稳健线性回归分析
R语言相关分析和稳健线性回归分析
|
6月前
R语言对回归模型进行协方差分析
R语言对回归模型进行协方差分析
下一篇
无影云桌面