自变量选择1| 学习笔记

简介: 快速学习自变量选择1。

开发者学堂课程【机器学习算法 :自变量选择1】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/535/detail/7210


自变量选择1

 

内容介绍

一、自变量选择的影响

二、自变量选择的准则

     

一、 自变量选择的影响

如果一个因变量共受到 m 个因素的影响,建模时选取了所有的因素,则为全模型;若只选了其中 p 个因素建模,则称为选模型。

全模型:y=β01X11X1+···+βmXm

选模型:y=β0p1pX1p2pX2p+···+βppXppp

其参数估值为:

全模型  image.png

选模型

 image.png 

自变量选择的影响包括:

(1) 当未选入的因素的参数不全为零时,选模型的回归系数为有偏估计

(2) 选模型的预测结果是有偏预测

(3) 选模型的参数估计有较小的方差

(4) 选模型的预测残差有较小的方差

(5) 选模型预测的均方误差比全模型的小

 

二、 自变量选择的准则

需要评价回归模型最优的准则,来判断那选模型性能最好。

(1) 残差平方和 SSE 越小、决定系 R2 越大越好;并非如此,增加自变量个数回答道上述效果,但是考虑到多重共线性、变量测量误差累积、参数数目增加等因素,未必会好

(2) 自由度调整复决定系数达到最大;自变量增多,决定系数增大,但是残差自由度减小(残差自由度等于样本个数减掉变量个数)。自由度减小意味着可靠性低,即区间预测的幅度变大,无实际应用意义。采用调整复决定系数:

image.png

其中 image.png 表示自变量个数增加,不考虑系数;该项变小,整体值变大。image.png 表示自变量个数增加,只考虑系数;该项变大,整体值变小。image.png 综合考虑,增加自变量时,支队回归的贡献达到一定程度,才会选入。

回归误差项方差的无偏估计:image.png        image.png

自变量个数从0开始增加,此时 SSE 变小,image.png 开始增加,SSE 的减少速度更快,整体 image.png 开始逐渐减小;自变量增加到一定程度(比如重要变量都已加入),SSE 减少变慢且趋于稳定,此时image.png开始逐渐增大。

(3)残差平方和 SSE 越小,决定系数 image.png 越大越好:并非如此

(4)自由度调整服决定系数达到最大:image.png

(5)赤池信息量(Akaike Information Crterion)达到最小;基于最大似然估计原理的模型选择准则image.png

其中image.png为模型似然函数,维数(未知参数)为 p,n 为样本个数。

在回归建模过程,对每一个模型计算AIC,其中该值最小的模型,就是最优回归模型。

(6) 统计量 image.png 达到最小:

image.png

相关文章
|
6月前
R语言ISLR工资数据进行多项式回归和样条回归分析2
R语言ISLR工资数据进行多项式回归和样条回归分析
R语言ISLR工资数据进行多项式回归和样条回归分析2
|
6月前
R语言ISLR工资数据进行多项式回归和样条回归分析11
R语言ISLR工资数据进行多项式回归和样条回归分析
|
6月前
R语言多项式线性模型:最大似然估计二次曲线
R语言多项式线性模型:最大似然估计二次曲线
|
机器学习/深度学习 Web App开发 算法
四、多元线性回归
四、多元线性回归
四、多元线性回归
|
机器学习/深度学习 算法 开发者
自变量选择(3) | 学习笔记
快速学习自变量选择(3)。
自变量选择(3)  | 学习笔记
|
机器学习/深度学习 算法 开发者
自变量选择(2)| 学习笔记
快速学习自变量选择(2)。
自变量选择(2)| 学习笔记
|
人工智能 开发者
皮尔森相关系数 | 学习笔记
快速学习皮尔森相关系数
皮尔森相关系数 | 学习笔记
|
人工智能 开发者
连续型随机变量 | 学习笔记
快速学习连续型随机变量
连续型随机变量 | 学习笔记
|
人工智能 开发者
卡方检验 | 学习笔记
快速学习卡方检验
卡方检验 | 学习笔记
|
人工智能 开发者
似然函数 | 学习笔记
快速学习似然函数
似然函数 | 学习笔记
下一篇
无影云桌面