开发者学堂课程【机器学习算法 :自变量选择1】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/535/detail/7210
自变量选择1
内容介绍
一、自变量选择的影响
二、自变量选择的准则
一、 自变量选择的影响
如果一个因变量共受到 m 个因素的影响,建模时选取了所有的因素,则为全模型;若只选了其中 p 个因素建模,则称为选模型。
全模型:y=β0+β1X1+β1X1+···+βmXm+ε
选模型:y=β0p+β1pX1p+β2pX2p+···+βppXpp+εp
其参数估值为:
全模型
选模型
自变量选择的影响包括:
(1) 当未选入的因素的参数不全为零时,选模型的回归系数为有偏估计
(2) 选模型的预测结果是有偏预测
(3) 选模型的参数估计有较小的方差
(4) 选模型的预测残差有较小的方差
(5) 选模型预测的均方误差比全模型的小
二、 自变量选择的准则
需要评价回归模型最优的准则,来判断那选模型性能最好。
(1) 残差平方和 SSE 越小、决定系 R2 越大越好;并非如此,增加自变量个数回答道上述效果,但是考虑到多重共线性、变量测量误差累积、参数数目增加等因素,未必会好
(2) 自由度调整复决定系数达到最大;自变量增多,决定系数增大,但是残差自由度减小(残差自由度等于样本个数减掉变量个数)。自由度减小意味着可靠性低,即区间预测的幅度变大,无实际应用意义。采用调整复决定系数:
其中 表示自变量个数增加,不考虑系数;该项变小,整体值变大。 表示自变量个数增加,只考虑系数;该项变大,整体值变小。 综合考虑,增加自变量时,支队回归的贡献达到一定程度,才会选入。
回归误差项方差的无偏估计:
自变量个数从0开始增加,此时 SSE 变小, 开始增加,SSE 的减少速度更快,整体 开始逐渐减小;自变量增加到一定程度(比如重要变量都已加入),SSE 减少变慢且趋于稳定,此时开始逐渐增大。
(3)残差平方和 SSE 越小,决定系数 越大越好:并非如此
(4)自由度调整服决定系数达到最大:
(5)赤池信息量(Akaike Information Crterion)达到最小;基于最大似然估计原理的模型选择准则
其中为模型似然函数,维数(未知参数)为 p,n 为样本个数。
在回归建模过程,对每一个模型计算AIC,其中该值最小的模型,就是最优回归模型。
(6) 统计量 达到最小: