开发者学堂课程【机器学习算法 :自变量选择(3)】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/535/detail/7212
自变量选择(3)
一、 自变量选择的方法
1. 前进法进行自变量选择:
思路:变量由少到多,每次增加一个,直至没有可引入的变量。
具体做法:
(1)对所有 m 个自变量,分别对因变量 y 进行建模,建立 m 个一元线性回归方程。
(2)对这 m 个一元线性回归方程的 m 个回归系数进行 F 检验,计算 F 统计量值,找到最大的一个
(3)将和预先设定的检验水平 α 对应的 F 值比较,若≥ (1,n- 2),将自变量引入回归方程
(4)对 x 与剩余的 m-1 个自变量进行组合,分别对因变量 y 进行建模,建立 m一1 个二元线性回归方程,对这 m一 1 个方程中非的回归系数进行 F 检验,选出最大的 F 值 ,和 α 对应的临界值比较。若能 ≥ (1,n - 3),将引入回归方程
(5)重复上述步骤,直到没有符合引入条件的变量为止,得到最终的回归方程。
2.后退法进行自变量选择:
思路:变量由多到少,每次减少一个,直至没有可减少的变量。
具体做法:
(1)对所有 m 个自变量,对因变量 γ 进行建模,建立一个 m 元线性回归方程。
(2)对这个 m 元线性回归方程的 m 个回归系数进行 F 检验,计算 F 统计量值,找到最小的一个。
(3)将和预先设定的检验水平 α 对应的 F 值比较,若≤ (1,n- 2),将自变量 剔除出回归方
(4)对剩余的 m- 1 个自变量对因变量 γ 进行建模,建立一个 m-1 元线性回归方程,对新的回归方程中的 m-1 个回归系数进行 F 检验,选出最小的 F 值,和对应的临界值比较,若≤(1,n-m),将 剔除出回归方程。
(5)重复上述步骤,直到没有符合剔除条件的变量为止,得到最终的回归方程。
3.前进法和后退法的比较
两者存在一些明显的问题:
前进法:
(1)不能反映引进新的自变量后的变化情况。环境不同(当前存在的自变量),自变量的显著性也不同,而前进法的核心只是考量了某个环境下的自变量的显著性,没考虑不同环境下的显著性
(2)终身制:一旦入选,不会剔除。同样对环境变化缺乏考量。
后退法:
(1)计算量:自变量个数从多到少,开始的计算量会较大,并且可能做了很多无用功(一些自变量最终会被剔除,而最初的大量计算会价值有限)
(2)未考虑环境变化带来的影响,与前进法相似,缺乏对变化的考量。
(3)全部剔除:被剔除掉的变量,后续不会考虑再次引入,即使在某些条件下,被剔除掉的变脸显著性满足引入要求,即使优于当前方程中的某些变量。如果所有自变量都是独立的,理论上前进法和后退法得到的回归方程是一致的。
4. 逐步回归法进行自变量选择:
思路:有进有出。每当当前回归方程中的变量发生变化,都要对方程中的所有变量进行 F 检验。