目录
1、R²的缺点——调整确定系数Adjusted R2(R2*)的引入
回归预测模型中常用的评估指标“调整确定系数R2*”的简介
1、R²的缺点——调整确定系数Adjusted R2(R2*)的引入
R²表示回归平方和与总离差平方和的比值,这一比值越大,表示总离差平方和中可以由回归平方和解释的比例越大,模型越精确,回归效果越显著。R²∈[0~1],越接近1,回归拟合效果越好,一般认为超过0.8的模型拟合优度比较高。
众所周知,R2,反应了回归方程对y的解释能力。但是,因为在多元线性回归方程中,自变量个数的增加,会引起余差平方和的减少,从而使R2增大;因此,尽管有的自变量与y线性关系不显著,将其引入方程后,也会使R2增大。也就是说,R2本身还受自变量个数的影响。所以,在它基础上,又派生出一个指标——调整确定系数R2*。
因此,为了剔除自变量个数对R2的影响,让R2的大小只反应回归方程的拟合优度,引入了调整的R2—R2*,
公式可看出,调整的R2随k的增加而减小。其中n是样本个数,在调查之后分析时,是固定的,可以识别自变量个数对R2的影响。
2、R²和R2*的对比
R2和R2*有何种区别?不断添加变量,使模型变得复杂,R²会变大(模型的拟合优度提升,而这种提升是虚假的),而R2*则不一定变大,因为其随意添加变量不一定能让模型拟合度上升。
R2很小的话,说明所选的变量解释能力不足,有可能有其他重要变量被纳入到误差项。可尝试寻找其他相关变量进行多元回归。
3、调整确定系数R2的使用方法
经验上,一般当k:n>1:5时,R2会高估实际的拟合优度,这时,宜用R2*来说明方程的拟合优度,也就是自变量对y的解释能力。
回归预测模型中常用的评估指标“调整的R2”的代码实现
1. n = len(LiR_predict_real); p = 1 2. 3. LiR_predict_real_Adj_r2_score = 1-( (1-LiR_predict_real_score)*(n-1) ) / (n-p-1) 4. Adj r2 = 1-(1-R2)*(n-1)/(n-p-1)
参考文章
https://www.cnblogs.com/ykit/p/12501816.html