回归模型的显著性检验-2| 学习笔记-阿里云开发者社区

回归模型的显著性检验-2| 学习笔记

2022-11-12 290

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 快速学习回归模型的显著性检验-2。

开发者学堂课程【机器学习算法：回归模型的显著性检验-2】学习笔记，与课程紧密联系，让用户快速学习知识。

课程地址：https://developer.aliyun.com/learning/course/535/detail/7194

回归模型的显著性检验-2

内容介绍

一、相关系数显著性检验：t检验

二、决定系数

一、相关系数显著性检验：t 检验

相关系数( Correlation Coefficient )由卡尔·皮尔逊设计的统计指标，描述了变量之间线性相关程度的量，一般用字母r表示，有多种定义方式，一般是指皮尔逊相关系数。

一般常说的相关系数，就是指的是这个皮尔逊相关系数r

r的取值范围为[-1,1],r>0表示正相关（就是x每增加一个单位，y对应的增加一个单位）,r<0表示负相关（x每增加一个单位，y对应的减少一个单位）,r=0表示不相关（两者之间没有关系）。

如下图中的内容显示，第一个图中是正相关的，x、y之间的变化是相关的，x增大时y也增大，x减小时y也减小；负相关刚好相反，可以看到一些点在线周围，x增大时y减小，x减小时y增大。最右侧的就是看上去没有什么关系的，就是不相关。

样本相关系数：r可作为总体相关系数的估计值，但从相关系数， =0的总体中抽出的样本，计算其相关系数r，因为有抽样误差所以不一定是0，要判断不等于0的r值是来自 =0的总体还是来自的总体，必须进行显著性检验。存在随机误差，要减少随机误差带来的影响。

确定假设：我们搜集数据是为了找到不达标的证据，即原假设 (就是说x和y之间没有线性关系)，备择假设（实际上y和x之间存在线性关系）。

确定检验水平:采取较为严格的的α=0.01

计算统计量：计算t统计量，原假设成立，

计算p值：n=15，r=0.9610，t=13.07，计算得到

（也可以查相关系数临界值表，查到α=0.01，degree=13对应的值为0.641，小于计算大得到的t值)

得到结论：，拒绝原假设，接受备择假设

二、决定系数

通过平方和分解式 SST=SSR+SSE，SSR 占的比重越大，线性回归效果越好，即回归直线与样本观测值的拟合优度越好。定义回归平方和占总离差平方和的比例为决定系数(Coefficient of Determination )，也称确定系数，记作 r²：

决定系数是一个相对指标，取值在0~1之间，接近1表明回归方程拟合效果较好，但是需要注意几点：

样本量较小时，决定系数并不能真正反应实际情况，需要调整决定系数

决定系数较大，同样也不能肯定自变量与因变量之间关系就是线性的，可能曲线拟合更好，特别当自变量取值范围较小时，决定系数通常较大，可以做模型失拟检验(Lack of Fit Test)。在讲参数估计的时候，为了变得更好其中有一点就是在可取范围取得越快，回归系数的方差越小，回归模型就越好。所以这个系数大，就不一定是线性的，也可能回归系数较好。

决定系数较小，如果样本量较小，则得到线性回归不显著的结果，如果样本量较大，则会得到线性回归显著；最后改进回归，如增加自变量、尝试曲线回归拟合等。

有一个统计学家F.J.Anscombe他创造了四组数据，每个数据中就两个变量，x、y。x、y的均值都一样，并且经验回归方程相同：y=3+0.5x，决定系数，F统计量相同。看上去这四组数据拟合应该可以，但实际上如下图所示。

看第四组数据，x只有一个值不一样，剩下全相等，但对应的y值都不一样，这肯定是存在问题的。

第一组数据的图，可以看出的效果还是可以的；第二个中会看到绝对值系数还可以但用一个曲线来更好；第三个看到将一个异常值把整个正常值带偏了，一般是将异常值忽略掉，这样对方程的拟合效果更好；第四个更为离奇，一个异常值直接

可以看到这四组数据的方差均值都一样，实际上这未必证明这个模型是好用的。这也是后续在学习中要解决。明白的一个问题。