回归模型的显著性检验-2| 学习笔记

简介: 快速学习回归模型的显著性检验-2。

开发者学堂课程【机器学习算法 :回归模型的显著性检验-2】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/535/detail/7194


回归模型的显著性检验-2

 

内容介绍

一、相关系数显著性检验:t检验

二、决定系数

 

一、相关系数显著性检验:t 检验

相关系数( Correlation   Coefficient )由卡尔·皮尔逊设计的统计指标,描述了变量之间线性相关程度的量,一般用字母r表示,有多种定义方式,一般是指皮尔逊相关系数。

一般常说的相关系数,就是指的是这个皮尔逊相关系数r

image.png

r的取值范围为[-1,1],r>0表示正相关(就是x每增加一个单位,y对应的增加一个单位),r<0表示负相关(x每增加一个单位,y对应的减少一个单位),r=0表示不相关(两者之间没有关系)。

如下图中的内容显示,第一个图中是正相关的,x、y之间的变化是相关的,x增大时y也增大,x减小时y也减小;负相关刚好相反,可以看到一些点在线周围,x增大时y减小,x减小时y增大。最右侧的就是看上去没有什么关系的,就是不相关。

image.png

样本相关系数:r可作为总体相关系数image.png的估计值,但从相关系数,image.png=0的总体中抽出的样本,计算其相关系数r,因为有抽样误差所以不一定是0,要判断不等于0的r值是来自image.png=0的总体还是来自image.png的总体,必须进行显著性检验。存在随机误差,要减少随机误差带来的影响。

确定假设:我们搜集数据是为了找到不达标的证据,即原假设image.png(就是说x和y之间没有线性关系),备择假设image.png(实际上y和x之间存在线性关系)。

确定检验水平:采取较为严格的的α=0.01

计算统计量:计算t统计量,原假设image.png成立,image.png

计算p值:n=15,r=0.9610,t=13.07,计算得到 image.png

(也可以查相关系数临界值表,查到α=0.01,degree=13对应的值为0.641,小于计算大得到的t值)

得到结论:image.png,拒绝原假设image.png,接受备择假设image.png

 

二、决定系数

通过平方和分解式 SST=SSR+SSE,SSR 占的比重越大,线性回归效果越好,即回归直线与样本观测值的拟合优度越好。定义回归平方和占总离差平方和的比例为决定系数(Coefficient of  Determination ),也称确定系数,记作 r²:image.png

决定系数是一个相对指标,取值在0~1之间,接近1表明回归方程拟合效果较好,但是需要注意几点:

样本量较小时,决定系数并不能真正反应实际情况,需要调整决定系数

决定系数较大,同样也不能肯定自变量与因变量之间关系就是线性的,可能曲线拟合更好,特别当自变量取值范围较小时,决定系数通常较大,可以做模型失拟检验(Lack of Fit Test)。在讲参数估计的时候,为了变得更好其中有一点就是在可取范围取得越快,回归系数的方差越小,回归模型就越好。所以这个系数大,就不一定是线性的,也可能回归系数较好。

决定系数较小,如果样本量较小,则得到线性回归不显著的结果,如果样本量较大,则会得到线性回归显著;最后改进回归,如增加自变量、尝试曲线回归拟合等。

有一个统计学家F.J.Anscombe他创造了四组数据,每个数据中就两个变量,x、y。x、y的均值都一样,并且经验回归方程相同:y=3+0.5x,决定系数image.png,F统计量相同。看上去这四组数据拟合应该可以,但实际上如下图所示。

image.png

看第四组数据,x只有一个值不一样,剩下全相等,但对应的y值都不一样,这肯定是存在问题的。

第一组数据的图,可以看出的效果还是可以的;第二个中会看到绝对值系数还可以但用一个曲线来更好;第三个看到将一个异常值把整个正常值带偏了,一般是将异常值忽略掉,这样对方程的拟合效果更好;第四个更为离奇,一个异常值直接

image.png

可以看到这四组数据的方差均值都一样,实际上这未必证明这个模型是好用的。这也是后续在学习中要解决。明白的一个问题。

相关文章
|
6月前
|
机器学习/深度学习 数据可视化
R语言Stan贝叶斯回归置信区间后验分布可视化模型检验|附数据代码
R语言Stan贝叶斯回归置信区间后验分布可视化模型检验|附数据代码
|
6月前
|
机器学习/深度学习 存储 5G
R语言回归中的Hosmer-Lemeshow拟合优度检验
R语言回归中的Hosmer-Lemeshow拟合优度检验
|
6月前
|
数据挖掘
R语言稀疏主成分分析、因子分析、KMO检验和Bartlett球度检验分析上市公司财务指标数据
R语言稀疏主成分分析、因子分析、KMO检验和Bartlett球度检验分析上市公司财务指标数据
|
6月前
R语言t检验和非正态性的鲁棒性
R语言t检验和非正态性的鲁棒性
|
6月前
R语言Poisson回归的拟合优度检验
R语言Poisson回归的拟合优度检验
|
6月前
|
数据可视化
R语言汇率、股价指数与GARCH模型分析:格兰杰因果检验、脉冲响应与预测可视化
R语言汇率、股价指数与GARCH模型分析:格兰杰因果检验、脉冲响应与预测可视化
|
6月前
|
机器学习/深度学习 算法 数据可视化
R语言逻辑回归和泊松回归模型对发生交通事故概率建模
R语言逻辑回归和泊松回归模型对发生交通事故概率建模
|
机器学习/深度学习 算法
线性回归模型-误差分析
线性回归模型-误差分析
160 0
|
机器学习/深度学习 算法 开发者
回归模型的显著性检验-1| 学习笔记
快速学习回归模型的显著性检验-1。
回归模型的显著性检验-1| 学习笔记
|
机器学习/深度学习
多重共线性检验-方差膨胀系数(VIF)-相关系数(机器学习)sklearn
多重共线性检验-方差膨胀系数(VIF)-相关系数(机器学习)sklearn
487 0
多重共线性检验-方差膨胀系数(VIF)-相关系数(机器学习)sklearn
下一篇
无影云桌面