开发者学堂课程【机器学习算法 :回归模型的显著性检验-2】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/535/detail/7194
回归模型的显著性检验-2
内容介绍
一、相关系数显著性检验:t检验
二、决定系数
一、相关系数显著性检验:t 检验
相关系数( Correlation Coefficient )由卡尔·皮尔逊设计的统计指标,描述了变量之间线性相关程度的量,一般用字母r表示,有多种定义方式,一般是指皮尔逊相关系数。
一般常说的相关系数,就是指的是这个皮尔逊相关系数r
r的取值范围为[-1,1],r>0表示正相关(就是x每增加一个单位,y对应的增加一个单位),r<0表示负相关(x每增加一个单位,y对应的减少一个单位),r=0表示不相关(两者之间没有关系)。
如下图中的内容显示,第一个图中是正相关的,x、y之间的变化是相关的,x增大时y也增大,x减小时y也减小;负相关刚好相反,可以看到一些点在线周围,x增大时y减小,x减小时y增大。最右侧的就是看上去没有什么关系的,就是不相关。
样本相关系数:r可作为总体相关系数的估计值,但从相关系数,=0的总体中抽出的样本,计算其相关系数r,因为有抽样误差所以不一定是0,要判断不等于0的r值是来自=0的总体还是来自的总体,必须进行显著性检验。存在随机误差,要减少随机误差带来的影响。
确定假设:我们搜集数据是为了找到不达标的证据,即原假设(就是说x和y之间没有线性关系),备择假设(实际上y和x之间存在线性关系)。
确定检验水平:采取较为严格的的α=0.01
计算统计量:计算t统计量,原假设成立,
计算p值:n=15,r=0.9610,t=13.07,计算得到
(也可以查相关系数临界值表,查到α=0.01,degree=13对应的值为0.641,小于计算大得到的t值)
得到结论:,拒绝原假设,接受备择假设
二、决定系数
通过平方和分解式 SST=SSR+SSE,SSR 占的比重越大,线性回归效果越好,即回归直线与样本观测值的拟合优度越好。定义回归平方和占总离差平方和的比例为决定系数(Coefficient of Determination ),也称确定系数,记作 r²:
决定系数是一个相对指标,取值在0~1之间,接近1表明回归方程拟合效果较好,但是需要注意几点:
样本量较小时,决定系数并不能真正反应实际情况,需要调整决定系数
决定系数较大,同样也不能肯定自变量与因变量之间关系就是线性的,可能曲线拟合更好,特别当自变量取值范围较小时,决定系数通常较大,可以做模型失拟检验(Lack of Fit Test)。在讲参数估计的时候,为了变得更好其中有一点就是在可取范围取得越快,回归系数的方差越小,回归模型就越好。所以这个系数大,就不一定是线性的,也可能回归系数较好。
决定系数较小,如果样本量较小,则得到线性回归不显著的结果,如果样本量较大,则会得到线性回归显著;最后改进回归,如增加自变量、尝试曲线回归拟合等。
有一个统计学家F.J.Anscombe他创造了四组数据,每个数据中就两个变量,x、y。x、y的均值都一样,并且经验回归方程相同:y=3+0.5x,决定系数,F统计量相同。看上去这四组数据拟合应该可以,但实际上如下图所示。
看第四组数据,x只有一个值不一样,剩下全相等,但对应的y值都不一样,这肯定是存在问题的。
第一组数据的图,可以看出的效果还是可以的;第二个中会看到绝对值系数还可以但用一个曲线来更好;第三个看到将一个异常值把整个正常值带偏了,一般是将异常值忽略掉,这样对方程的拟合效果更好;第四个更为离奇,一个异常值直接
可以看到这四组数据的方差均值都一样,实际上这未必证明这个模型是好用的。这也是后续在学习中要解决。明白的一个问题。