开发者学堂课程【机器学习算法 :多元线性回归分析-2】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/535/detail/7200
多元线性回归分析-2
内容简介
一、回归方程是否显著:F 检验
二、回归方程是否显著:t 检验
三、自变量的标准化
一、回归方程是否显著:F 检验
SST=SSE+SSR
离差平方和等于残差平方和加离差平方和。残差平方和越小越好,回归平方和越大越好
求方程检验还是要构建统计量
F 检验是根据平方和分解式,直接从回归效果检验回归方程的显著性。由平方和分解式可得到 SSR 越大,回归效果越好,据此构造 F 统计量。
确定假设:检验自变量 X 对因变量 Y 是否有明显影响,即原假设,这就可以看出一元和多元的区别,是要检验所有因变量和自变量的关系,有没有明显的影响。
确定检验水平:采取最常用的 α=0.05α=0.01,α=0.005…
计算统计量:计算自由度为(p,n-p-1)的 F 统计量
下图中的表体现三者之间的关系。
计算 p 值:根据 F 计算 p 值(也可以直接取比较F值)
得到结论,或者拒绝原假设,接受备择假设
二、回归方程是否显著:t 检验
因变量 y 和自变量 x 之间是否存在线性关系,即是否等于0,使用 t 检验进行判断。
确定假设:检验对 y 是否有作用显著,即原假设,备择假设
确定检验水平:采取最常用的α=0.05α=0.01,α=0.005…
计算统计量:,记,构造统计量 t=
计算 p 值:根据 t 值计算 p 值(也可以直接取比较 T 值),t 分布临界表,自由度 n-p-1,双尾检测
得到结论,或者拒绝原假设,接受备择假设
t检验和F检验对多元线性回归来说不等价,F检验的目标是对所有自变量,t检验目标为单个自变
量,即使 F 检验拒绝原假设,也不等于所有自变量都对因变量有影响,需要使用t检验去逐个验证。
三、自变量的标准化
多个自变量 x 的单位不同,其取值也不同,如果取值相差太大,会因计算误差问题导致回归方程结果不理想,需要对其进行标准化。
中心化:找到样本数据的中心(),回归方程会经过这点,通过坐标变化,将原点移到该中心:
中心化后的方程:
中心化不改变回归线的斜率,只改变了直线的截距,所以 β。中心化后变成了0,而其他的回归系数没有变化。
标准化:自变量单位不同,数据大小差异大,不利于在同一个标准上进行比较,为了消除量纲不同和数量级的差异带来的影响,将样本数据标准化处理,然后使用最小二乘法,得到标准化后的回归系数。
y=1+10000* x1+0.1* x2 这时候是和单位有关的,一元是和单位无关的,只有一个变量不存在自变量的相加,假设 x1 的单位是分,x2 的单位是万元或是亿元。在不知道单位的情况下,x1 的影响更大,x2 的影响更小。忽略单位的影响,误差是和其系数相关的,一旦加上单位,就会发生变化,对 x1 x2 消除变量话的影响。用到标准化公式为
标准化后的方程:
标准化包括中心化,标准化后的公式中有:
简单相关系数
相关阵:简单相关系数组成的矩阵,反应的是变量之间的相关程度。
自变量间的相关阵为 r,若记中心标准化后的设计阵为 X*=(x*ij)n*p 则有:r=(X*)TX*在自变量相关阵的基础上,增加因变量 y 与各自变量 xi 的相关系数 ryi,得到增广相关阵。
复相关系数与偏相关系数
复相关系数:反映了一个因变量与一组自变量之间相关程度的指标,用来度量复相关程度。复相关系数 R 的平方 R² 被称作决定系数、拟合优度等,对于一元线性方程,R 等同于简单相关系数 r。
偏决定系数;设某多元线性回归模型为,i=1,2,…n。当模型中只含有自变量 x,时 y 的残差平方和记作 SSE(x),含有所有自变量x时的残差平方和记作SSE(x1,X2……Xp),自变量 xk 的加入使得残差平方和相对减少的量被称作偏决定系数。其平方根被称为偏相关系数,记作 r。偏决定系数的公式为:如下图。