开发者学堂课程【机器学习算法 :多元线性回归案例】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/535/detail/7201
多元线性回归案例
一、汽车油耗分析
1974年一个美国杂志提供了一个叫《Motor Trend》的数据集,包括油耗、车辆设计、性能等在内的11个变量,32种车型的观测记录,数据情况如图。
现在想要研究油耗和车辆的哪些因素有关?具体的影响力度有多大?
此时需要选用多元线性回归模型,因为和多个变量有关,想看油耗和车辆的哪一些因素有关就用多元线性回归。重要的一点,具体的影响力度怎么弄?是只要看车辆的油耗和各个变量的相关系数就可以。看影响力度多大,靠量化是不够的,选用多元线性回归模型。
数据集如下:
建模思路:
多元线性回归建模的主要思路:
Ø 确定因变量和可能有影响的自变量,可能对因变量造成影响的因素。
Ø 假定因变量与自变量之间为线性关系,建立线性关系模型。若是非线性就不再多元回归模型内。
Ø 对模型进行评估和检验
Ø 调整优化模型
Ø 判断模型中是否存在多重共线性,有则处理
Ø 利用回归方程进行预测,并利用预测的残差分析模型的假定
后面三个会有专门的一章来讲解,多元回归模型的调整,以及对不满足数据的假设方法。只看前面三点
确定变量:因变量y为mpg,自变量x0,x1……x10依次为cyl,disp,hp,drat,wt,qsee,vs,am,gear, carb
回归方程为:
参数估计:将32条数据代入,使用最小二乘法估算参数,有
使用工具或者手算得到β的取值为:
转置成一个矩阵是十一行一列
经验回归方程为:
y=12.30337416-0.11144048*x1+0.01333524.x2-0.02148212·x3+0.78711097* x4
-3.71530393*x5+0.82104075·x6+0.31776281* x7+2.52022689·x8+0.65541302* x9+0.19941925* x10
计算回归值(模型估计值)9:将32条观测记录的值代入经验回归方程,计算32个估计值
观测值yi:这两值得详细数据参考下面图片。
计算平均值:
计算残差平方和SSE :
计算回归平方和SSR:
计算拟合优度(决定系数 )
计算校正决定系数
样本量较小得时候,只看拟合优度是不行的,要看矫正决定系数
回归方程显著性
回归方程检验:原假设为
确定检验水平:
计算统计量:计算自由度为(p,n-p-1)即(10,21)的F统计量
计算p值:利用工具求出自由度为(10,21)且F=13,93247时,对应的p=3.73144×10-7
得到结论:拒绝原假设,即回归系数β不能全部为0,换句话说,我们得到的多元线性回归方程有意义,即因变量y与参与建模的十个自变量x整体上存在线性回归的关系。
回归系数显著性
回归系数检验:检验对y是否有作用显著,即原假设,备择假设
确定检验水平:α=0.05
计算统计量:,构造统计量
根据样本数据计算
计算p值:根据t值计算p值 p=0.916088
得到结论,无法拒绝原假设,即认为有很大可能,即自变量x1对应的特征cyl对因变量y代表的mpq的线性关系不显著。
当选择0.05,p的值全部大于0.05,也就是说所有的回归系数都不显著,除了重量。方程对自变量的影响都有限。
多元线性回归建模的主要思路:
确定因变量和可能有影响的自变量,可能对因变量造成影响的因素。
假定因变量与自变量之间为线性关系,建立线性关系模型。若是非线性就不再多元回归模型内。
对模型进行评估和检验
调整优化模型
判断模型中是否存在多重共线性,有则处理
利用回归方程进行预测,并利用预测的残差分析模型的假定