需要源码请点赞关注收藏后评论区留言并且私信~~~
在实际经济问题中,一个变量往往受到多个变量的影响。例如,家庭消费支出,除了受家庭可支配收入的影响外,还受诸如家庭所有的财富、物价水平、金融机构存款利息等多种因素的影响。也就是说,一个因变量和多个自变量有依存关系,而且有时几个影响因素主次难以区分,或者有的因素虽属次要,但也不能忽略。这时采用一元回归分析进行预测难以奏效,需要多元回归分析
一、多元线性回归
多元回归分析是指通过对两个或两个以上的自变量与一个因变量的相关分析,建立预测模型进行预测的方法。当自变量与因变量之间存在线性关系时称为多元线性回归分析
建立多元线性回归模型时,为了保证回归模型具有优良的解释能力和预测效果,应首先注意自变量的选择,其准则是:
(1)自变量对因变量必须有显著的影响,并呈密切的线性相关
(2)自变量与因变量之间的线性相关必须是真实的,而不是形式上的
(3)自变量之间应具有一定的互斥性,即自变量之间的相关程度不应高于自变量与因变量之间的相关程度
(4)自变量应具有完整的统计数据,其预测值容易确定
二、多元线性回归模型的参数估计
多元线性回归模型的参数估计,同一元线性回归方程一样,也是在要求误差最小的前提下,用最小二乘法求解参数
以二元线性回归模型为例,求解回归参数的标准方程组为:
三、多元线性回归的假设检验及其评价
1 将回归方程中所有变量作为一个整体来检验它们与因变量之间是否具有线性关系(方差分析法、复相关系数)
2 对回归方程的预测或解释能力做出综合评价(决定系数)
3 在此基础上进一步对各个变量的重要性作为评价(偏回归平方和、t检验和标准回归系数)
四、多元线性回归在波士顿房价中实战
字段名 含义
crim 城镇人均犯罪率
indus 非住宅用地所占比例
nox 环保指数
age 1940年以前建成的自住单位的比例
rad 距离高速公路的便利指数
patatio 城镇中教师学生比例
lstat 多少房东属于低收入人群
zn 住宅用地所占比例
chas 虚拟变量 用于回归分析
rm 每栋住宅的房间数
dis 距离5个波士顿的就业中心的加权距离
tax 万美元的不动产税率
b 黑人比例
medv 自主房屋房价中位数
导入数据集如下
然后进行多元线性回归建模
结果如下 包括多元线性回归模型系数和多元线性回归模型常数项
部分代码如下
import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn import datasets d=datasets.load_boston() da['price']=d.target data.sample(5) from sklearn.linear_model import LinearRegression #引入多元线性回归算法模块进行相应的训练 simple2=LinearRegression() from sklearn.model_selection import train_test_split x_train,x_test,y_train,y_test=train_test_split(x,y,random_state=666) simple2.fit(x_train,y_train) print('多元线性回归模型系数:\n',simple2.coef_) print('多元线性回归模型常数项:',simple2.intercept_) y_predrn.metrics import mean_absolute_error from sklearn.metrics import mean_squared_error from sklearn.metrics import r2_score #直接调用库函数进行输出R2 print('预测值的均方误差:', mean_squared_error(y_test,y_predict)) print(r2_score(y_test,y_predict)) print(simple2.score(x_test,y_test)) print('各特征间的系数矩阵:\n',simple2.coef_) print('影np.argsort(simple2.coef_)])
创作不易 觉得有帮助 请点赞关注收藏后评论区留言私信~~~