【数据挖掘】多元线性回归对波士顿房价分析实战(超详细 附源码)

简介: 【数据挖掘】多元线性回归对波士顿房价分析实战(超详细 附源码)

需要源码请点赞关注收藏后评论区留言并且私信~~~

在实际经济问题中,一个变量往往受到多个变量的影响。例如,家庭消费支出,除了受家庭可支配收入的影响外,还受诸如家庭所有的财富、物价水平、金融机构存款利息等多种因素的影响。也就是说,一个因变量和多个自变量有依存关系,而且有时几个影响因素主次难以区分,或者有的因素虽属次要,但也不能忽略。这时采用一元回归分析进行预测难以奏效,需要多元回归分析

一、多元线性回归

多元回归分析是指通过对两个或两个以上的自变量与一个因变量的相关分析,建立预测模型进行预测的方法。当自变量与因变量之间存在线性关系时称为多元线性回归分析

建立多元线性回归模型时,为了保证回归模型具有优良的解释能力和预测效果,应首先注意自变量的选择,其准则是:

(1)自变量对因变量必须有显著的影响,并呈密切的线性相关

(2)自变量与因变量之间的线性相关必须是真实的,而不是形式上的

(3)自变量之间应具有一定的互斥性,即自变量之间的相关程度不应高于自变量与因变量之间的相关程度

(4)自变量应具有完整的统计数据,其预测值容易确定

二、多元线性回归模型的参数估计

多元线性回归模型的参数估计,同一元线性回归方程一样,也是在要求误差最小的前提下,用最小二乘法求解参数

以二元线性回归模型为例,求解回归参数的标准方程组为:

三、多元线性回归的假设检验及其评价

1 将回归方程中所有变量作为一个整体来检验它们与因变量之间是否具有线性关系(方差分析法、复相关系数)

2 对回归方程的预测或解释能力做出综合评价(决定系数)

3 在此基础上进一步对各个变量的重要性作为评价(偏回归平方和、t检验和标准回归系数)

四、多元线性回归在波士顿房价中实战

字段名                                   含义

crim                                     城镇人均犯罪率

indus                                非住宅用地所占比例

nox                                      环保指数

age                                 1940年以前建成的自住单位的比例

rad                                     距离高速公路的便利指数

patatio                                 城镇中教师学生比例

lstat                                   多少房东属于低收入人群

zn                                          住宅用地所占比例

chas                                     虚拟变量 用于回归分析

rm                                   每栋住宅的房间数

dis                                   距离5个波士顿的就业中心的加权距离

tax                                     万美元的不动产税率

b                                       黑人比例

medv                              自主房屋房价中位数

导入数据集如下

然后进行多元线性回归建模

结果如下 包括多元线性回归模型系数和多元线性回归模型常数项

部分代码如下

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn import datasets
d=datasets.load_boston()
da['price']=d.target
data.sample(5)
from sklearn.linear_model import LinearRegression   
#引入多元线性回归算法模块进行相应的训练
simple2=LinearRegression()
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test=train_test_split(x,y,random_state=666)
simple2.fit(x_train,y_train)
print('多元线性回归模型系数:\n',simple2.coef_)
print('多元线性回归模型常数项:',simple2.intercept_)
y_predrn.metrics import mean_absolute_error
from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score    
#直接调用库函数进行输出R2
print('预测值的均方误差:',
mean_squared_error(y_test,y_predict))
print(r2_score(y_test,y_predict))
print(simple2.score(x_test,y_test))
print('各特征间的系数矩阵:\n',simple2.coef_)            
print('影np.argsort(simple2.coef_)])

创作不易 觉得有帮助 请点赞关注收藏后评论区留言私信~~~

相关文章
|
4月前
|
数据采集 存储 NoSQL
建筑业数据挖掘:Scala爬虫在大数据分析中的作用
建筑业数据挖掘:Scala爬虫在大数据分析中的作用
|
4月前
|
自然语言处理 算法 数据挖掘
【数据挖掘】十大算法之PageRank连接分析算法
文章介绍了PageRank算法的基本概念和数学模型,包括如何通过一阶马尔科夫链定义随机游走模型以及如何计算网页的重要性评分,并提供了PageRank迭代算法的具体步骤。
101 0
|
4月前
|
自然语言处理 数据可视化 安全
【第十届“泰迪杯”数据挖掘挑战赛】C题:疫情背景下的周边游需求图谱分析 问题一方案及Python实现
第十届“泰迪杯”数据挖掘挑战赛C题的解决方案,涉及疫情背景下周边游需求图谱分析,包括微信公众号文章分类、周边游产品热度分析、本地旅游图谱构建与分析,以及疫情前后旅游产品需求变化分析的Python实现方法。
142 1
【第十届“泰迪杯”数据挖掘挑战赛】C题:疫情背景下的周边游需求图谱分析 问题一方案及Python实现
|
4月前
|
数据挖掘 调度 Python
【第十届“泰迪杯”数据挖掘挑战赛】B题:电力系统负荷预测分析 Baseline
第十届“泰迪杯”数据挖掘挑战赛B题的基线解决方案,涉及电力系统负荷预测分析,包括数据读取、特征处理、模型训练和评估,以及使用了LightGBM进行回归预测。
147 3
|
4月前
|
数据采集 自然语言处理 数据可视化
基于Python的社交媒体评论数据挖掘,使用LDA主题分析、文本聚类算法、情感分析实现
本文介绍了基于Python的社交媒体评论数据挖掘方法,使用LDA主题分析、文本聚类算法和情感分析技术,对数据进行深入分析和可视化,以揭示文本数据中的潜在主题、模式和情感倾向。
282 0
|
4月前
|
机器学习/深度学习 安全 算法
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 32页和40页论文及实现代码
本文总结了2023年第十一届泰迪杯数据挖掘挑战赛A题的新冠疫情防控数据分析,提供了32页和40页的论文以及实现代码,涉及密接者追踪、疫苗接种影响分析、重点场所管控以及疫情趋势研判等多个方面,运用了机器学习算法和SEIR传染病模型等方法。
74 0
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 32页和40页论文及实现代码
|
4月前
|
机器学习/深度学习 安全 算法
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 建模方案及python代码详解
本文介绍了2023年第十一届泰迪杯数据挖掘挑战赛A题的解题思路和Python代码实现,涵盖了新冠疫情防控数据的分析、建模方案以及数据治理的具体工作。
82 0
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 建模方案及python代码详解
|
4月前
|
存储 数据可视化 数据挖掘
【第十届“泰迪杯”数据挖掘挑战赛】C题:疫情背景下的周边游需求图谱分析 问题三方案及Python实现
第十届“泰迪杯”数据挖掘挑战赛C题的解决方案,专注于问题三“本地旅游图谱构建与分析”,介绍了基于OTA和UGC数据的旅游产品关联分析方法,使用支持度、置信度、提升度来计算关联度得分,并进行了结果可视化,同时指出了方案的改进方向。
79 1
|
4月前
|
存储 自然语言处理 算法
【第十届“泰迪杯”数据挖掘挑战赛】C题:疫情背景下的周边游需求图谱分析 问题二方案及Python实现
第十届“泰迪杯”数据挖掘挑战赛C题的解决方案,专注于疫情背景下的周边游需求图谱分析,具体针对问题二“周边游产品热度分析”,介绍了从OTA和UGC数据中提取旅游产品、计算产品热度得分、判断产品类型的方法,并给出了Python实现步骤和代码。
96 1
|
4月前
|
数据采集 自然语言处理 数据可视化
基于python数据挖掘在淘宝评价方面的应用与分析,技术包括kmeans聚类及情感分析、LDA主题分析
本文探讨了基于Python数据挖掘技术在淘宝评价分析中的应用,涵盖了数据采集、清洗、预处理、评论词频分析、情感分析、聚类分析以及LDA主题建模和可视化,旨在揭示淘宝客户评价中的潜在模式和情感倾向,为商家和消费者提供决策支持。
101 0

热门文章

最新文章