【Python机器学习】决策树、K近邻、神经网络等模型对Kaggle房价预测实战(附源码和数据集)

简介: 【Python机器学习】决策树、K近邻、神经网络等模型对Kaggle房价预测实战(附源码和数据集)

需要源码和数据集请点赞关注收藏后评论区留言私信~~~

超参数调优

超参数调优需要依靠试验的方法,以及人的经验。对算法本身的理解越深入,对实现算法的过程了解越详细,积累了越多的调优经验,就越能够快速准确地找到最合适的超参数

试验的方法,就是设置了一系列超参数之后,用训练集来训练并用验证集来检验,多次重复以上过程,取效果最好的超参数。训练数据的划分可以采用保持法,也可以采用K-折交叉验证法。超参数调优的试验方法主要有两种:网格搜索和随机搜索。

网格搜索

网格搜索法将各超参数形成的空间划分为若干小空间,在每一个小空间上取一组值作为代表进行试验。取效果最好的那组值作为最终的超参数值。

这种暴力的方法,只适合于小样本量、少参数的情况,否则效率很低。可以作适当地改进,1)在影响大的参数上作更细的划分,而在影响小的参数上作粗的划分,2)先将网格粗切分,然后再对最好的网格进行细切分,3)还有一种改进效率的贪心搜索方法,先在影响最大的参数上进行一维搜索,找到最优参数,然后固定它,再在余下参数中影响最大参数上进行一维搜索,如此下去,直到搜索完所有参数。

随机搜索

随机搜索的思想和网格搜索比较相似,只是不固定分隔子空间,而是随机分隔。它将每个特征的取值都看成是一个分布,然后依概率从中取值。每轮试验中,每个特征取一个值,进行模型训练。随机搜索一般会比网格搜索要快一些。但是无法保证得到最优超参数值。

在sklearn.model_selection.RandomizedSearchCV中实现了随机搜索。

房价回归预测实战

Kaggle提供了一个房价预测的题目,在官网及其他网站出现了大量对该题目的分析和研究,很适合初学者参考学习。

该题目是依据房屋的属性信息,包括房屋的卧室数量、卫生间数量、房屋的大小、房屋地下室的大小、房屋的外观、房屋的评分、房屋的修建时间、房屋的翻修时间、房屋的位置信息等,对房屋的价格进行预测。

1:初步数据分析

从Kaggle官网下载数据后,用Pandas进行初步分析,发现数据完整,没有缺失和重复的现象

2:划分训练集和验证集,并标准化

3:初步建立模型

选择K近邻回归、决策树回归、随机森林回归和梯度提升树回归等多个模型进行初步实验

4:超参数调优

对用时最少、得分最高的梯度提升树回归模型进行超参数调优。具体采用网格搜索方法。

5:特征选择

用相关系数来观察不同特征之间以及它们和标签值之间的相关性

去掉与标签相关系数值较小的特征,重新训练模型,比较结果,发现得分略降低,但用时大幅下降

用散点图观察特征与标签的相关性

从平均绝对误差来看,第一应该去掉的特征bathrooms 从均方误差来看,第一应该去掉的特征是sqft_basement

神经网络模型

最后 尝试使用全连接层神经网络来对该回归问题建模

训练过程和训练误差结果如下

最后 部分代码如下

from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
sc.fit(X_train)
X_train= sc.transform(X_train)
X_test = sc.transform(X_test)
from sklearn.neighbors import KNeighborsRegressor
model = KNeighborsRegressor(n_neighbors=10)
time_start=time.time()
model.fit(X_train, y_train)
print('K近邻回归模型训练用时:', time.time()-time_start)
y_pred=model.predict(X_test)
print ('K近邻回归模型在验证集上的平均绝对误差和均方误差分别为:', 
       mean_absolute_error(y_test,y_pred), mean_squared_error(y_test,y_pred))
from sklearn.tree import DecisionTreeRegressor
model = DecisionTreeRegressor()
time_start=time.time()
model.fit(X_train, y_train)
print('决策树回归模型训练用时:', time.time()-time_start)
y_pred=model.predict(X_test)
print ('决策树回归模型在验证集上的平均绝对误差和均方误差分别为:', 
       mean_absolute_error(y_test,y_pred), mean_squared_error(y_test,y_pred))
from sklearn.ensemble import RandomForestRegressor 
model = RandomForestRegressor(n_estimators=500)
time_start=time.time()
model.fit(X_train, y_train)
print('随机森林回归模型训练用时:', time.time()-time_start)
y_pred=model.predict(X_test)
print ('随机森林回归模型在验证集上的平均绝对误差和均方误差分别为:', 
       mean_absolute_error(y_test,y_pred), mean_squared_error(y_test,y_pred))
plt.figure(figsize=(14,12))
sns.heatmap(raw_data.corr(), annot=True, cmap="YlGnBu")
plt.title('Feature Correlation')
plt.tight_layout()
plt.show()

创作不易 觉得有帮助请点赞关注收藏~~~

相关文章
|
1月前
|
机器学习/深度学习 数据采集 运维
机器学习在网络流量预测中的应用:运维人员的智慧水晶球?
机器学习在网络流量预测中的应用:运维人员的智慧水晶球?
80 19
|
26天前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于机器学习的人脸识别算法matlab仿真,对比GRNN,PNN,DNN以及BP四种网络
本项目展示了人脸识别算法的运行效果(无水印),基于MATLAB2022A开发。核心程序包含详细中文注释及操作视频。理论部分介绍了广义回归神经网络(GRNN)、概率神经网络(PNN)、深度神经网络(DNN)和反向传播(BP)神经网络在人脸识别中的应用,涵盖各算法的结构特点与性能比较。
|
2月前
|
机器学习/深度学习 边缘计算 运维
机器学习在网络安全中的防护:智能化的安全屏障
机器学习在网络安全中的防护:智能化的安全屏障
250 15
|
3月前
|
人工智能 搜索推荐 决策智能
不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用,成为网络任务智能体新SOTA
近期研究通过调整网络智能体的观察和动作空间,使其与大型语言模型(LLM)的能力对齐,显著提升了基于LLM的网络智能体性能。AgentOccam智能体在WebArena基准上超越了先前方法,成功率提升26.6个点(+161%)。该研究强调了与LLM训练目标一致的重要性,为网络任务自动化提供了新思路,但也指出其性能受限于LLM能力及任务复杂度。论文链接:https://arxiv.org/abs/2410.13825。
86 12
|
4月前
|
机器学习/深度学习 人工智能 数据挖掘
打破传统:机器学习与神经网络获2024年诺贝尔物理学奖引发的思考
诺贝尔物理学奖首次授予机器学习与神经网络领域,标志该技术在物理学研究中的重要地位。本文探讨了这一决定对物理学研究的深远影响,包括数据分析、理论物理突破及未来科研方向的启示,同时分析了其对学术跨界合作与全球科研产业的影响。
82 4
|
4月前
|
机器学习/深度学习 数据采集 算法
机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用
医疗诊断是医学的核心,其准确性和效率至关重要。本文探讨了机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用。文章还讨论了Python在构建机器学习模型中的作用,面临的挑战及应对策略,并展望了未来的发展趋势。
314 1
|
4月前
|
机器学习/深度学习 自然语言处理 算法
深入理解机器学习算法:从线性回归到神经网络
深入理解机器学习算法:从线性回归到神经网络
|
5月前
|
机器学习/深度学习 人工智能 算法
【玉米病害识别】Python+卷积神经网络算法+人工智能+深度学习+计算机课设项目+TensorFlow+模型训练
玉米病害识别系统,本系统使用Python作为主要开发语言,通过收集了8种常见的玉米叶部病害图片数据集('矮花叶病', '健康', '灰斑病一般', '灰斑病严重', '锈病一般', '锈病严重', '叶斑病一般', '叶斑病严重'),然后基于TensorFlow搭建卷积神经网络算法模型,通过对数据集进行多轮迭代训练,最后得到一个识别精度较高的模型文件。再使用Django搭建Web网页操作平台,实现用户上传一张玉米病害图片识别其名称。
115 0
【玉米病害识别】Python+卷积神经网络算法+人工智能+深度学习+计算机课设项目+TensorFlow+模型训练
|
4月前
|
机器学习/深度学习 人工智能 安全
人工智能与机器学习在网络安全中的应用
人工智能与机器学习在网络安全中的应用
122 0
|
5月前
|
机器学习/深度学习 人工智能 算法
#如何看待诺贝尔物理学奖颁给了机器学习与神经网络?#
2024年诺贝尔物理学奖首次颁发给机器学习与神经网络领域的研究者,标志着这一技术对物理学及多领域应用的深远影响。机器学习和神经网络不仅在生产、金融、医疗等行业展现出高效实用性,还在物理学研究中发挥了重要作用,如数据分析、模型优化和物理量预测等,促进了物理学与人工智能的深度融合与发展。
64 0

热门文章

最新文章