ML之FE:基于LiR/Ridge/Lasso/ElasticNet/AvgModels/RF算法(GSCV) 利用某市房价数据集(特征工程处理)进行房价回归预测

简介: ML之FE:基于LiR/Ridge/Lasso/ElasticNet/AvgModels/RF算法(GSCV) 利用某市房价数据集(特征工程处理)进行房价回归预测

输出结

image.png

image.png

bj_data.info():

Int64Index: 48324 entries, 418423 to 627466

Data columns (total 22 columns):

introduction_house    48324 non-null object

community_house       48324 non-null object

href_house            48324 non-null object

unit_house            48324 non-null object

size_house            48324 non-null object

direction_house       48324 non-null object

decoration_house      48313 non-null object

elevator_house        47437 non-null object

type_house            48324 non-null object

years_house           48311 non-null object

area_house            48324 non-null object

interests_house       48324 non-null object

watch_times           48324 non-null object

submit_period         0 non-null float64

years_period          39804 non-null object

tax_free              45673 non-null object

total_price           48324 non-null float64

smeter_price          48324 non-null object

region                48324 non-null object

info_cluster          0 non-null object

info_flood            0 non-null object

info_follow           0 non-null object

bj_data.head():

introduction_house community_house                                           href_house unit_house size_house direction_house decoration_house elevator_house type_house years_house area_house interests_house watch_times  submit_period years_period tax_free  total_price smeter_price region info_cluster info_flood info_follow

418423  长城脚下,精装修别墅,满五唯一,业主诚意出售。           清凉盛景   https://bj.lianjia.com/ershoufang/101103236018.html       5室3厅   269.93平米             南 北               精装            NaN    底层(共2层)        暂无数据       延庆其它            3人关注        0次带看            NaN          NaN    房本满五年        998.0  单价36973元/平米     bj          NaN        NaN         NaN

418424  商品房  满五年  家庭名下一套住房  环境好           清凉盛景   https://bj.lianjia.com/ershoufang/101102750912.html       4室2厅   269.93平米             南 北               精装            NaN         2层  2010年建暂无数据       延庆其它           14人关注        0次带看            NaN          NaN    房本满五年       1250.0  单价46309元/平米     bj          NaN        NaN         NaN

418425           湖南小区 2室1厅 179万           湖南小区   https://bj.lianjia.com/ershoufang/101103256056.html       2室1厅    71.45平米             南 北               其他            NaN   中楼层(共6层)  1996年建暂无数据       延庆其它            8人关注        0次带看            NaN          NaN    房本满五年        179.0  单价25053元/平米     bj          NaN        NaN         NaN

418426          清凉盛景 4室2厅 1180万           清凉盛景   https://bj.lianjia.com/ershoufang/101103166425.html       4室2厅   252.16平米             南 北               精装            NaN    底层(共2层)  2010年建暂无数据       延庆其它            0人关注        0次带看            NaN          NaN    房本满五年       1180.0  单价46796元/平米     bj          NaN        NaN         NaN

424545        君山别墅 边户独栋 391平毛坯房           君山别墅   https://bj.lianjia.com/ershoufang/101101025128.html       3室2厅   391.86平米             南 北               毛坯            NaN    底层(共2层)  2011年建暂无数据       密云其它          107人关注        1次带看            NaN        房本满两年    房本满五年       1000.0  单价25520元/平米     bj          NaN        NaN         NaN


 

设计思

image.png


 

核心代

from sklearn.base import BaseEstimator, TransformerMixin, RegressorMixin, clone

class AveragingModels(BaseEstimator, TransformerMixin, RegressorMixin):

   def __init__(self, models):

       self.models = models

     

   def fit(self, X, y):

       self.models_ = [clone(x) for x in self.models]

     

       # Train cloned base models

       for model in self.models_:

           model.fit(X, y)

       return self

   def predict(self, X):

       predictions = np.column_stack([

           model.predict(X) for model in self.models_ ])

       return np.mean(predictions, axis=1)

Averaged_models = AveragingModels(models = (LiR_model, Ridge_model, Lasso_model, ElasticNet_model))          

Averaged_models_score = rmse_cv(Averaged_models, X, y)    

param_grid2 = {'max_depth': range(30, 60, 5), 'min_samples_split':range(2, 11, 1)}

gs2 = GridSearchCV(estimator=gs1.best_estimator_, param_grid=param_grid2, scoring='neg_mean_squared_error', cv=3, verbose=0)

gs2.fit(X_train, y_train)

param_grid3 = {'max_features': range(10, 250, 8)}

gs3 = GridSearchCV(estimator=gs2.best_estimator_, param_grid=param_grid3, scoring='neg_mean_squared_error', cv=3, verbose=0)

gs3.fit(X_train, y_train)


相关文章
|
4月前
|
机器学习/深度学习 算法 PyTorch
【从零开始学习深度学习】38. Pytorch实战案例:梯度下降、随机梯度下降、小批量随机梯度下降3种优化算法对比【含数据集与源码】
【从零开始学习深度学习】38. Pytorch实战案例:梯度下降、随机梯度下降、小批量随机梯度下降3种优化算法对比【含数据集与源码】
|
2月前
|
数据采集 机器学习/深度学习 算法
【python】python客户信息审计风险决策树算法分类预测(源码+数据集+论文)【独一无二】
【python】python客户信息审计风险决策树算法分类预测(源码+数据集+论文)【独一无二】
|
3月前
|
机器学习/深度学习 数据采集 算法
Python基于Lasso特征选择、GM算法和SVR回归算法进行财政收入影响因素分析及预测
Python基于Lasso特征选择、GM算法和SVR回归算法进行财政收入影响因素分析及预测
|
4月前
|
存储 算法 Java
Java数据结构与算法:用于高效地存储和检索字符串数据集
Java数据结构与算法:用于高效地存储和检索字符串数据集
|
3天前
|
传感器 算法 C语言
基于无线传感器网络的节点分簇算法matlab仿真
该程序对传感器网络进行分簇,考虑节点能量状态、拓扑位置及孤立节点等因素。相较于LEACH算法,本程序评估网络持续时间、节点死亡趋势及能量消耗。使用MATLAB 2022a版本运行,展示了节点能量管理优化及网络生命周期延长的效果。通过簇头管理和数据融合,实现了能量高效和网络可扩展性。
|
1月前
|
算法 BI Serverless
基于鱼群算法的散热片形状优化matlab仿真
本研究利用浴盆曲线模拟空隙外形,并通过鱼群算法(FSA)优化浴盆曲线参数,以获得最佳孔隙度值及对应的R值。FSA通过模拟鱼群的聚群、避障和觅食行为,实现高效全局搜索。具体步骤包括初始化鱼群、计算适应度值、更新位置及判断终止条件。最终确定散热片的最佳形状参数。仿真结果显示该方法能显著提高优化效率。相关代码使用MATLAB 2022a实现。
|
1月前
|
算法 数据可视化
基于SSA奇异谱分析算法的时间序列趋势线提取matlab仿真
奇异谱分析(SSA)是一种基于奇异值分解(SVD)和轨迹矩阵的非线性、非参数时间序列分析方法,适用于提取趋势、周期性和噪声成分。本项目使用MATLAB 2022a版本实现从强干扰序列中提取趋势线,并通过可视化展示了原时间序列与提取的趋势分量。代码实现了滑动窗口下的奇异值分解和分组重构,适用于非线性和非平稳时间序列分析。此方法在气候变化、金融市场和生物医学信号处理等领域有广泛应用。
|
1月前
|
资源调度 算法
基于迭代扩展卡尔曼滤波算法的倒立摆控制系统matlab仿真
本课题研究基于迭代扩展卡尔曼滤波算法的倒立摆控制系统,并对比UKF、EKF、迭代UKF和迭代EKF的控制效果。倒立摆作为典型的非线性系统,适用于评估不同滤波方法的性能。UKF采用无迹变换逼近非线性函数,避免了EKF中的截断误差;EKF则通过泰勒级数展开近似非线性函数;迭代EKF和迭代UKF通过多次迭代提高状态估计精度。系统使用MATLAB 2022a进行仿真和分析,结果显示UKF和迭代UKF在非线性强的系统中表现更佳,但计算复杂度较高;EKF和迭代EKF则更适合维数较高或计算受限的场景。
|
1月前
|
算法
基于SIR模型的疫情发展趋势预测算法matlab仿真
该程序基于SIR模型预测疫情发展趋势,通过MATLAB 2022a版实现病例增长拟合分析,比较疫情防控力度。使用SIR微分方程模型拟合疫情发展过程,优化参数并求解微分方程组以预测易感者(S)、感染者(I)和移除者(R)的数量变化。![]该模型将总人群分为S、I、R三部分,通过解析或数值求解微分方程组预测疫情趋势。
|
1月前
|
算法 数据可视化 数据安全/隐私保护
基于LK光流提取算法的图像序列晃动程度计算matlab仿真
该算法基于Lucas-Kanade光流方法,用于计算图像序列的晃动程度。通过计算相邻帧间的光流场并定义晃动程度指标(如RMS),可量化图像晃动。此版本适用于Matlab 2022a,提供详细中文注释与操作视频。完整代码无水印。
下一篇
无影云桌面