ML之回归预测:利用Lasso、ElasticNet、GBDT等算法构建集成学习算法AvgModelsR对国内某平台上海2020年6月份房价数据集【12+1】进行回归预测(模型评估、模型推理)

简介: ML之回归预测:利用Lasso、ElasticNet、GBDT等算法构建集成学习算法AvgModelsR对国内某平台上海2020年6月份房价数据集【12+1】进行回归预测(模型评估、模型推理)

利用Lasso、ElasticNet、GBDT等算法构建集成学习算法AvgModelsR对国内某平台上海2020年6月份房价数据集【12+1】进行回归预测(模型评估、模型推理)


1、数据集基本信息


(3000, 13) 13 3000

 

total_price         object

unit_price          object

roomtype            object

height              object

direction           object

decorate            object

area                object

age                float64

garden              object

district            object

total_price_Num    float64

unit_price_Num       int64

area_Num           float64

dtype: object

Index(['total_price', 'unit_price', 'roomtype', 'height', 'direction',

      'decorate', 'area', 'age', 'garden', 'district', 'total_price_Num',

      'unit_price_Num', 'area_Num'],

     dtype='object')

  total_price unit_price roomtype  ... total_price_Num unit_price_Num area_Num

0        290万  46186元/平米     2室1厅  ...           290.0          46186    62.79

1        599万  76924元/平米     2室1厅  ...           599.0          76924    77.87

2        420万  51458元/平米     2室1厅  ...           420.0          51458    81.62

3      269.9万  34831元/平米     2室2厅  ...           269.9          34831    77.49

4        383万  79051元/平米     1室1厅  ...           383.0          79051    48.45

[5 rows x 13 columns]

     total_price unit_price roomtype  ... total_price_Num unit_price_Num area_Num

2995        230万  43144元/平米     1室1厅  ...           230.0          43144    53.31

2996        372万  75016元/平米     1室1厅  ...           372.0          75016    49.59

2997        366万  49973元/平米     2室1厅  ...           366.0          49973    73.24

2998        365万  69103元/平米     2室1厅  ...           365.0          69103    52.82

2999        420万  49412元/平米     2室2厅  ...           420.0          49412    85.00

[5 rows x 13 columns]

<class 'pandas.core.frame.DataFrame'>

RangeIndex: 3000 entries, 0 to 2999

Data columns (total 13 columns):

#   Column           Non-Null Count  Dtype  

---  ------           --------------  -----  

0   total_price      3000 non-null   object

1   unit_price       3000 non-null   object

2   roomtype         3000 non-null   object

3   height           3000 non-null   object

4   direction        3000 non-null   object

5   decorate         3000 non-null   object

6   area             3000 non-null   object

7   age              2888 non-null   float64

8   garden           3000 non-null   object

9   district         3000 non-null   object

10  total_price_Num  3000 non-null   float64

11  unit_price_Num   3000 non-null   int64  

12  area_Num         3000 non-null   float64

dtypes: float64(3), int64(1), object(9)

memory usage: 304.8+ KB

               age  total_price_Num  unit_price_Num     area_Num

count  2888.000000      3000.000000     3000.000000  3000.000000

mean   2001.453601       631.953450    58939.028333   102.180667

std       9.112425       631.308855    25867.208297    62.211662

min    1911.000000        90.000000    11443.000000    17.050000

25%    1996.000000       300.000000    40267.500000    67.285000

50%    2003.000000       437.000000    54946.000000    89.230000

75%    2008.000000       738.000000    73681.250000   119.035000

max    2018.000000      9800.000000   250813.000000   801.140000



2、模型结果输出


AvgModelsR(models=(Pipeline(steps=[('robustscaler', RobustScaler()),

                                  ('lasso',

                                   Lasso(alpha=0.001, random_state=1))]),

                  Pipeline(steps=[('robustscaler', RobustScaler()),

                                  ('elasticnet',

                                   ElasticNet(alpha=0.001, l1_ratio=0.9,

                                              random_state=3))]),

                  GradientBoostingRegressor(random_state=5)))

R2_res [0.9944881811696309, 0.000626615309319283, array([0.99470591, 0.99512495, 0.99435729, 0.99491104, 0.99334171])]

MAE_res [-0.004994183753322101, 0.0001083601234287803, array([-0.00493338, -0.005202  , -0.00489054, -0.00498097, -0.00496404])]

RMSE_res [-8.323227156546791e-05, 9.870911328329942e-06, array([-8.14778066e-05, -7.79621763e-05, -7.93078692e-05, -7.49049128e-05,

      -1.02508593e-04])]

AvgModelsR(models=(Pipeline(steps=[('robustscaler', RobustScaler()),

                                  ('lasso',

                                   Lasso(alpha=0.001, random_state=1))]),

                  Pipeline(steps=[('robustscaler', RobustScaler()),

                                  ('elasticnet',

                                   ElasticNet(alpha=0.001, l1_ratio=0.9,

                                              random_state=3))]),

                  GradientBoostingRegressor(random_state=5)))

Avg_Best_models Score value: 0.9947618159336031

Avg_Best_models R2    value: 0.9947618159336031

Avg_Best_models MAE   value: 0.0064209273962331555

Avg_Best_models MSE   value: 9.023779248949011e-05

Avg_Best_models模型花费时间: 0:06:14.344069



相关文章
|
16天前
|
机器学习/深度学习 算法 数据挖掘
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
58 4
|
13天前
|
机器学习/深度学习 算法 数据挖掘
C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出
本文探讨了C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出。文章还介绍了C语言在知名机器学习库中的作用,以及与Python等语言结合使用的案例,展望了其未来发展的挑战与机遇。
31 1
|
22天前
|
机器学习/深度学习 自然语言处理 算法
深入理解机器学习算法:从线性回归到神经网络
深入理解机器学习算法:从线性回归到神经网络
|
26天前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
69 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
1月前
|
机器学习/深度学习 算法 PyTorch
用Python实现简单机器学习模型:以鸢尾花数据集为例
用Python实现简单机器学习模型:以鸢尾花数据集为例
78 1
|
2月前
|
XML JSON 数据可视化
数据集学习笔记(二): 转换不同类型的数据集用于模型训练(XML、VOC、YOLO、COCO、JSON、PNG)
本文详细介绍了不同数据集格式之间的转换方法,包括YOLO、VOC、COCO、JSON、TXT和PNG等格式,以及如何可视化验证数据集。
201 1
数据集学习笔记(二): 转换不同类型的数据集用于模型训练(XML、VOC、YOLO、COCO、JSON、PNG)
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024
阿里云人工智能平台 PAI 团队发表的图像编辑算法论文在 MM2024 上正式亮相发表。ACM MM(ACM国际多媒体会议)是国际多媒体领域的顶级会议,旨在为研究人员、工程师和行业专家提供一个交流平台,以展示在多媒体领域的最新研究成果、技术进展和应用案例。其主题涵盖了图像处理、视频分析、音频处理、社交媒体和多媒体系统等广泛领域。此次入选标志着阿里云人工智能平台 PAI 在图像编辑算法方面的研究获得了学术界的充分认可。
【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024
|
22天前
|
机器学习/深度学习 算法
深入探索机器学习中的决策树算法
深入探索机器学习中的决策树算法
32 0
|
23天前
|
机器学习/深度学习 算法 Python
机器学习入门:理解并实现K-近邻算法
机器学习入门:理解并实现K-近邻算法
31 0
|
2月前
|
机器学习/深度学习 算法 Java
机器学习、基础算法、python常见面试题必知必答系列大全:(面试问题持续更新)
机器学习、基础算法、python常见面试题必知必答系列大全:(面试问题持续更新)

热门文章

最新文章