ML之回归预测:利用Lasso、ElasticNet、GBDT等算法构建集成学习算法AvgModelsR对国内某平台上海2020年6月份房价数据集【12+1】进行回归预测(模型评估、模型推理)

简介: ML之回归预测:利用Lasso、ElasticNet、GBDT等算法构建集成学习算法AvgModelsR对国内某平台上海2020年6月份房价数据集【12+1】进行回归预测(模型评估、模型推理)


目录

利用Lasso、ElasticNet、GBDT等算法构建集成学习算法AvgModelsR对国内某平台上海2020年6月份房价数据集【12+1】进行回归预测(模型评估、模型推理)

1、数据集基本信息

2、模型结果输出


 

 

相关文章

ML之回归预测:利用Lasso、ElasticNet、GBDT等算法构建集成学习算法AvgModelsR对国内某平台上海2020年6月份房价数据集【12+1】进行回归预测(模型评估、模型推理)

ML之回归预测:利用Lasso、ElasticNet、GBDT等算法构建集成学习算法AvgModelsR对国内某平台上海2020年6月份房价数据集【12+1】进行回归预测(模型评估、模型推理)实现

利用Lasso、ElasticNet、GBDT等算法构建集成学习算法AvgModelsR对国内某平台上海2020年6月份房价数据集【12+1】进行回归预测(模型评估、模型推理)

1、数据集基本信息

1.  (3000, 13) 13 3000
2. 
3.  total_price         object
4. unit_price          object
5. roomtype            object
6. height              object
7. direction           object
8. decorate            object
9. area                object
10. age                float64
11. garden              object
12. district            object
13. total_price_Num    float64
14. unit_price_Num       int64
15. area_Num           float64
16. dtype: object
17. 
18.  Index(['total_price', 'unit_price', 'roomtype', 'height', 'direction',
19. 'decorate', 'area', 'age', 'garden', 'district', 'total_price_Num',
20. 'unit_price_Num', 'area_Num'],
21.       dtype='object')
22. 
23.    total_price unit_price roomtype  ... total_price_Num unit_price_Num area_Num
24. 0        290万  46186元/平米     2室1厅  ...           290.0          46186    62.79
25. 1        599万  76924元/平米     2室1厅  ...           599.0          76924    77.87
26. 2        420万  51458元/平米     2室1厅  ...           420.0          51458    81.62
27. 3      269.9万  34831元/平米     2室2厅  ...           269.9          34831    77.49
28. 4        383万  79051元/平米     1室1厅  ...           383.0          79051    48.45
29. 
30. [5 rows x 13 columns]
31. 
32.       total_price unit_price roomtype  ... total_price_Num unit_price_Num area_Num
33. 2995        230万  43144元/平米     1室1厅  ...           230.0          43144    53.31
34. 2996        372万  75016元/平米     1室1厅  ...           372.0          75016    49.59
35. 2997        366万  49973元/平米     2室1厅  ...           366.0          49973    73.24
36. 2998        365万  69103元/平米     2室1厅  ...           365.0          69103    52.82
37. 2999        420万  49412元/平米     2室2厅  ...           420.0          49412    85.00
38. 
39. [5 rows x 13 columns]
40. <class 'pandas.core.frame.DataFrame'>
41. RangeIndex: 3000 entries, 0 to 2999
42. Data columns (total 13 columns):
43. #   Column           Non-Null Count  Dtype  
44. ---  ------           --------------  -----  
45. 0   total_price      3000 non-null   object
46. 1   unit_price       3000 non-null   object
47. 2   roomtype         3000 non-null   object
48. 3   height           3000 non-null   object
49. 4   direction        3000 non-null   object
50. 5   decorate         3000 non-null   object
51. 6   area             3000 non-null   object
52. 7   age              2888 non-null   float64
53. 8   garden           3000 non-null   object
54. 9   district         3000 non-null   object
55. 10  total_price_Num  3000 non-null   float64
56. 11  unit_price_Num   3000 non-null   int64  
57. 12  area_Num         3000 non-null   float64
58. dtypes: float64(3), int64(1), object(9)
59. memory usage: 304.8+ KB
60. 
61.                 age  total_price_Num  unit_price_Num     area_Num
62. count  2888.000000      3000.000000     3000.000000  3000.000000
63. mean   2001.453601       631.953450    58939.028333   102.180667
64. std       9.112425       631.308855    25867.208297    62.211662
65. min    1911.000000        90.000000    11443.000000    17.050000
66. 25%    1996.000000       300.000000    40267.500000    67.285000
67. 50%    2003.000000       437.000000    54946.000000    89.230000
68. 75%    2008.000000       738.000000    73681.250000   119.035000
69. max    2018.000000      9800.000000   250813.000000   801.140000

 

 

2、模型结果输出

1. AvgModelsR(models=(Pipeline(steps=[('robustscaler', RobustScaler()),
2.                                    ('lasso',
3.                                     Lasso(alpha=0.001, random_state=1))]),
4.                    Pipeline(steps=[('robustscaler', RobustScaler()),
5.                                    ('elasticnet',
6.                                     ElasticNet(alpha=0.001, l1_ratio=0.9,
7.                                                random_state=3))]),
8.                    GradientBoostingRegressor(random_state=5)))
9. R2_res [0.9944881811696309, 0.000626615309319283, array([0.99470591, 0.99512495, 0.99435729, 0.99491104, 0.99334171])]
10. MAE_res [-0.004994183753322101, 0.0001083601234287803, array([-0.00493338, -0.005202  , -0.00489054, -0.00498097, -0.00496404])]
11. RMSE_res [-8.323227156546791e-05, 9.870911328329942e-06, array([-8.14778066e-05, -7.79621763e-05, -7.93078692e-05, -7.49049128e-05,
12.        -1.02508593e-04])]
13. AvgModelsR(models=(Pipeline(steps=[('robustscaler', RobustScaler()),
14.                                    ('lasso',
15.                                     Lasso(alpha=0.001, random_state=1))]),
16.                    Pipeline(steps=[('robustscaler', RobustScaler()),
17.                                    ('elasticnet',
18.                                     ElasticNet(alpha=0.001, l1_ratio=0.9,
19.                                                random_state=3))]),
20.                    GradientBoostingRegressor(random_state=5)))
21. Avg_Best_models Score value: 0.9947618159336031
22. Avg_Best_models R2    value: 0.9947618159336031
23. Avg_Best_models MAE   value: 0.0064209273962331555
24. Avg_Best_models MSE   value: 9.023779248949011e-05
25. 
26. Avg_Best_models模型花费时间: 0:06:14.344069

 

相关文章
|
3天前
|
算法 数据挖掘 数据安全/隐私保护
基于CS模型和CV模型的多目标协同滤波跟踪算法matlab仿真
本项目基于CS模型和CV模型的多目标协同滤波跟踪算法,旨在提高复杂场景下多个移动目标的跟踪精度和鲁棒性。通过融合目标间的关系和数据关联性,优化跟踪结果。程序在MATLAB2022A上运行,展示了真实轨迹与滤波轨迹的对比、位置及速度误差均值和均方误差等关键指标。核心代码包括对目标轨迹、速度及误差的详细绘图分析,验证了算法的有效性。该算法结合CS模型的初步聚类和CV模型的投票机制,增强了目标状态估计的准确性,尤其适用于遮挡、重叠和快速运动等复杂场景。
|
23天前
|
机器学习/深度学习 算法
扩散模型=进化算法!生物学大佬用数学揭示本质
在机器学习与生物学交叉领域,Tufts和Harvard大学研究人员揭示了扩散模型与进化算法的深刻联系。研究表明,扩散模型本质上是一种进化算法,通过逐步去噪生成数据点,类似于进化中的变异和选择机制。这一发现不仅在理论上具有重要意义,还提出了扩散进化方法,能够高效识别多解、处理高维复杂参数空间,并显著减少计算步骤,为图像生成、视频合成及神经网络优化等应用带来广泛潜力。论文地址:https://arxiv.org/pdf/2410.02543。
39 21
|
1月前
|
人工智能 算法 搜索推荐
单纯接入第三方模型就无需算法备案了么?
随着人工智能的发展,企业接入第三方模型提升业务能力的现象日益普遍,但算法备案问题引发诸多讨论。根据相关法规,无论使用自研或第三方模型,只要涉及向中国境内公众提供算法推荐服务,企业均需履行备案义务。这不仅因为服务性质未变,风险依然存在,也符合监管要求。备案内容涵盖模型基本信息、算法优化目标等,且需动态管理。未备案可能面临法律和运营风险。建议企业提前规划、合规管理和积极沟通,确保合法合规运营。
|
2月前
|
负载均衡 算法
架构学习:7种负载均衡算法策略
四层负载均衡包括数据链路层、网络层和应用层负载均衡。数据链路层通过修改MAC地址转发帧;网络层通过改变IP地址实现数据包转发;应用层有多种策略,如轮循、权重轮循、随机、权重随机、一致性哈希、响应速度和最少连接数均衡,确保请求合理分配到服务器,提升性能与稳定性。
356 11
架构学习:7种负载均衡算法策略
|
2月前
|
机器学习/深度学习 人工智能 算法
机器学习算法的优化与改进:提升模型性能的策略与方法
机器学习算法的优化与改进:提升模型性能的策略与方法
382 13
机器学习算法的优化与改进:提升模型性能的策略与方法
|
3月前
|
算法
基于模糊PI控制算法的龙格库塔CSTR模型控制系统simulink建模与仿真
本项目基于MATLAB2022a,采用模糊PI控制算法结合龙格-库塔方法,对CSTR模型进行Simulink建模与仿真。通过模糊控制处理误差及变化率,实现精确控制。核心在于将模糊逻辑与经典数值方法融合,提升系统性能。
|
3月前
|
存储 算法
基于HMM隐马尔可夫模型的金融数据预测算法matlab仿真
本项目基于HMM模型实现金融数据预测,包括模型训练与预测两部分。在MATLAB2022A上运行,通过计算状态转移和观测概率预测未来值,并绘制了预测值、真实值及预测误差的对比图。HMM模型适用于金融市场的时间序列分析,能够有效捕捉隐藏状态及其转换规律,为金融预测提供有力工具。
|
4月前
|
机器学习/深度学习 算法 Python
随机森林算法是一种强大的集成学习方法,通过构建多个决策树并综合其结果进行预测。
随机森林算法是一种强大的集成学习方法,通过构建多个决策树并综合其结果进行预测。本文详细介绍了随机森林的工作原理、性能优势、影响因素及调优方法,并提供了Python实现示例。适用于分类、回归及特征选择等多种应用场景。
136 7
|
4月前
|
存储 算法 安全
2024重生之回溯数据结构与算法系列学习之串(12)【无论是王道考研人还是IKUN都能包会的;不然别给我家鸽鸽丟脸好嘛?】
数据结构与算法系列学习之串的定义和基本操作、串的储存结构、基本操作的实现、朴素模式匹配算法、KMP算法等代码举例及图解说明;【含常见的报错问题及其对应的解决方法】你个小黑子;这都学不会;能不能不要给我家鸽鸽丢脸啊~除了会黑我家鸽鸽还会干嘛?!!!
2024重生之回溯数据结构与算法系列学习之串(12)【无论是王道考研人还是IKUN都能包会的;不然别给我家鸽鸽丟脸好嘛?】
|
4月前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
198 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型