基于xgboost的波士顿房价预测kaggle实战-阿里云开发者社区

基于xgboost的波士顿房价预测kaggle实战

2018-08-24 3363

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： xgboost中文叫做极致梯度提升模型，官方文档链接：https://xgboost.readthedocs.io/en/latest/tutorials/model.html2018年8月24日笔记这是作者在波士顿房价预测项目的第3篇文章，在查看此篇文章之前，请确保已经阅读前2篇文章。

xgboost中文叫做极致梯度提升模型，官方文档链接：https://xgboost.readthedocs.io/en/latest/tutorials/model.html

2018年8月24日笔记
这是作者在波士顿房价预测项目的第3篇文章，在查看此篇文章之前，请确保已经阅读前2篇文章。
第2篇文章链接：https://www.jianshu.com/p/f34f22258a0a

0.打开jupyter notebook

不知道怎么打开jupyter notebook的朋友请查看我的入门指南文章：https://www.jianshu.com/p/bb0812a70246

1.准备数据

kaggle网站波士顿房价项目链接：https://www.kaggle.com/c/boston-housing
网页内容如下图所示：

image.png

查看项目评分标准，如下图所示：

image.png

从上图我们可以看出，该项目使用RMSE指标评估。
RMSE是root mean square error的简写，中文叫做均方根误差。
上图中的公式有错误，正确应该如下图所示：

image.png

2.作者的最高分

波士顿房价预测项目是2016年的项目，现在已经结束。
所以读者可以先熟悉提交答案的流程，作者提供自己的最高分文件。
提交文件下载链接: https://pan.baidu.com/s/1DxSEuysjOLCVuNlnw41-oQ 密码: b8jm
提交结果如下图所示：

image.png

从上图的结果可以看到，作者的最高分有3.02分，可以排到第5名。
后面的章节讲述提升模型回归效果，即降低RMSE的过程。

3.下载数据集

如下图所示，下载红色箭头标示的3个文件。
下载完成后，就可以开始编程。

image.png

4.加载数据集

train.csv文件中的表格有15个字段，第1个字段是ID，最后1个字段是预测目标值。
用df.iloc[:,1:-1]取除了第1个字段和最后1个字段的其他字段。

import pandas as pd

def dataProcessing(df):
    field_cut = {
    'crim' : [0,10,20, 100],
    'zn' : [-1, 5, 18, 20, 40, 80, 86, 100], 
    'indus' : [-1, 7, 15, 23, 40],
    'nox' : [0, 0.51, 0.6, 0.7, 0.8, 1],
    'rm' : [0, 4, 5, 6, 7, 8, 9],
    'age' : [0, 60, 80, 100],
    'dis' : [0, 2, 6, 14],
    'rad' : [0, 5, 10, 25],
    'tax' : [0, 200, 400, 500, 800],
    'ptratio' : [0, 14, 20, 23],
    'black' : [0, 100, 350, 450],
    'lstat' : [0, 5, 10, 20, 40]
    }
    cut_df = pd.DataFrame()
    for field in field_cut.keys():
        cut_series = pd.cut(df[field], field_cut[field], right=True)
        onehot_df = pd.get_dummies(cut_series, prefix=field)
        cut_df = pd.concat([cut_df, onehot_df], axis=1)
    new_df = pd.concat([df, cut_df], axis=1)
    return new_df

df = pd.read_csv('train.csv')
field_df = df.iloc[:,1:-1]
feature_df = dataProcessing(field_df)

根据网上的资料显示，有部分异常值的预测目标值为50。
清除异常值，代码如下：

X = feature_df
y = df['medv'].values
print(X.shape)
X = X[y!=50]
y = y[y!=50]
print(X.shape)

上面一段代码的运行结果如下：

(333, 61)
(322, 61)

5.模型训练

from xgboost import XGBRegressor
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import ShuffleSplit


xgb_model = XGBRegressor(nthread=7)
cv_split = ShuffleSplit(n_splits=6, train_size=0.7, test_size=0.2)
grid_params = dict(
    max_depth = [4, 5, 6, 7],
    learning_rate = np.linspace(0.03, 0.3, 10),
    n_estimators = [100, 200]
)
grid = GridSearchCV(xgb_model, grid_params, cv=cv_split, scoring='neg_mean_squared_error')
grid.fit(X, y)

查看模型的最优参数和最优rmse指标，代码如下：

print(grid_model.best_params_)
print('rmse:', (-grid_model.best_score_) ** 0.5)

上面一段代码的运行结果如下：

{'learning_rate': 0.03, 'max_depth': 6, 'n_estimators': 200}
rmse: 2.885408101511587

利用训练好的结果，对测试集做回归预测，代码如下：

predict_df = pd.read_csv('test.csv')
predict_X = dataProcessing(predict_df.iloc[:,1:]).values
predict_y = grid_model.predict(predict_X)
save_df = pd.DataFrame({
    'ID' : predict_df.ID,
    'medv' : predict_y
})
save_df.to_csv('xgb_boston_submission1.csv', index=False)

6.提交作答文件

点击下图红色箭头标示处，界面如下图所示。
分为2步：1.上传作答文件；2.对此次作答做简单的描述。

image.png

作者的作答文件命名为 xgb_boston_submission1.csv，如下图所示。
重新运行的提交分数为3.10，分数略有下降，但是仍能进入前5。

image.png

基于xgboost的波士顿房价预测kaggle实战

0.打开jupyter notebook

1.准备数据

2.作者的最高分

3.下载数据集

4.加载数据集

5.模型训练

6.提交作答文件

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

基于xgboost的波士顿房价预测kaggle实战

0.打开jupyter notebook

1.准备数据

2.作者的最高分

3.下载数据集

4.加载数据集

5.模型训练

6.提交作答文件

热门文章

最新文章

相关课程

相关电子书

相关实验场景