1 波士顿房价预测
1.1 实验介绍
1.1.1 关于本实验
本实验所使用的开发环境的具体搭建可以参照《人工智能技术实验环境搭建实验手册》;由于本案例使用的数据集样本量较小,且数据来自于scikit-learn自带的开源波士顿房价数据。波士顿房价预测项目是一个简单的回归模型,通过该项目的学习可以学会一些关于机器学习库sklearn的基本用法和一些基本的数据处理方法。
1.1.2 实验目的
利用网络公开的波士顿房价数据集,作为模型输入数据。
构建机器学习模型,并进行训练与评估。
了解机器学习模型搭建的总体流程。
掌握机器学习模型训练,网格搜索,评估指标的运用。
掌握相关API的使用。
1.1.3 本实验数据集与框架
该案例主要内容是进行波士顿数据集,共有13个特征,总共506条数据,每条数据包含房屋以及房屋周围的详细信息。其中包含城镇犯罪率,一氧化氮浓度,住宅平均房间数,到中心区域的加权距离以及自住房平均房价等等。具体如下:
CRIM:城镇人均犯罪率。
ZN:住宅用地超过 25000 sq.ft. 的比例。
INDUS:城镇非零售商用土地的比例。
CHAS:查理斯河空变量(如果边界是河流,则为1;否则为0)。
NOX:一氧化氮浓度。
RM:住宅平均房间数。
AGE:1940 年之前建成的自用房屋比例。
DIS:到波士顿五个中心区域的加权距离。
RAD:辐射性公路的接近指数。
TAX:每 10000 美元的全值财产税率。
PTRATIO:城镇师生比例。
B:1000(Bk-0.63)^ 2,其中 Bk 指代城镇中黑人的比例。
LSTAT:人口中地位低下者的比例。
target:自住房的平均房价,以千美元计。
框架:Sklearn,框架一方面提供波士顿房价数据,并且提供用于分割数据集,标准化,评价函数,另一方面集成了各类常规机器学习算法;另外我们使用了XGboost,是集成算法中GBDT的优化版本。