如何利用机器学习预测房价?

简介: 本文作者利用自己过去三个月里所学到的东西,来预测所在城市的房价。所用到的技术有网络爬取技术、文本自然语言处理,图像上的深度学习模型以及梯度增强技术等。

对于我在梅蒂斯的最后一个项目,我希望能包含过去三个月里所学到的东西,而预测波特兰房价这个题目正符合我的要求,因为我能够将网络爬取技术、文本自然语言处理,图像上的深度学习模型以及梯度增强技术进行整合来实现这个项目。

下面你可以看到我抓取到的2016年7月至2017年7月这段时间内波特兰市8300个独户住宅的销售数据。

1.png

显然,街区在这其中起了非常重要的作用。西山(红色)是镇上最昂贵的地区之一,而东波特兰则便宜很多。平均售价为44.2万美元。

我希望能够在比街区更细粒度的水平上预测价格。例如,假设以下房子是彼此毗邻的。

22.png

2.png

这些房子面积相同,在同一年份建成,并位于同一条街上。但是,一个明显能让人产生购买的欲望,而另一个则没有。那么Zillow或Redfin(美国的两家大型房地产网站)或其他公司能够仅仅依靠一些房屋的文字数据来预测它们的价格呢?他们不能。这就是为什么我要把对房屋门口照片的分析作为其中一个特征纳入预测模型的原因。

当务之急就是要获取到所有的数据。这比原本预想的要困难的多。首先,我使用波特兰地图的官方API来爬取波特兰独户住宅的销售数据。不幸的是,API存在调用限制(每10分钟约150次调用),所以我不得不在AWS服务器上长时间地运行程序来抓取所有的详细数据。我使用Zillow API抓取了每个家庭的元数据和房地产商对房屋的描述。但是,抓取的速度也很慢,因为Zillow只允许你每天调用API 1000次。(我让丈夫、母亲和几个朋友来帮我获取更多的API密钥)

最后,数据收集过程中最困难的部分是获取图像。这是因为Zillow有获取图片的API,但Redfin没有,但Redfin会在房子出售后仍把图片留那,而Zillow不会。为了获取到Redfin网站上的图片,我编写了一个Selenium脚本,在Google Images上通过在搜索条目后增加“Redfin”一词来搜索房屋地址,然后抓取Google列出的第一张图片的URL。

不幸的是,虽然我有了图像的URL,实际要直接将它们下载下来并不简单。这是因为Redfin不允许你使用标准的Python包,例如发送请求获取数据,也不允许你使用简单的curl命令。幸运的是,在与别人讨论后,我们提出了这样一个想法:在curl命令的末尾加上“User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6)……”,以此来将你的终端请求伪装成浏览器请求。这终于成功了,最终我抓取到了8300个房屋的数据和图片!

现在数据有了,我准备要开始实现模型了。如下图所示:

3.png

让我们来详细介绍一下这三种输入数据类型。 Zillow元数据包含你原本预期的描述性文字:平方英尺、街区、建造年份等等。当我按p值对每个特征进行排序时,出现了一些惊喜的发现。我一直不知道格鲁吉亚建筑是什么样子的,直到我查了一下之后。

4.png

我准备采用自然语言处理技术来分析地产商的描述性文字。我对地产商的描述性文字做了两件事情:为每一个描述创建一个字矢量矩阵,这样就可以将其与Zillow元数据合并到一个特征矩阵中,还有,用NLTK情绪包来计算情绪评分:

5.png

我想,房地产经纪商的平均积极分数很高(平均分数为0.6,范围在-1到+1之间)并不让人觉得奇怪。因此,把情绪评分作为特征并没有改善模型。但是,在数据集中挖取最积极和最负面的分数非常有趣:

6.png

最后,为了将图片合并到模型中,我采用了VGG16深度神经网络对图像进行处理,以便提取出它们的特征(8300 x 25000的图像特征矩阵)。运行该模型的计算量相当得大,所以我需要在AWS上安装一个g2.8xlarge的GPU ubuntu实例。

7.png

图片模型在预测房价方面的效果如何呢?不错!这些是测试集中预测价格最高的三间屋子,显然,它们真的不错:

8.png

同样的,图片模型在预测廉价房屋方面也表现得很好:

9.png

我的模型在处理什么类型的图片时会存在问题呢?包含绿化的房屋!我的模型预测下面这个房屋价值250万,但实际上,图中的很多绿化都是免费赠送的!

10.png

好的,现在我确信我的图像模型已经挺不错了。我准备将Zillow元数据、地产商描述字矩阵和图像特征矩阵组合并到一个矩阵中,然后通过使用梯度提升算法来预测房价。作为一个基准预测,回想一下,数据集的平均房价是44.2万元。如果我预测每个家庭都值得这么多,那么平均而言,每个房子的价格就会下降16.1万元。而将图像合并到模型中能够立即将该错误降低2万元。把地产商描述添加到模型中则会将错误再降低1万元。最后,将Zillow元数据添加进来,则将平均绝对误差降低到大约7.1万元。

11.png

也许你想知道如果在预测房价上只使用Zillow元数据的话效果会怎么样?平均来说,它给出了一个7.0万元的误差。在添加了房地产商的描述后略微下降到6.9万元,但后来添加了图片后却增加到7.1万元。换句话说,现在的图片会轻微地降低模型的质量,而不是提升质量。

12.png

但是,请注意,图像特征矩阵具有25000列,而我只使用了8300张照片。我根本没有足够的数据来支撑这种模型。如果我在网上爬一个月并能获得更多的图片的话,我相信将图片整合到模型中将有助于提升预测的准确率。

总而言之,在完成这个项目的过程中,我学到了很多东西,也克服了几个重要的困难。我遇到的最大的困难是如何抓取Redfin图像以及如何使用VGG16模型。我发现Keras的文档仍然很少,所以在使用它的时候需要试错很多次。我为自己能完成这个项目而感到自豪,现在我需要做的只是获取更多的数据!你可以在这里找到GitHub项目。

文章原标题《Predicting Portland Home Prices》,作者:Lauren Shareshian,译者:夏天,审校:主题曲。

文章为简译,更为详细的内容,请查看原文

相关文章
|
3月前
|
机器学习/深度学习 数据采集 算法
深度学习和机器学习中针对非时间序列的回归任务,有哪些改进角度?
本文探讨了在深度学习和机器学习中针对非时间序列的回归任务的多种改进策略,包括数据预处理、数据集增强、特征选择、模型选择、模型正则化与泛化、优化器选择、学习率调整、超参数调优以及性能评估与模型解释,旨在提升模型的性能和可解释性。
69 1
深度学习和机器学习中针对非时间序列的回归任务,有哪些改进角度?
|
27天前
|
机器学习/深度学习 数据挖掘
二、机器学习之回归模型分析
二、机器学习之回归模型分析
93 0
|
3月前
|
机器学习/深度学习 算法 数据处理
《零基础实践深度学习》波士顿房价预测任务1.3.3.4训练过程
这篇文章详细阐述了如何使用线性回归对波士顿房价进行预测,包括构建神经网络模型、数据处理、模型设计、训练过程、梯度下降法以及随机梯度下降法(SGD)的应用,并提供了完整的Python代码实现。
|
4月前
|
机器学习/深度学习 数据处理 Python
机器学习实战:房价预测项目
【7月更文挑战第13天】本文详细介绍了基于机器学习的房价预测项目的实战过程。从数据准备、特征工程、模型构建到结果评估,每一步都至关重要。通过合理的特征选择和模型优化,我们可以构建出性能优异的房价预测模型,为房地产行业的决策提供有力支持。未来,随着机器学习技术的不断发展和应用场景的不断拓展,房价预测模型将更加智能化和精准化。
|
机器学习/深度学习 数据采集 人工智能
预测知识 | 机器学习预测模型局限性
预测知识 | 机器学习预测模型局限性
|
6月前
|
机器学习/深度学习 算法
机器学习的魔法(二)超越预测的界限-揭秘机器学习的黑科技-探索监督学习中的回归和分类问题
机器学习的魔法(二)超越预测的界限-揭秘机器学习的黑科技-探索监督学习中的回归和分类问题
172 0
|
机器学习/深度学习 分布式计算 并行计算
探索UCI心脏病数据:利用R语言和h2o深度学习构建预测模型
本文的研究目的是基于UCI心脏病数据集[1],利用R语言和h2o深度学习框架构建一个预测模型,旨在准确预测个体患心脏病的风险。通过使用该模型,医疗专业人员可以更好地进行早期干预和预防措施,从而提高患者的生活质量和健康状况。
861 0
|
机器学习/深度学习 数据采集 Dart
使用阿里云机器学习PAI做回归预测
XGBoost是一种集成机器学习算法,能够处理分类和回归问题。它具有高准确性、鲁棒性、可解释性和可扩展性等优点。XGBoost的算法原理是集成多个决策树模型,每个模型都是在前一个模型的残差上进行训练。在训练过程中,XGBoost使用了一些技术来避免过拟合,例如正则化、剪枝和子采样。如果想要处理分类和回归问题,XGBoost是一个值得尝试的机器学习算法。
395 0
使用阿里云机器学习PAI做回归预测
|
机器学习/深度学习
【阿旭机器学习实战】【13】决策树分类模型实战:泰坦尼克号生存预测
【阿旭机器学习实战】【13】决策树分类模型实战:泰坦尼克号生存预测
【阿旭机器学习实战】【13】决策树分类模型实战:泰坦尼克号生存预测
|
机器学习/深度学习
【阿旭机器学习实战】【14】决策树回归模型实战:对美国波士顿房价进行分析预测
【阿旭机器学习实战】【14】决策树回归模型实战:对美国波士顿房价进行分析预测