PYTHON链家租房数据分析:岭回归、LASSO、随机森林、XGBOOST、KERAS神经网络、KMEANS聚类、地理可视化

简介: PYTHON链家租房数据分析:岭回归、LASSO、随机森林、XGBOOST、KERAS神经网络、KMEANS聚类、地理可视化

全文下载链接:http://tecdat.cn/?p=29480

作者:Xingsheng Yang


1 利用 python 获取链家网公开的租房数据;

2 对租房信息进行分析,主要对房租相关特征进行分析,并搭建模型用于预测房租。


任务/目标


利用上海链家网站租房的公开信息,着重对月租进行数据分析和挖掘。


上海租赁数据


此数据来自 Lianjia.com.csv文件包含名称,租赁类型,床位数量,价格,经度,纬度,阳台,押金,公寓,描述,旅游,交通,独立浴室,家具,新房源,大小,方向,堤坝,电梯,停车场和便利设施信息。

属性:

名称:列表名称

类型:转租或全部租赁(全部)

床:卧室号码

价格

经度/纬度:坐标

阳台,押金(是否有押金政策),公寓,描述,旅游可用性,靠近交通,独立浴室,家具

新房源:NO-0,YES-1

面积:平方米

朝向:朝向窗户,南1,东南2,东-3,北4,西南-5,西-6,西北-7,东北8,未知-0

级别:房源层级, 地下室-0, 低层(1-15)-1, 中层(15-25)-2, 高层(>25)-3

停车场:无停车场-0,额外收费-1,免费停车-2

设施:设施数量

import pandas as pd
import numpy as np
import geopandas 
df = pd.read\_csv('lighai.csv', sep =',', encoding='utf\_8\_sig', header=None)
df.head()

数据预处理


ETL处理,清理数据帧。

df_clean.head()

探索性分析 - 数据可视化


plt.figure(figsize=(8, 6))
sns.distplot(df_clean.price, bins=500, kde=True)
plt.xscale('log') # Log transform the price

读取地理数据


plt.figure(figsize=(12, 12))
sns.heatmap(df_clean.corr(), square=True, annot=True, fmt = '.2f', cmap = 'vla


点击标题查阅往期内容


线性回归和时间序列分析北京房价影响因素可视化案例


01

02

03

04



模型构建


尝试根据特征预测价格。

y = df\_clean.log\_price
X = df\_clean.iloc\[:, 1:\].drop(\['price', 'log\_price'\], axis=1)

岭回归模型


ridge = Ridge()
alphas = \[0.0001, 0.001, 0.001, 0.01, 0.1, 0.5, 1, 2, 3, 5, 10\]

Lasso回归

coef.sort_values(ascending=False).plot(kind = 'barh')

Random forest随机森林

rf\_cv.fit(X\_train, y_train)

XGBoost

xgb_model.loc\[30:,\['test-rmse-mean', 'train-rmse-mean'\]\].plot();

xgb\_cv.fit(X\_train, y_train)

Keras神经网络


model.add(Dense(1, kernel_initializer='normal'))
# Compile model
model.compile(loss='mean\_squared\_error', optimizer='Adam')
model.summary()

kmeans聚类数据


kmeanModel = KMeans(n_clusters=k).fit(X) 
    kmeanModel.fit(X)     
    inertias.append(kmeanModel.inertia_) 
plt.plot(K, inertias, 'bx-')

gpd.plot(figsize=(12,10), alpha=0.3)
scatter\_map = plt.scatter(data=df\_clean, x='lon', y='lat', c='label', alpha=0.3, cmap='tab10', s=2)

相关文章
|
7月前
|
机器学习/深度学习 数据采集 数据可视化
【python】python当当数据分析可视化聚类支持向量机预测(源码+数据集+论文)【独一无二】
【python】python当当数据分析可视化聚类支持向量机预测(源码+数据集+论文)【独一无二】
131 1
|
10月前
|
机器学习/深度学习 数据可视化 TensorFlow
使用Keras构建一个简单的神经网络模型
使用Keras构建一个简单的神经网络模型
|
7月前
|
机器学习/深度学习 API 算法框架/工具
【Tensorflow+keras】Keras API三种搭建神经网络的方式及以mnist举例实现
使用Keras API构建神经网络的三种方法:使用Sequential模型、使用函数式API以及通过继承Model类来自定义模型,并提供了基于MNIST数据集的示例代码。
86 12
|
6月前
|
应用服务中间件 网络虚拟化 nginx
Python中采用lasso、SCAD、LARS技术分析棒球运动员薪资的案例集锦
以上是对每个问题的简要答案,由于篇幅限制,未能深入到1000字的详细解释,但希望这提供了一个良好的起点。对于这类复杂的话题,深入研究和专业指导至关重要。
54 0
|
7月前
|
机器学习/深度学习 Linux TensorFlow
【Tensorflow+keras】用代码给神经网络结构绘图
文章提供了使用TensorFlow和Keras来绘制神经网络结构图的方法,并给出了具体的代码示例。
96 0
|
7月前
|
机器学习/深度学习 测试技术 API
【Python-Keras】Keras搭建神经网络模型的Model解析与使用
这篇文章详细介绍了Keras中搭建神经网络模型的`Model`类及其API方法,包括模型配置、训练、评估、预测等,并展示了如何使用Sequential模型和函数式模型来构建和训练神经网络。
154 1
|
8月前
|
机器学习/深度学习 TensorFlow 算法框架/工具
利用Keras实现一个双层的卷积神经网络
【7月更文挑战第27天】利用Keras实现一个双层的卷积神经网络。
45 3
|
8月前
|
机器学习/深度学习 算法 数据挖掘
基于改进K-means的网络数据聚类算法matlab仿真
**摘要:** K-means聚类算法分析,利用MATLAB2022a进行实现。算法基于最小化误差平方和,优点在于简单快速,适合大数据集,但易受初始值影响。文中探讨了该依赖性并通过实验展示了随机初始值对结果的敏感性。针对传统算法的局限,提出改进版解决孤点影响和K值选择问题。代码中遍历不同K值,计算距离代价,寻找最优聚类数。最终应用改进后的K-means进行聚类分析。
166 10
|
7月前
|
存储 数据可视化 数据挖掘
【python】python租房数据分析可视化(源码+数据+报告)【独一无二】
【python】python租房数据分析可视化(源码+数据+报告)【独一无二】
311 0
|
7月前
|
机器学习/深度学习 数据可视化 算法
基于python flask的租房数据可视化系统,通过随机森林预测,可以选择条件
本文介绍了一个基于Python Flask框架开发的租房数据可视化系统,该系统集成了随机森林预测算法,允许用户输入租房相关特征并预测价格,同时提供数据可视化功能,帮助用户和房东做出更明智的市场决策。
110 0

热门文章

最新文章