一、设计要求
背景:
随着在线租房平台的兴起,大量的租房数据被生成和存储。这些数据包含了丰富的信息,如房屋类型、
地理位置、租金、设施等。通过对这些数据的分析,我们可以了解租房市场的趋势、租户的偏好以及
不同区域的租金差异等。
要求:
1.数据收集:(数据已获取–租房数据.csv)
从某在线租房平台(如链家、贝壳找房等)获取租房数据,或使用公开可用的租房数据集。
数据应包含至少以下字段:房屋类型、地理位置(具体到小区或街道)、租金、面积、卧室数量、
是否包含某些设施(如空调、独立卫生间等)。
2.数据清洗:
对收集到的数据进行清洗,处理缺失值、异常值以及重复数据。
根据需要对数据进行适当的转换(如将租金从文本转换为数字类型)。
3.数据分析:
使用Python的pandas库对数据进行基本的统计分析,如计算租金的平均值、中位数、众数等。
使用matplotlib或seaborn库绘制图表,展示租金与地理位置、房屋类型、面积等因素的关系。
分析不同区域的租金差异,并尝试解释这些差异的原因(如交通便利性、周边设施等)。
分析租户的偏好,如哪些设施对租户来说是最重要的。
👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “租房” 获取。👈👈👈
二、数据分析可视化
首先,对租金进行基本统计分析,包括计算租金的平均值、中位数和众数,并绘制租金分布的直方图。
import matplotlib.pyplot as pltimport seaborn as sns # 租金的基本统计分析print(data['租金'].describe()) # 绘制租金的直方图 plt.figure(figsize=(10, 6)) sns.histplot(data['租金'], kde=True) plt.title('租金分布') plt.xlabel('租金 (元)') plt.ylabel('频数') plt.show()
从租金分布图中可以看出,大多数房屋的租金集中在6000元到15000元之间,部分高档别墅的租金超过20000元。
不同房屋类型的租金统计
通过箱线图展示不同房屋类型的租金分布情况,可以看出别墅的租金普遍较高,而公寓和一室一厅的租金较低。
👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “租房” 获取。👈👈👈
# 不同房屋类型的租金统计 plt.figure(figsize=(12, 8)) sns.boxplot(x='房屋类型', y='租金', data=data) plt.title('不同房屋类型的租金分布') plt.xlabel('房屋类型') plt.ylabel('租金 (元)') plt.show()
不同地理位置的租金统计
通过箱线图展示不同地理位置的租金分布情况,可以发现一些核心区域(如朝阳区、海淀区)的租金明显高于其他区域。
👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “租房” 获取。👈👈👈
# 不同地理位置的租金统计 plt.figure(figsize=(15, 10)) sns.boxplot(x='地理位置', y='租金', data=data) plt.title('不同地理位置的租金分布') plt.xlabel('地理位置') plt.ylabel('租金 (元)') plt.xticks(rotation=90) plt.show()
不同面积段的租金统计
将面积分为多个区间,展示不同面积段的租金分布情况。通常,面积越大,租金越高。
# 不同面积段的租金统计 data['面积段'] = pd.cut(data['面积(平方米)'], bins=[0, 50, 100, 150, 200, 250, 300], labels=['0-50', '51-100', '101-150', '151-200', '201-250', '251-300']) plt.figure(figsize=(12, 8)) sns.boxplot(x='面积段', y='租金', data=data) plt.title('不同面积段的租金分布') plt.xlabel('面积段 (平方米)') plt.ylabel('租金 (元)') plt.show()
👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “租房” 获取。👈👈👈
各区域租金的平均值
计算并展示各区域租金的平均值,发现朝阳区和海淀区的租金较高,而远郊区县的租金相对较低。
# 各区域租金的平均值 avg_rent_per_location = data.groupby('地理位置')['租金'].mean().sort_values() plt.figure(figsize=(15, 10)) avg_rent_per_location.plot(kind='barh') plt.title('各区域租金的平均值') plt.xlabel('平均租金 (元)') plt.ylabel('地理位置') plt.show()
租户对设施的偏好
分析租户对空调和独立卫生间这两个设施的偏好情况,发现大多数租户更偏好有空调和独立卫生间的房屋。
👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “租房” 获取。👈👈👈
# 分析租户对设施的偏好 facility_prefs = data[['包含空调', '包含独立卫生间']].apply(pd.Series.value_counts) facility_prefs.plot(kind='bar', stacked=True, figsize=(10, 6)) plt.title('租户对设施的偏好') plt.xlabel('设施') plt.ylabel('数量') plt.xticks(rotation=0) plt.show()
👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “租房” 获取。👈👈👈