Python分析香港26281套在售二手房数据

简介: Python分析香港26281套在售二手房数据

描述性统计

相关性分析

从相关系数表和回归图来看,间隔(即居室)和楼龄都与香港二手房房价无明显的相关性。实用面积与房价具有较强的正相关性,一般来说,人们在看房子时看到的面积是建筑面积,但却不是实用面积。套内建筑面积=套内使用面积+套内墙体面积+阳台面积,而实用面积就是套内使用面积。另外,实用率与房价也无相关性,这与大部分人的感性认识存在偏差。

技术实现


本文数据来源于中原地产,网页结构相对简单。数据清洗主要用到Python的pandas库,由于内容较多,仅提供核心字段清洗代码。数据可视化主要用到Python的pyecharts库,都是一些基础图表,本公众号往期原创文章也已多次提及。

数据获取

爬虫核心代码
#将繁体转换成简体
def tradition2simple(line):
return Converter(‘zh-hans’).convert(line)
#解析网页
def get_page(page):
if page <11:
url = ‘http://hk.centanet.com/findproperty/BLL/Result_SearchHandler.ashx?url=http%3A%2F%2Fhk.centanet.com%2Ffindproperty%2Fzh-HK%2FHome%2FSearchResult%3Fposttype%3DS%26src%3DC%26minprice%3D%26maxprice%3D%26sortcolumn%3D%26sorttype%3D%26limit%3D100%26currentpage%3D{0}’.format(page)
else:
url = ‘http://hk.centanet.com/findproperty/BLL/Result_SearchHandler.ashx?url=http%3A%2F%2Fhk.centanet.com%2Ffindproperty%2Fzh-HK%2FHome%2FSearchResult%3Fposttype%3DS%26src%3DC%26minprice%3D%26maxprice%3D%26sortcolumn%3D%26sorttype%3D%26limit%3D-1%26currentpage%3D{0}’.format(page)
req = requests.get(url, headers = headers)
bs = req.json()

print(bs)

ts = tradition2simple(bs[‘post’])

print(ts)

html = etree.HTML(ts)
if name == ‘main’:
ua = UserAgent(verify_ssl=False)
headers = {“User-Agent”: ua.random}
for page in range(1,2624): #共2623页
get_page(page)

time.sleep(1)

print(“第%d页爬取完成”%page)
print(‘-’*100)
数据预览

数据清洗

建筑面积/单价
#异常字符替换为空
df[“建筑面积”] = df[“建筑面积”].str.replace(“,”,“”).astype(“float”)
df[“建面单价”] = df[“建面单价”].str.replace(“$”,“”).str.replace(“,”,“”).str.replace(“/呎”,“”).astype(“float”)
#建筑面积和建面单价缺失值用均值填充
df = df.fillna(value={‘建筑面积’:df[“建筑面积”].mean(),‘建面单价’:df[“建面单价”].mean()})
间隔

存在缺失值、换行符、非数字型、无房间数等脏数据

df[“间隔”] = df[“间隔”].str.replace(“\r\n”,“”).str[:1]
df = df[ ~ df[‘间隔’].isin([‘(’])] #删除某列包含特殊字符的行
df[“间隔”] = df[“间隔”].str.replace(“开”,“0”).astype(“float”)
df = df.fillna(value={‘间隔’:df[“间隔”].mean()})
df[“间隔”] = df[“间隔”].astype(“int”)
售价
#售价单位存在万和亿,进行统一化处理
df[“售价”] = (df[“售价”].str.replace(“$”,“”).str.replace(“,”,“”).str[:-1].astype(float) * df[‘售价’].str[-1].map({“万”: 1, “亿”: 10000})).astype(“int”)

数据可视化

回归图
fig,axes=plt.subplots(5,1,figsize=(12,30))
sns.regplot(x=‘间隔’,y=‘实用单价’,data=df1,color=‘green’,marker=‘*’,ax=axes[0])
sns.regplot(x=‘楼龄’,y=‘实用单价’,data=df1,color=‘green’,marker=‘*’,ax=axes[1])
sns.regplot(x=‘实用面积’,y=‘实用单价’,data=df1,color=‘green’,marker=‘*’,ax=axes[2])
sns.regplot(x=‘建筑面积’,y=‘实用单价’,data=df1,color=‘green’,marker=‘*’,ax=axes[3])
sns.regplot(x=‘实用率’,y=‘实用单价’,data=df1,color=‘green’,marker=‘*’,ax=axes[4])
条形图
df5 = df1.groupby(‘屋苑位置’)[‘实用单价’].count()
df5 = df5.sort_values(ascending=True)
df5 = df5.tail(10)
print(df5.index.to_list())
print(df5.to_list())
c = (
Bar(init_opts=opts.InitOpts(theme=ThemeType.WONDERLAND))
.add_xaxis(df5.index.to_list())
.add_yaxis(“”,df5.to_list()).reversal_axis() #X轴与y轴调换顺序

现在能在网上找到很多很多的学习资源,有免费的也有收费的,当我拿到1套比较全的学习资源之前,我并没着急去看第1节,我而是去审视这套资源是否值得学习,有时候也会去问一些学长的意见,如果可以之后,我会对这套学习资源做1个学习计划,我的学习计划主要包括规划图和学习进度表。

分享给大家这份我薅到的免费视频资料,质量还不错,大家可以跟着学习


相关文章
|
3天前
|
存储 JSON JavaScript
使用Python处理JSON格式数据
使用Python处理JSON格式数据
|
1天前
|
存储 安全 Java
在Python中,引用和赋值机制是理解变量和数据对象之间关系的关键
【6月更文挑战第16天】Python变量是对象引用,不存储数据,指向内存中的对象。赋值`=`创建引用,不复制对象。`b = a`时,a和b指向同一对象。引用计数管理对象生命周期,垃圾回收在引用数为0时回收对象。理解这些机制对优化内存使用关键。
14 7
|
1天前
|
数据采集 机器学习/深度学习 数据可视化
数据挖掘实战:Python在金融数据分析中的应用案例
Python在金融数据分析中扮演关键角色,用于预测市场趋势和风险管理。本文通过案例展示了使用Python库(如pandas、numpy、matplotlib等)进行数据获取、清洗、分析和建立预测模型,例如计算苹果公司(AAPL)股票的简单移动平均线,以展示基本流程。此示例为更复杂的金融建模奠定了基础。【6月更文挑战第13天】
9 3
|
2天前
|
存储 Python 容器
【Python数据魔术】:揭秘类型奥秘,赋能代码创造
【Python数据魔术】:揭秘类型奥秘,赋能代码创造
|
2天前
|
存储 索引 Python
【Python列表解锁】:掌握序列精髓,驾驭动态数据集合
【Python列表解锁】:掌握序列精髓,驾驭动态数据集合
|
2天前
|
JSON API 数据格式
如何用 Python 的 requests 库发送 JSON 数据的 POST 请求
使用 requests 库发送 JSON 数据的 POST 请求是一个非常简单且实用的操作。通过将目标 URL 和 JSON 数据传递给 requests.post 方法,你可以轻松发送请求并处理响应。本篇文章介绍了从安装 requests 库,到发送 JSON 数据的 POST 请求,再到处理响应的整个流程。希望这篇文章能帮助你更好地理解并应用这个强大的 HTTP 请求库。
|
3天前
|
机器学习/深度学习 数据采集 分布式计算
如何用Python处理大数据分析?
【6月更文挑战第14天】如何用Python处理大数据分析?
12 4
|
3天前
|
机器学习/深度学习 存储 监控
基于YOLOv8深度学习的无人机视角高精度太阳能电池板检测与分析系统【python源码+Pyqt5界面+数据集+训练代码】深度学习实战、目标分割
基于YOLOv8深度学习的无人机视角高精度太阳能电池板检测与分析系统【python源码+Pyqt5界面+数据集+训练代码】深度学习实战、目标分割
|
3天前
|
机器学习/深度学习 存储 计算机视觉
基于YOLOv8深度学习的智能道路裂缝检测与分析系统【python源码+Pyqt5界面+数据集+训练代码】深度学习实战、目标检测、目标分割(2)
基于YOLOv8深度学习的智能道路裂缝检测与分析系统【python源码+Pyqt5界面+数据集+训练代码】深度学习实战、目标检测、目标分割
|
3天前
|
机器学习/深度学习 存储 安全
基于YOLOv8深度学习的智能道路裂缝检测与分析系统【python源码+Pyqt5界面+数据集+训练代码】深度学习实战、目标检测、目标分割(1)
基于YOLOv8深度学习的智能道路裂缝检测与分析系统【python源码+Pyqt5界面+数据集+训练代码】深度学习实战、目标检测、目标分割