Python分析香港26281套在售二手房数据-阿里云开发者社区

Python分析香港26281套在售二手房数据

2024-05-20 78

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Python分析香港26281套在售二手房数据

描述性统计

数据获取

爬虫核心代码

#将繁体转换成简体
def tradition2simple(line):
return Converter(‘zh-hans’).convert(line)
#解析网页
def get_page(page):
if page <11:
url = ‘http://hk.centanet.com/findproperty/BLL/Result_SearchHandler.ashx?url=http%3A%2F%2Fhk.centanet.com%2Ffindproperty%2Fzh-HK%2FHome%2FSearchResult%3Fposttype%3DS%26src%3DC%26minprice%3D%26maxprice%3D%26sortcolumn%3D%26sorttype%3D%26limit%3D100%26currentpage%3D{0}’.format(page)
else:
url = ‘http://hk.centanet.com/findproperty/BLL/Result_SearchHandler.ashx?url=http%3A%2F%2Fhk.centanet.com%2Ffindproperty%2Fzh-HK%2FHome%2FSearchResult%3Fposttype%3DS%26src%3DC%26minprice%3D%26maxprice%3D%26sortcolumn%3D%26sorttype%3D%26limit%3D-1%26currentpage%3D{0}’.format(page)
req = requests.get(url, headers = headers)
bs = req.json()

print(bs)

ts = tradition2simple(bs[‘post’])

print(ts)

html = etree.HTML(ts)
if name == ‘main’:
ua = UserAgent(verify_ssl=False)
headers = {“User-Agent”: ua.random}
for page in range(1,2624): #共2623页
get_page(page)

time.sleep(1)

print(“第%d页爬取完成”%page)
print(‘-’*100)

数据预览

数据清洗

建筑面积/单价

#异常字符替换为空
df[“建筑面积”] = df[“建筑面积”].str.replace(“,”,“”).astype(“float”)
df[“建面单价”] = df[“建面单价”].str.replace(“$”,“”).str.replace(“,”,“”).str.replace(“/呎”,“”).astype(“float”)
#建筑面积和建面单价缺失值用均值填充
df = df.fillna(value={‘建筑面积’:df[“建筑面积”].mean(),‘建面单价’:df[“建面单价”].mean()})

间隔

存在缺失值、换行符、非数字型、无房间数等脏数据

df[“间隔”] = df[“间隔”].str.replace(“\r\n”,“”).str[:1]
df = df[ ~ df[‘间隔’].isin([‘(’])] #删除某列包含特殊字符的行
df[“间隔”] = df[“间隔”].str.replace(“开”,“0”).astype(“float”)
df = df.fillna(value={‘间隔’:df[“间隔”].mean()})
df[“间隔”] = df[“间隔”].astype(“int”)

售价

#售价单位存在万和亿，进行统一化处理
df[“售价”] = (df[“售价”].str.replace(“$”,“”).str.replace(“,”,“”).str[:-1].astype(float) * df[‘售价’].str[-1].map({“万”: 1, “亿”: 10000})).astype(“int”)

数据可视化

回归图

fig,axes=plt.subplots(5,1,figsize=(12,30))
sns.regplot(x=‘间隔’,y=‘实用单价’,data=df1,color=‘green’,marker=‘*’,ax=axes[0])
sns.regplot(x=‘楼龄’,y=‘实用单价’,data=df1,color=‘green’,marker=‘*’,ax=axes[1])
sns.regplot(x=‘实用面积’,y=‘实用单价’,data=df1,color=‘green’,marker=‘*’,ax=axes[2])
sns.regplot(x=‘建筑面积’,y=‘实用单价’,data=df1,color=‘green’,marker=‘*’,ax=axes[3])
sns.regplot(x=‘实用率’,y=‘实用单价’,data=df1,color=‘green’,marker=‘*’,ax=axes[4])

条形图

df5 = df1.groupby(‘屋苑位置’)[‘实用单价’].count()
df5 = df5.sort_values(ascending=True)
df5 = df5.tail(10)
print(df5.index.to_list())
print(df5.to_list())
c = (
Bar(init_opts=opts.InitOpts(theme=ThemeType.WONDERLAND))
.add_xaxis(df5.index.to_list())
.add_yaxis(“”,df5.to_list()).reversal_axis() #X轴与y轴调换顺序

现在能在网上找到很多很多的学习资源，有免费的也有收费的，当我拿到1套比较全的学习资源之前，我并没着急去看第1节，我而是去审视这套资源是否值得学习，有时候也会去问一些学长的意见，如果可以之后，我会对这套学习资源做1个学习计划，我的学习计划主要包括规划图和学习进度表。

分享给大家这份我薅到的免费视频资料，质量还不错，大家可以跟着学习

Python分析香港26281套在售二手房数据

描述性统计

相关性分析

数据获取

爬虫核心代码

print(bs)

print(ts)

time.sleep(1)

数据预览

数据清洗

建筑面积/单价

间隔

存在缺失值、换行符、非数字型、无房间数等脏数据

售价

数据可视化

回归图

条形图

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Python分析香港26281套在售二手房数据

描述性统计

相关性分析

数据获取

爬虫核心代码

print(bs)

print(ts)

time.sleep(1)

数据预览

数据清洗

建筑面积/单价

间隔

存在缺失值、换行符、非数字型、无房间数等脏数据

售价

数据可视化

回归图

条形图

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像