程序员必知：对厦门二手房的数据分析与可视化分析-阿里云开发者社区

程序员必知：对厦门二手房的数据分析与可视化分析

2024-06-25 17

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 程序员必知：对厦门二手房的数据分析与可视化分析

1、选题背景

房价的迅速飞涨，即将毕业的我们，就要面对高昂的房价，虽然我们不能做出实际行动，但是除此之外我们还可以房价分析。利用科学的技术手段，洞察房价的趋势。本次项目选择了厦门城市，通过了解厦门市二手房的情况，可以帮助人们在购房、出租等方面做出更明智的决策。可以帮助人们了解重庆市经济的发展趋势。随着互联网的发展，越来越多的房地产信息通过网络发布，使用爬虫技术可以方便地收集和分析这些信息。而本次项目选择的数据来源是链家。链家是一家著名的房地产经纪公司，在厦门有着广泛的房地产业务。通过爬取厦门链家发布的二手房信息，可以获得丰富的数据，为分析提供参考。

2、数据//代码效果参考：http://www.zidongmutanji.com/zsjx/431123.html

分析步骤

数据源：链家网址：以及厦门二手房的数据爬取网址：

2.1数据采集

该部分通过网络爬虫程序抓取链家网上所有重庆二手房的数据，收集原始数据。通过url到指定的网站进行数据爬取，设置了id，小区名（xiaoquming），价格（jiage），地区（diqu），房屋户型(fangwuhuxing)，所在楼层(suozailouceng)，建筑面积(jianzhumianji)等字段最后通过save_data（）将爬取的数据进行保存。

导入库

import requests,time,csv

import pandas as pd

from lxml import etree

#获取每一页的url

def Get_url(url):

all_url=【】

for i in range(1,101):

all_url.append(url+'pg'+str(i)+'/') #储存每一个页面的url

return all_url

#获取每套房详情信息的url

def Get_house_url(all_url,headers):

num=0

#简单统计页数

for i in all_url:

r=requests.get(i,headers=headers)

html=etree.html

(r.text)

//代码效果参考：http://www.zidongmutanji.com/bxxx/524472.html

url_ls=html.xpath("//ul【@class='sellListContent'】/li/a/@href") #获取房子的url

Analysis_html(url_ls,headers)

time.sleep(4)

print("第%s页爬完了"%i)

num+=1

获取每套房的详情信息

#获取每套房的详情信息

def Analysis_html(url_ls,headers):

for i in url_ls: #num记录爬取成功的索引值

r=requests.get(i,headers=headers)

html=etree.html

(r.text)

name=(html.xpath("//div【@class='communityName'】/a/text()"))【0】.split() #获取房名

money = html.xpath("//span【@class='total'】/text()" )# 获取价格

area = html.xpath("//span【@class='info'】/a【1】/text()") # 获取地区

data = html.xpath("//div【@class='content'】/ul/li/text()")# 获取房子基本属性

Save_data(name,money,area,data)

把爬取的信息存入文件

#把爬取的信息存入文件

def Save_data(name, money, area, data):

result=【name【0】】+money+【area】+data #把详细信息合为一个列表

with open(r'raw_data.csv','a',encoding='utf_8_sig',newline='')as f:

wt=csv.writer(f)

wt.writerow(result)

print('已写入')

f.close()

if name=='main':

url=''

headers={

"Upgrade-Insecure-Requests":"1",

"User-Agent":"Mozilla/5.0(Windows NT 10.0;Win64;x64) AppleWebKit/537.36(KHTML,like Gecko)Chrome"

"/72.0.3626.121 Safari/537.36"

}

all_url=Get_url(url)

with open(r'raw_data.csv', 'a', encoding='utf_8_sig', newline='') as f:

#首先加入表格头

table_label=【'小区名','价格/万','地区','房屋户型','所在楼层','建筑面积','户型结构','套内面积','建筑类型','房屋朝向'

,'建成年代','装修情况','建筑结构','供暖方式'】

wt=csv.writer(f)

wt.writerow(table_label)

Get_house_url(all_url,headers)

运行结果：

截取了一部分的数据

2.2数据清理

获取数据、数据清洗、查看表格数据、查看是否缺失、删除重复数据

# 从保存的文本中获取数据

def get_data():

raw_data = pd.DataFrame(pd.read_excel('raw_data.csv'))

print("数据清洗前共有%s条数据" % raw_data.size)

clean_data(raw_data)

# 数据清洗

def clean_data(data):

data = data.dropna(axis=1, how='all') # 删除全是空行列

# data.index = data【'小区名'】

# del data【'小区名'】

# 2.查看表格数据

print(data.describe())

# 3.查看是否缺失

print(data.isnull().sum())

# 删除重复数据

data = data.drop_duplicates(subset=None, keep='first', inplace=None)

# 删除‘暂无数据’大于一半数据的列

if ((data【'套内面积'】.isin(【'暂无数据'】)).sum()) > (len(data.index)) / 2:

del data【'套内面积'】

# 把建筑面积列的单位去掉并转换成float类型

data【'建筑面积'】 = data【'建筑面积'】.apply(lambda x: float(x.replace('㎡', '')))

# 提取地区

data【'地区'】 = data【'地区'】.apply(lambda x: x【2:-2】)

# 计算单价

data【'单价'】 = round(data【'价格/万'】 * 10000 / data【'建筑面积'】, 2)

data.to_excel('pure_data.xlsx', encoding='utf-8')

if name == 'main':

get_data()

数据清洗结果：

现在看比清理前规整了很多，更方便观看。

3、数据可视化分析

该阶段主要是对数据从整体上做一个探索性分析并把数据进行可视化呈现，帮助人们更好、更直观的认识数据，把隐藏在大量数据背后的信息集中和提炼出来，总结出所研究对象的内在规律。主要对二手房房源的总价、单价、面积、户型、地区等属性进行了分析。

3.1首先二手房的数据表展示：

house_list = House.objects.all().order_by('id')

input_1 = request.GET.get("searchorders")

input_2 = request.GET.get("dqchaxun")

if input_1:

house_list = House.objects.filter(xiaoquming=input_1)

paginator = Paginator(house_list, 20)

page = request.GET.get('page')

try:

data_1 = paginator.page(page)

except PageNotAnInteger:

data_1 = paginator.page(1) # 输入不是整数返回第一页

except InvalidPage:

# 找不到就重定向

return render(request, 'index.html

', {'house_list': data_1, 'name': input_1})

except EmptyPage: # 不在合法范围就返回最后一页

data_1 = paginator.page(paginator.num_pages)

return render(request, 'index.html

', {'house_list': data_1, 'name': input_1})

3.2户型和楼层的分析

#户型分析

series = df【'fangwuhuxing'】.value_counts()

series.sort_index(ascending=False, inplace=True)

house_type_list = series.index.tolist()

count_list = series.values.tolist()

c = Bar(init_opts=opts.InitOpts(theme=ThemeType.CHALK))

c.add_xaxis(house_type_list)

c.add_yaxis("厦门市", count_list)

c.reversal_axis()

c.set_series_opts(label_opts=opts.LabelOpts(position="right"))

c.set_global_opts(title_opts=opts.TitleOpts(title="厦门二手房各户型横向条形图"),

datazoom_opts=【opts.DataZoomOpts(yaxisindex=0, type="slider", orient="vertical")】, )

c.render("户型分析-条形图.html

#楼层分析

Pie(init_opts=opts.InitOpts(width="1600px", height="800px", bg_color="#2c343c"))

.add(

series_name="层段信息",

data_pair=data_pair,

rosetype="radius",

radius="55%",

center=【"50%", "50%"】,

label_opts=opts.LabelOpts(is_show=False, position="center"),

)

.set_global_opts(

title_opts=opts.TitleOpts(

title="Customized Pie",

pos_left="center",

pos_top="20",

title_textstyle_opts=opts.TextStyleOpts(color="#fff"),

legend_opts=opts.LegendOpts(is_show=False),

)

.set_series_opts(

tooltip_opts=opts.TooltipOpts(

trigger="item", formatter="{a}

{b}: {c} ({d}%)"

label_opts=opts.LabelOpts(color="rgba(255, 255, 255, 0.3)"),

)

3.3价格分析柱状图

from pyecharts import options as opts

<span style="color: rg

程序员必知：对厦门二手房的数据分析与可视化分析

热门文章

最新文章

相关课程

相关电子书

相关实验场景