程序员必知:对厦门二手房的数据分析与可视化分析

简介: 程序员必知:对厦门二手房的数据分析与可视化分析

1、选题背景

房价的迅速飞涨,即将毕业的我们,就要面对高昂的房价,虽然我们不能做出实际行动,但是除此之外我们还可以房价分析。利用科学的技术手段,洞察房价的趋势。本次项目选择了厦门城市,通过了解厦门市二手房的情况,可以帮助人们在购房、出租等方面做出更明智的决策。可以帮助人们了解重庆市经济的发展趋势。随着互联网的发展,越来越多的房地产信息通过网络发布,使用爬虫技术可以方便地收集和分析这些信息。而本次项目选择的数据来源是链家。链家是一家著名的房地产经纪公司,在厦门有着广泛的房地产业务。通过爬取厦门链家发布的二手房信息,可以获得丰富的数据,为分析提供参考。

2、数据//代码效果参考:http://www.zidongmutanji.com/zsjx/431123.html

分析步骤

数据源:链家 网址: 以及厦门二手房的数据爬取网址:

2.1数据采集

该部分通过网络爬虫程序抓取链家网上所有重庆二手房的数据,收集原始数据。通过url到指定的网站进行数据爬取,设置了id,小区名(xiaoquming),价格(jiage),地区(diqu),房屋户型(fangwuhuxing),所在楼层(suozailouceng),建筑面积(jianzhumianji)等字段最后通过save_data()将爬取的数据进行保存。

导入库

import requests,time,csv

import pandas as pd

from lxml import etree

#获取每一页的url

def Get_url(url):

all_url=【】

for i in range(1,101):

all_url.append(url+'pg'+str(i)+'/') #储存每一个页面的url

return all_url

#获取每套房详情信息的url

#获取每套房详情信息的url

def Get_house_url(all_url,headers):

num=0

#简单统计页数

for i in all_url:

r=requests.get(i,headers=headers)

html=etree.html

(r.text)

//代码效果参考:http://www.zidongmutanji.com/bxxx/524472.html

url_ls=html.xpath("//ul【@class='sellListContent'】/li/a/@href") #获取房子的url

Analysis_html(url_ls,headers)

time.sleep(4)

print("第%s页爬完了"%i)

num+=1

获取每套房的详情信息

#获取每套房的详情信息

def Analysis_html(url_ls,headers):

for i in url_ls: #num记录爬取成功的索引值

r=requests.get(i,headers=headers)

html=etree.html

(r.text)

name=(html.xpath("//div【@class='communityName'】/a/text()"))【0】.split() #获取房名

money = html.xpath("//span【@class='total'】/text()" )# 获取价格

area = html.xpath("//span【@class='info'】/a【1】/text()") # 获取地区

data = html.xpath("//div【@class='content'】/ul/li/text()")# 获取房子基本属性

Save_data(name,money,area,data)

把爬取的信息存入文件

#把爬取的信息存入文件

def Save_data(name, money, area, data):

result=【name【0】】+money+【area】+data #把详细信息合为一个列表

with open(r'raw_data.csv','a',encoding='utf_8_sig',newline='')as f:

wt=csv.writer(f)

wt.writerow(result)

print('已写入')

f.close()

if name=='main':

url=''

headers={

"Upgrade-Insecure-Requests":"1",

"User-Agent":"Mozilla/5.0(Windows NT 10.0;Win64;x64) AppleWebKit/537.36(KHTML,like Gecko)Chrome"

"/72.0.3626.121 Safari/537.36"

}

all_url=Get_url(url)

with open(r'raw_data.csv', 'a', encoding='utf_8_sig', newline='') as f:

#首先加入表格头

table_label=【'小区名','价格/万','地区','房屋户型','所在楼层','建筑面积','户型结构','套内面积','建筑类型','房屋朝向'

,'建成年代','装修情况','建筑结构','供暖方式'】

wt=csv.writer(f)

wt.writerow(table_label)

Get_house_url(all_url,headers)

运行结果:

截取了一部分的数据

2.2数据清理

获取数据、数据清洗、查看表格数据、查看是否缺失、删除重复数据

# 从保存的文本中获取数据

def get_data():

raw_data = pd.DataFrame(pd.read_excel('raw_data.csv'))

print("数据清洗前共有%s条数据" % raw_data.size)

clean_data(raw_data)

# 数据清洗

def clean_data(data):

data = data.dropna(axis=1, how='all') # 删除全是空行列

# data.index = data【'小区名'】

# del data【'小区名'】

# 2.查看表格数据

print(data.describe())

# 3.查看是否缺失

print(data.isnull().sum())

# 删除重复数据

data = data.drop_duplicates(subset=None, keep='first', inplace=None)

# 删除‘暂无数据’大于一半数据的列

if ((data【'套内面积'】.isin(【'暂无数据'】)).sum()) > (len(data.index)) / 2:

del data【'套内面积'】

# 把建筑面积列的单位去掉并转换成float类型

data【'建筑面积'】 = data【'建筑面积'】.apply(lambda x: float(x.replace('㎡', '')))

# 提取地区

data【'地区'】 = data【'地区'】.apply(lambda x: x【2:-2】)

# 计算单价

data【'单价'】 = round(data【'价格/万'】 * 10000 / data【'建筑面积'】, 2)

data.to_excel('pure_data.xlsx', encoding='utf-8')

if name == 'main':

get_data()

数据清洗结果:

现在看比清理前规整了很多,更方便观看。

3、数据可视化分析

该阶段主要是对数据从整体上做一个探索性分析并把数据进行可视化呈现,帮助人们更好、更直观的认识数据,把隐藏在大量数据背后的信息集中和提炼出来,总结出所研究对象的内在规律。主要对二手房房源的总价、单价、面积、户型、地区等属性进行了分析。

3.1首先二手房的数据表展示:

house_list = House.objects.all().order_by('id')

input_1 = request.GET.get("searchorders")

input_2 = request.GET.get("dqchaxun")

if input_1:

house_list = House.objects.filter(xiaoquming=input_1)

paginator = Paginator(house_list, 20)

page = request.GET.get('page')

try:

data_1 = paginator.page(page)

except PageNotAnInteger:

data_1 = paginator.page(1) # 输入不是整数返回第一页

except InvalidPage:

# 找不到就重定向

return render(request, 'index.html

', {'house_list': data_1, 'name': input_1})

except EmptyPage: # 不在合法范围就返回最后一页

data_1 = paginator.page(paginator.num_pages)

return render(request, 'index.html

', {'house_list': data_1, 'name': input_1})

3.2户型和楼层的分析

#户型分析

series = df【'fangwuhuxing'】.value_counts()

series.sort_index(ascending=False, inplace=True)

house_type_list = series.index.tolist()

count_list = series.values.tolist()

c = Bar(init_opts=opts.InitOpts(theme=ThemeType.CHALK))

c.add_xaxis(house_type_list)

c.add_yaxis("厦门市", count_list)

c.reversal_axis()

c.set_series_opts(label_opts=opts.LabelOpts(position="right"))

c.set_global_opts(title_opts=opts.TitleOpts(title="厦门二手房各户型横向条形图"),

datazoom_opts=【opts.DataZoomOpts(yaxisindex=0, type="slider", orient="vertical")】, )

c.render("户型分析-条形图.html

")

#楼层分析

Pie(init_opts=opts.InitOpts(width="1600px", height="800px", bg_color="#2c343c"))

.add(

series_name="层段信息",

data_pair=data_pair,

rosetype="radius",

radius="55%",

center=【"50%", "50%"】,

label_opts=opts.LabelOpts(is_show=False, position="center"),

)

.set_global_opts(

title_opts=opts.TitleOpts(

title="Customized Pie",

pos_left="center",

pos_top="20",

title_textstyle_opts=opts.TextStyleOpts(color="#fff"),

),

legend_opts=opts.LegendOpts(is_show=False),

)

.set_series_opts(

tooltip_opts=opts.TooltipOpts(

trigger="item", formatter="{a}

{b}: {c} ({d}%)"

),

label_opts=opts.LabelOpts(color="rgba(255, 255, 255, 0.3)"),

)

3.3价格分析柱状图

from pyecharts import options as opts

<span style="color: rg

相关文章
|
1月前
|
数据采集 数据可视化 数据挖掘
基于Python的数据分析与可视化实战
本文将引导读者通过Python进行数据分析和可视化,从基础的数据操作到高级的数据可视化技巧。我们将使用Pandas库处理数据,并利用Matplotlib和Seaborn库创建直观的图表。文章不仅提供代码示例,还将解释每个步骤的重要性和目的,帮助读者理解背后的逻辑。无论你是初学者还是有一定基础的开发者,这篇文章都将为你提供有价值的见解和技能。
112 0
|
14天前
|
数据采集 数据可视化 数据挖掘
使用Python进行数据分析和可视化
【10月更文挑战第33天】本文将介绍如何使用Python编程语言进行数据分析和可视化。我们将从数据清洗开始,然后进行数据探索性分析,最后使用matplotlib和seaborn库进行数据可视化。通过阅读本文,你将学会如何运用Python进行数据处理和可视化展示。
|
1月前
|
数据挖掘 UED
ChatGPT数据分析——探索性分析
ChatGPT数据分析——探索性分析
|
1月前
|
数据可视化 数据挖掘 数据处理
ChatGPT数据分析应用——热力图分析
ChatGPT数据分析应用——热力图分析
|
1月前
|
数据挖掘
ChatGPT在常用的数据分析方法中的应用(分组分析)
ChatGPT在常用的数据分析方法中的应用(分组分析)
|
1月前
|
数据采集 数据可视化 数据挖掘
使用Python进行数据处理与可视化——以气温数据分析为例
【10月更文挑战第12天】使用Python进行数据处理与可视化——以气温数据分析为例
198 0
|
1月前
|
数据采集 数据可视化 数据挖掘
Python 数据分析实战:使用 Pandas 进行数据清洗与可视化
【10月更文挑战第3天】Python 数据分析实战:使用 Pandas 进行数据清洗与可视化
91 0
|
1月前
|
机器学习/深度学习 数据采集 数据可视化
如何理解数据分析及数据的预处理,分析建模,可视化
如何理解数据分析及数据的预处理,分析建模,可视化
49 0
|
1月前
|
数据挖掘
ChatGPT在常用的数据分析方法中的应用(对比分析)
ChatGPT在常用的数据分析方法中的应用(对比分析)
|
2月前
|
机器学习/深度学习 存储 数据可视化
数据分析和可视化
数据分析和可视化
下一篇
无影云桌面