程序员必知:对厦门二手房的数据分析与可视化分析

简介: 程序员必知:对厦门二手房的数据分析与可视化分析

1、选题背景

房价的迅速飞涨,即将毕业的我们,就要面对高昂的房价,虽然我们不能做出实际行动,但是除此之外我们还可以房价分析。利用科学的技术手段,洞察房价的趋势。本次项目选择了厦门城市,通过了解厦门市二手房的情况,可以帮助人们在购房、出租等方面做出更明智的决策。可以帮助人们了解重庆市经济的发展趋势。随着互联网的发展,越来越多的房地产信息通过网络发布,使用爬虫技术可以方便地收集和分析这些信息。而本次项目选择的数据来源是链家。链家是一家著名的房地产经纪公司,在厦门有着广泛的房地产业务。通过爬取厦门链家发布的二手房信息,可以获得丰富的数据,为分析提供参考。

2、数据//代码效果参考:http://www.zidongmutanji.com/zsjx/431123.html

分析步骤

数据源:链家 网址: 以及厦门二手房的数据爬取网址:

2.1数据采集

该部分通过网络爬虫程序抓取链家网上所有重庆二手房的数据,收集原始数据。通过url到指定的网站进行数据爬取,设置了id,小区名(xiaoquming),价格(jiage),地区(diqu),房屋户型(fangwuhuxing),所在楼层(suozailouceng),建筑面积(jianzhumianji)等字段最后通过save_data()将爬取的数据进行保存。

导入库

import requests,time,csv

import pandas as pd

from lxml import etree

#获取每一页的url

def Get_url(url):

all_url=【】

for i in range(1,101):

all_url.append(url+'pg'+str(i)+'/') #储存每一个页面的url

return all_url

#获取每套房详情信息的url

#获取每套房详情信息的url

def Get_house_url(all_url,headers):

num=0

#简单统计页数

for i in all_url:

r=requests.get(i,headers=headers)

html=etree.html

(r.text)

//代码效果参考:http://www.zidongmutanji.com/bxxx/524472.html

url_ls=html.xpath("//ul【@class='sellListContent'】/li/a/@href") #获取房子的url

Analysis_html(url_ls,headers)

time.sleep(4)

print("第%s页爬完了"%i)

num+=1

获取每套房的详情信息

#获取每套房的详情信息

def Analysis_html(url_ls,headers):

for i in url_ls: #num记录爬取成功的索引值

r=requests.get(i,headers=headers)

html=etree.html

(r.text)

name=(html.xpath("//div【@class='communityName'】/a/text()"))【0】.split() #获取房名

money = html.xpath("//span【@class='total'】/text()" )# 获取价格

area = html.xpath("//span【@class='info'】/a【1】/text()") # 获取地区

data = html.xpath("//div【@class='content'】/ul/li/text()")# 获取房子基本属性

Save_data(name,money,area,data)

把爬取的信息存入文件

#把爬取的信息存入文件

def Save_data(name, money, area, data):

result=【name【0】】+money+【area】+data #把详细信息合为一个列表

with open(r'raw_data.csv','a',encoding='utf_8_sig',newline='')as f:

wt=csv.writer(f)

wt.writerow(result)

print('已写入')

f.close()

if name=='main':

url=''

headers={

"Upgrade-Insecure-Requests":"1",

"User-Agent":"Mozilla/5.0(Windows NT 10.0;Win64;x64) AppleWebKit/537.36(KHTML,like Gecko)Chrome"

"/72.0.3626.121 Safari/537.36"

}

all_url=Get_url(url)

with open(r'raw_data.csv', 'a', encoding='utf_8_sig', newline='') as f:

#首先加入表格头

table_label=【'小区名','价格/万','地区','房屋户型','所在楼层','建筑面积','户型结构','套内面积','建筑类型','房屋朝向'

,'建成年代','装修情况','建筑结构','供暖方式'】

wt=csv.writer(f)

wt.writerow(table_label)

Get_house_url(all_url,headers)

运行结果:

截取了一部分的数据

2.2数据清理

获取数据、数据清洗、查看表格数据、查看是否缺失、删除重复数据

# 从保存的文本中获取数据

def get_data():

raw_data = pd.DataFrame(pd.read_excel('raw_data.csv'))

print("数据清洗前共有%s条数据" % raw_data.size)

clean_data(raw_data)

# 数据清洗

def clean_data(data):

data = data.dropna(axis=1, how='all') # 删除全是空行列

# data.index = data【'小区名'】

# del data【'小区名'】

# 2.查看表格数据

print(data.describe())

# 3.查看是否缺失

print(data.isnull().sum())

# 删除重复数据

data = data.drop_duplicates(subset=None, keep='first', inplace=None)

# 删除‘暂无数据’大于一半数据的列

if ((data【'套内面积'】.isin(【'暂无数据'】)).sum()) > (len(data.index)) / 2:

del data【'套内面积'】

# 把建筑面积列的单位去掉并转换成float类型

data【'建筑面积'】 = data【'建筑面积'】.apply(lambda x: float(x.replace('㎡', '')))

# 提取地区

data【'地区'】 = data【'地区'】.apply(lambda x: x【2:-2】)

# 计算单价

data【'单价'】 = round(data【'价格/万'】 * 10000 / data【'建筑面积'】, 2)

data.to_excel('pure_data.xlsx', encoding='utf-8')

if name == 'main':

get_data()

数据清洗结果:

现在看比清理前规整了很多,更方便观看。

3、数据可视化分析

该阶段主要是对数据从整体上做一个探索性分析并把数据进行可视化呈现,帮助人们更好、更直观的认识数据,把隐藏在大量数据背后的信息集中和提炼出来,总结出所研究对象的内在规律。主要对二手房房源的总价、单价、面积、户型、地区等属性进行了分析。

3.1首先二手房的数据表展示:

house_list = House.objects.all().order_by('id')

input_1 = request.GET.get("searchorders")

input_2 = request.GET.get("dqchaxun")

if input_1:

house_list = House.objects.filter(xiaoquming=input_1)

paginator = Paginator(house_list, 20)

page = request.GET.get('page')

try:

data_1 = paginator.page(page)

except PageNotAnInteger:

data_1 = paginator.page(1) # 输入不是整数返回第一页

except InvalidPage:

# 找不到就重定向

return render(request, 'index.html

', {'house_list': data_1, 'name': input_1})

except EmptyPage: # 不在合法范围就返回最后一页

data_1 = paginator.page(paginator.num_pages)

return render(request, 'index.html

', {'house_list': data_1, 'name': input_1})

3.2户型和楼层的分析

#户型分析

series = df【'fangwuhuxing'】.value_counts()

series.sort_index(ascending=False, inplace=True)

house_type_list = series.index.tolist()

count_list = series.values.tolist()

c = Bar(init_opts=opts.InitOpts(theme=ThemeType.CHALK))

c.add_xaxis(house_type_list)

c.add_yaxis("厦门市", count_list)

c.reversal_axis()

c.set_series_opts(label_opts=opts.LabelOpts(position="right"))

c.set_global_opts(title_opts=opts.TitleOpts(title="厦门二手房各户型横向条形图"),

datazoom_opts=【opts.DataZoomOpts(yaxisindex=0, type="slider", orient="vertical")】, )

c.render("户型分析-条形图.html

")

#楼层分析

Pie(init_opts=opts.InitOpts(width="1600px", height="800px", bg_color="#2c343c"))

.add(

series_name="层段信息",

data_pair=data_pair,

rosetype="radius",

radius="55%",

center=【"50%", "50%"】,

label_opts=opts.LabelOpts(is_show=False, position="center"),

)

.set_global_opts(

title_opts=opts.TitleOpts(

title="Customized Pie",

pos_left="center",

pos_top="20",

title_textstyle_opts=opts.TextStyleOpts(color="#fff"),

),

legend_opts=opts.LegendOpts(is_show=False),

)

.set_series_opts(

tooltip_opts=opts.TooltipOpts(

trigger="item", formatter="{a}

{b}: {c} ({d}%)"

),

label_opts=opts.LabelOpts(color="rgba(255, 255, 255, 0.3)"),

)

3.3价格分析柱状图

from pyecharts import options as opts

<span style="color: rg

相关文章
|
1月前
|
数据可视化 前端开发 数据挖掘
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享(上)
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享
|
12天前
|
数据采集 数据可视化 数据挖掘
数据挖掘实战:使用Python进行数据分析与可视化
在大数据时代,Python因其强大库支持和易学性成为数据挖掘的首选语言。本文通过一个电商销售数据案例,演示如何使用Python进行数据预处理(如处理缺失值)、分析(如销售额时间趋势)和可视化(如商品类别销售条形图),揭示数据背后的模式。安装`pandas`, `numpy`, `matplotlib`, `seaborn`后,可以按照提供的代码步骤,从读取CSV到数据探索,体验Python在数据分析中的威力。这只是数据科学的入门,更多高级技术等待发掘。【6月更文挑战第14天】
50 11
|
17天前
|
JSON 数据挖掘 API
数据分析实战丨基于pygal与requests分析GitHub最受欢迎的Python库
数据分析实战丨基于pygal与requests分析GitHub最受欢迎的Python库
19 2
|
17天前
|
JavaScript Java 测试技术
基于ssm+vue.js+uniapp小程序的短视频流量数据分析与可视化附带文章和源代码部署视频讲解等
基于ssm+vue.js+uniapp小程序的短视频流量数据分析与可视化附带文章和源代码部署视频讲解等
18 0
基于ssm+vue.js+uniapp小程序的短视频流量数据分析与可视化附带文章和源代码部署视频讲解等
|
21天前
|
算法 数据挖掘 数据处理
数据分析之可重复与独立样本的T-Test分析
数据分析之可重复与独立样本的T-Test分析
18 2
|
4天前
|
数据可视化 数据挖掘 Python
数据分析与可视化
数据分析与可视化
10 0
|
1月前
|
数据采集 数据可视化 数据挖掘
使用Python进行数据分析与可视化
使用Python进行数据分析与可视化
49 3
|
19天前
|
机器学习/深度学习 数据可视化 数据挖掘
python每日可视化分析:从过去到现代数据分析的演进
python每日可视化分析:从过去到现代数据分析的演进
|
30天前
|
数据可视化 数据挖掘 Java
springboot+vue体质测试数据分析及可视化设计(源码+文档)
体质测试数据分析及可视化设计实现了以下功能: 管理员:首页、个人中心、学生管理、教师管理、日常运动管理、运动分析管理、成绩信息管理、论坛管理、系统管理, 学生:首页、个人中心、日常运动管理、运动分析管理、成绩信息管理、论坛管理, 教师:首页、个人中心、日常运动管理、运动分析管理、成绩信息管理、系统管理, 前台首页:首页、论坛信息、公告信息、个人中心、后台管理、客服模块的修改维护操作。
|
1月前
|
机器学习/深度学习 数据采集 数据可视化
R语言电影数据分析:随机森林探索电影受欢迎程度因素、参数调优可视化
R语言电影数据分析:随机森林探索电影受欢迎程度因素、参数调优可视化

热门文章

最新文章