Pandas、Matplotlib、Pyecharts数据分析实践-阿里云开发者社区

Pandas、Matplotlib、Pyecharts数据分析实践

2022-05-24 138

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 上篇中，我们对比了各种方式下的爬虫效率，并得到了安居客平台杭州的二手房数据3000条。今天，以此3000条数据为对象，我们尝试应用Pandas、Matplotlib和Pyecharts3个数据分析及可视化库进行练手实践。

00 分析目标

对数据进行去重、筛选空值行，对部分字段进行清洗处理
多维度刻画杭州在售二手房信息，包括房源售价、主打标签、建筑年份、户型、楼层、行政区划等分布情况，给出在售房源标题的词云
分析不同区划、不同建筑年份、不同标签房源的数量和均价情况

注：所有数据处理和分析都应用pandas进行，可视化部分除3张复合图表由Matplotlib制作外，其余均应用Pyecharts完成。

01 数据处理

1.用pandas读取MySQL数据库中的3000条信息，并完成去重

db = pymysql.connect(host="localhost",user="root",password="123456",db="ajkhzesf")
sql_select = 'select title, houseType, area, floor, buildYear, adrres, tags, broker, totalPrice, price from hzesfmultire'
df = pd.read_sql(sql_select, db)
df = df.drop_duplicates()

2.对总价和均价两个字段进行处理并变换为浮点型

df['totalPrice'] = df['totalPrice'].str.replace('万','').astype(float)
df['price'] = df['price'].str.replace('元/m²','').astype(float)

3.通过小区/地址字段信息提取房源所在行政区划

regions = ['上城区','下城区','拱墅区','滨江区','江干区','西湖区','萧山区','余杭区','临安市','富阳区','建德市','淳安县','桐庐县']
df['region'] = ""
for region in regions:
   df.region[df['adrres'].str.contains(region[:2])] = region
df['region']

后续做图需要，这里临安仍以”临安市”存在

02 多维度刻画二手房市场

1. 房源售价

总价200万、单价2.3万，对于杭州这样的大都市来说，也算是刚需友好了。

2. 主打标签

同新房市场一样，房源的售卖标签还是主要围绕品质、配套、出行和宜居几个方面来宣传。

3. 建筑年份

“满五”、“满二”政策下，2014年注定成为二手房市场存量最大的建筑年份。

4. 户型/楼层

如果分别用一个词来概括二手房市场的户型和楼层特点，那么我选择“刚需”和“中庸”。

5. 行政区划

在二手房市场上，余杭的存量（2000+）以大比分完爆其他所有区划。

6. 在售房源标题词云

精装、地铁、三房、户型，是最大卖点
朝南、楼层、品质、车位，具有别样吸引力
81/85/86/88/89/92，主打刚需市场

7. 最后给出中介经手的二手房数量信息

同时负责联络管理近40个房源信息，也是蛮拼的。

03 二手房均价情况

1. 不同区划均价

毫无疑问，6大主城区均价要更高一筹，萧山余杭作为杭州发展潜力股也有着较高的房价水平。外围区划则相对逊色不少。

2. 不同年份均价

如前所述，二手房市场数量最大的是2014年，因为刚好符合满五的低税政策； 2017年以后的房子因为意味着较高的计税，所以在售房源很少，而且因为房龄短均价高，整体市场偏小。

均价方面，总体而言年份越早的房子均价越低，但2010年——2013年例外，具体查询结果如下，2011年在售房源数量及较少，而又夹杂一些主城区的豪宅；而2013年的低均价，则很大程度上是由于在售房源偏远城区的较多，本身房价较低。所以，小样本数据的局限性造成均价曲线上的严重失衡。

在售的2013年低房价Top10

在售的2011年高房价Top10

3. 不同标签均价统计了5个最有代表性的标签，并分别对包含该标签和不包含该标签的样本进行了统计（图中的每对标签数据，左侧为包含该标签的结果，右侧则为不包含该标签），共得到10组数据。

对比来看，

数量方面，包含这些优势的房源数量均为少数，无一例外的要少于相应不包含该标签的房源数量，尤其是在“繁华地段”和“南北通透”这两个属性上，差距尤为明显，印证了优质房源的稀缺性；
均价方面，对比结果则略显戏剧性：在五个象征着优质房源的标签中，只有“近地铁”和“南北通透”意味着更高的均价，而其他则还看不出这样的特点，甚至跟大众印象还有很大出入。当然，再次不排除这是由小样本造成的。

Pandas、Matplotlib、Pyecharts数据分析实践

00 分析目标

01 数据处理

02 多维度刻画二手房市场

03 二手房均价情况

热门文章

最新文章

相关课程

相关电子书

相关实验场景