【大数据实训】基于赶集网租房信息的数据分析与可视化(七)

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 【大数据实训】基于赶集网租房信息的数据分析与可视化(七)

基于赶集网租房信息的数据分析与可视化

一、实验环境

(1)Linux: Ubuntu 16.04

(2)Python: 3.6

(3)Hadoop:3.1.3(4)Spark: 2.4.0(5)Web框架:flask 1.0.3

(6)可视化工具:Echarts

(7)开发工具:Visual Studio Code

二、小组成员及分工

(1)成员:林xx,xxx,xxx

(2)分工:xxx负责xxxx部分,xxx负责xxxx部分,xxx负责xxxx部分。

三、数据采集

3.1数据集说明

爬取网站:http://xm.ganji.com/zufang/pn1/。是赶集网的厦门房产的租房信息网站。数据文件:ganji_rent1.csv。其中包含了1504条与租房信息有关的数据。

数据格式为:

图 3. 1 采集数据格式

数据中包含的内容如下:

(1)name: 房源的标题

(2)house_type: 房源的类型

(3)Area: 房源的面积(m²)

(4)direction: 房源的朝向

(5)renovation: 房源的装修程度

(6)price: 房源的月租(元/月)

(7)location:: 房源所处位置

3.2.爬取数据集以及将其保存到本地E盘文件中的流程

(1)选取所需要爬取的页面进行遍历爬取

(2)通过正则表达式抓取所需要的数据

(3)将爬取出的数据转化为dataframe格式并保存为csv文件存放在E盘

四、数据清洗与预处理

五、spark数据分析

5.1 数据分析目标

本文对音乐专辑数据集ganji_rent1.csv进行了一系列的分析,包括:

(1)房源的房租分布情况。(观察月租价格大体集中在哪个分段,得出月租趋势)

(2)房源的朝向分布情况。(观察房源的基本朝向,得出最佳朝向)

(3)房源的区域分布情况。(观察哪些区域房源多)

(4)房源的房型分布情况。(观察哪种房型数量最多)

(5)房源的面积分布情况。(观察面积大体集中在哪个分段)

(6)房源的装修程度分布情况。(观察房源最基本装修程度)

(7)不同区域的租价分布情况。(观察月租价格大体集中在哪个分段)

(8)热门房源标题词云展示。(观察最热门的标题,得出标题最好应具备的元素)

六、数据可视化

本实验的可视化基于Echarts实现。

6.1.可视化环境

利用和鲸社区虚拟环境进行可视化操作,最后的代码结构如下。

6.2 图表展示与结论分析

(1)通过统计房源的房租分布情况进行数据可视化图表分析

图 6.2.1 房租分布情况

分析结论:通过这个图可以看出月租大体集中在3004500这里,这也说明大部分租房的人租房都会租相对便宜的,比如3002300这里,所以相对的月租便宜的房源也就多,而月租4500以上的房源因为租的人少,所以相对的房源也就少了。虽然数据量很少,但从这也可看300~4500的房源数量有1290,而4500以上的房源只有214,前者时后者的6倍有余,从这我们也可大胆推测,我国中底层收入人数,是中高层收入的6倍左右。

(2)通过统计房源的朝向分布情况进行数据可视化图表分析

图 6.2.2 朝向分布情况

分析结论:通过这个图我们可以看出朝向绝大部分都是南向或者南北向,或者是跟南、北有关的,这也反映了我国房子基本都是“坐北朝南”的。因为我国地处北温带,这样以便于采光通风。这也就是所谓的“南北通透”。

所以:①如果你是租房人想要房间采光透气好,就租南北向的房子,这种房源也比较多也好租到;②如果你是出租房源的人,你的房源最好是要南北向的,这样你的价格也可以租的相比于其他方向的房源的价格高。

(3)通过统计房源的区域分布情况进行数据可视化图表分析

图 6.2.3_1 区域分布情况

图 6.2.3_2 区域分布情况

分析结论:通过这两个图我们可以看出大部分房源都集中在县后,滨海社区,孙板路,高新技术园,软件园等,这些地方都有一些共同的特征,如:附近交通便利,靠近工作区,离相对的市中心有点距离等等。而环岛路等地的房源就相对较少,这也说明虽然那附近的风景优美,但是交通不够便利,只有享受生活的人才会租这些地方,而享受生活的人,大部分也都是有钱了,他们也不会租,他们是直接就买了住了,所以这些地方的房源就相对较少。

所以:①如果你是租房人,你想要租房就可以结合自己工作的地方然后多往县后,滨海社区,孙板路,高新技术园,软件园等这几个地点考虑,这些地点房源多,出行也便利;②如果你是出租房源的人,你就可以多购进这县后,滨海社区,孙板路,高新技术园,软件园等几个地点的房源,这样也会相对其他地方比较好出售。

(4)通过统计房源的房型分布情况进行数据可视化图表分析

图 6.2.4 房型分布情况

分析结论:通过这个图我们可以看出大部分房源都是1室的,这也说明现在租房的人大部分都是打工人,他们基本都是独自一人出来工作,就算是两三人结伴,也基本会一室的房子挤一挤就好,他们在考虑价格方面都会多于房子环境。

所以:①如果你是租房人,你经济不允许的话租一室的就好了,这样也能让你省下不少的房租费,绝大部分人都是如此过来的。②如果你是出租房源的人,在相对靠近集中的工作区的地方,你就可以多购进一室的房源,因为这些地方对于一室的房源需求量大。而在相对靠近市中心的地方,你就可以多购进2室或以上的房源,因为在这些地方租房的人会比较在意房源的环境跟户型。

(5)通过统计房源的面积分布情况进行数据可视化图表分析

图 6.2.5 面积分布情况

分析结论:通过这个图我们可以看出50%左右的房源的面积都是在45m²以下,这就跟上面4)的房型分布相呼应了。也侧面说明了50%左右的租房人是比较不在意房子环境,而比较在意价格的。

(6)通过统计房源的装修程度分布情况进行数据可视化图表分析

图 6.2.6 装修程度分布

分析结论:通过这个图我们可以看出房源的装修程度几乎都是精装修。而毛胚房只有个位数。所以:如果你是出租房源的人,你就应该至少把你的房源简单装修,最好是精装修,虽然这样要花钱,但是你的竞争力也会更大,回本也会更快。

(7)通过统计不同区域的租价分布情况进行数据可视化图表分析

图 6.2.7 不同区域的租价分布

分析结论:因为是经过排序的原因,所以数量基本上分布在左边,所以热力图的左边颜色较深,这也说明了我本身获取的数据量不足,才会导致热力图大部分颜色都很淡。通过图7.1我们可以看出县后、软件园、高新技术产业园,高崎的房源月租集中在3001300、13002300、2300~4500(因为区域过多,所以很多区域需要在可视化出来的图上用鼠标放在热力图上才可以显示位置。),这也说明了在这些地方附近普通打工人居多,而4500以上的房源集中在滨海社区、环东海域、马銮湾新城、瑞景等,这也说明了这些地方附近相对繁荣热闹、或者环境相对优美。

所以:①你想找简单的工作话可以在县后、软件园、高新技术产业园等附近找,这些地方附近月租便宜,而且房源多,也就说明了这些地方附近工作多。而想在比较热闹的地方租房的话可在马銮湾新城、瑞景、滨海社区等地租房,当然月租也很贵。②如果你是租房人话,你可以多在县后、软件园、高新技术产业园等地购进300~2300的房源,这些地方相对低价月租的房源需求量大,而在滨海社区、环东海域、马銮湾新城、瑞景等地就应该购进环境好的房型大的房源。

(8)通过统计热门房源标题进行数据可视化图表分析

图 6.2.8 热门房源标题词云展示

分析结论:通过这个图我们可以看出几乎所有房源标题都会把他们的卖点贴出来,比如几室几厅,位于的地点,装修程度等,这就跟我们日常看到新闻一样,他们都会把比较吸引眼球的点贴出来。

所以:①如果你是租房人,就算它的标题写的再好,你点进去后一定要仔细看一下其他具体的内容,不要盲目就下单,不然很容易被坑。②如果你是出租房源的人,你一定要把你的优势,比如装修程度,位于的地点贴出来,还有可以贴上低价,豪华装修等字眼吸引租房人,这样你的租房信息的浏览量就会往上增,看的人多了,自然把房子租出去的机会也就大了。

七、心得体会


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
22天前
|
消息中间件 监控 数据可视化
大数据-79 Kafka 集群模式 集群监控方案 JavaAPI获取集群指标 可视化监控集群方案: jconsole、Kafka Eagle
大数据-79 Kafka 集群模式 集群监控方案 JavaAPI获取集群指标 可视化监控集群方案: jconsole、Kafka Eagle
41 2
|
25天前
|
数据采集 数据可视化 数据挖掘
基于Python的数据分析与可视化实战
本文将引导读者通过Python进行数据分析和可视化,从基础的数据操作到高级的数据可视化技巧。我们将使用Pandas库处理数据,并利用Matplotlib和Seaborn库创建直观的图表。文章不仅提供代码示例,还将解释每个步骤的重要性和目的,帮助读者理解背后的逻辑。无论你是初学者还是有一定基础的开发者,这篇文章都将为你提供有价值的见解和技能。
55 0
|
5天前
|
存储 机器学习/深度学习 大数据
量子计算与大数据:处理海量信息的新方法
【10月更文挑战第31天】量子计算凭借其独特的量子比特和量子门技术,为大数据处理带来了革命性的变革。相比传统计算机,量子计算在计算效率、存储容量及并行处理能力上具有显著优势,能有效应对信息爆炸带来的挑战。本文探讨了量子计算如何通过量子叠加和纠缠等原理,加速数据处理过程,提升计算效率,特别是在金融、医疗和物流等领域中的具体应用案例,同时也指出了量子计算目前面临的挑战及其未来的发展方向。
|
23天前
|
存储 分布式计算 资源调度
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(一)
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(一)
64 5
|
23天前
|
资源调度 数据可视化 大数据
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(二)
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(二)
31 4
|
14天前
|
数据采集 数据可视化 数据挖掘
使用Python进行数据处理与可视化——以气温数据分析为例
【10月更文挑战第12天】使用Python进行数据处理与可视化——以气温数据分析为例
115 0
|
2月前
|
机器学习/深度学习 数据挖掘 大数据
大数据时代的“淘金术”:Python数据分析+深度学习框架实战指南
在大数据时代,数据被视为新财富源泉,而从海量信息中提取价值成为企业竞争的核心。本文通过对比方式探讨如何运用Python数据分析与深度学习框架实现这一目标。Python凭借其强大的数据处理能力及丰富库支持,已成为数据科学家首选工具;而TensorFlow和PyTorch等深度学习框架则为复杂模型构建提供强有力的技术支撑。通过融合Python数据分析与深度学习技术,我们能在各领域中发掘数据的无限潜力。无论是商业分析还是医疗健康,掌握这些技能都将为企业和社会带来巨大价值。
53 6
|
23天前
|
数据采集 数据可视化 数据挖掘
Python 数据分析实战:使用 Pandas 进行数据清洗与可视化
【10月更文挑战第3天】Python 数据分析实战:使用 Pandas 进行数据清洗与可视化
64 0
|
23天前
|
机器学习/深度学习 数据采集 数据可视化
如何理解数据分析及数据的预处理,分析建模,可视化
如何理解数据分析及数据的预处理,分析建模,可视化
37 0
|
3月前
|
数据采集 数据可视化 数据挖掘
数据分析大神养成记:Python+Pandas+Matplotlib助你飞跃!
在数字化时代,数据分析至关重要,而Python凭借其强大的数据处理能力和丰富的库支持,已成为该领域的首选工具。Python作为基石,提供简洁语法和全面功能,适用于从数据预处理到高级分析的各种任务。Pandas库则像是神兵利器,其DataFrame结构让表格型数据的处理变得简单高效,支持数据的增删改查及复杂变换。配合Matplotlib这一数据可视化的魔法棒,能以直观图表展现数据分析结果。掌握这三大神器,你也能成为数据分析领域的高手!
62 2