【python】python懂车帝数据可视化(代码+报告)

简介: 【python】python懂车帝数据可视化(代码+报告)


👉博__主👈:米码收割机

👉技__能👈:C++/Python语言

👉公众号👈:测试开发自动化【获取源码+商业合作】

👉荣__誉👈:阿里云博客专家博主、51CTO技术博主

👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。



一、研究背景

在当今社会,汽车已经成为人们生活中不可或缺的一部分,而汽车的购车决策往往受到各种因素的影响。为了更好地了解市场上不同汽车的价格分布情况,以及为购车者提供更全面的信息,我们对懂车帝网站上的汽车数据进行了深入研究和分析。该数据包含了各种品牌和型号的汽车,涵盖了最低价、最高价等关键信息,为我们提供了一个全面洞察汽车市场的机会。

总体而言,通过对懂车帝网站上爬取的汽车数据进行综合分析,我们有望揭示汽车市场中价格的分布特征,为购车者提供更为全面的参考,为汽车制造商提供更为明智的市场定价策略,促使汽车市场更好地满足消费者需求,推动整个行业的可持续发展。

👇👇👇 关注公众号,回复 “二手车可视化” 获取源码👇👇👇


二、研究目的

本研究的目的在于深入分析懂车帝网站上的汽车数据,主要关注汽车的最低价和最高价这两个关键指标。通过对这些价格数据的综合研究,我们旨在揭示不同汽车在市场上的价格分布情况,以及探究价格背后可能存在的因素。具体而言,我们的研究目的包括以下几个方面

首先,我们旨在了解不同汽车型号的最低价和最高价的分布特征。通过对这两个关键价格指标的统计学分析,我们可以得知市场上汽车价格的整体水平和波动情况。这有助于消费者更全面地了解不同车型在价格上的差异,为购车决策提供更为明智的依据。

其次,我们将通过分析最低价和最高价的最大、最小、中位数和方差等统计指标,揭示价格分布的规律。通过了解价格的最大值和最小值,我们可以确定市场上价格最高和最低的汽车型号,为购车者提供关键信息。同时,中位数和方差的分析将揭示价格的中间趋势和波动幅度,有助于我们更全面地了解市场的价格变化趋势。


三、数据采集过程

3.1 反爬情况

从提供的代码中,虽然没有直接看到网站反爬虫的措施,但我们可以根据代码的一些特征和编写方式来进行分析。以下是一些可能的反爬情况的分析

1. UserAgent头部

代码中设置了请求头的UserAgent字段,模拟了浏览器访问,这是常见的反爬手段。一些网站会检测UserAgent,如果发现是爬虫或非正常浏览器访问,可能会限制或拒绝访问。

headers = {
    "UserAgent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"
}

2. IP封锁或限制

在较为严格的反爬情况下,网站可能会对请求的IP地址进行监控。频繁的大量请求可能导致IP被封锁或限制访问。为了规避这种情况,可以考虑使用代理池,轮换IP进行请求。

3. 请求频率控制

代码中没有显式的设置请求频率控制,但在实际爬取中,为了规避被反爬,建议合理控制请求频率,避免短时间内发送过多请求。

👇👇👇 关注公众号,回复 “二手车可视化” 获取源码👇👇👇

3.2 爬取过程

这段爬取数据的代码主要包括两个Python脚本懂车帝爬虫.py 和 懂车帝可视化.py。首先,我们来分析懂车帝爬虫.py中的数据爬取过程

1. 爬取数据源

使用requests库向懂车帝网站发送HTTP请求,模拟浏览器访问行为。

通过json()方法解析HTTP响应,获取JSON格式的汽车信息数据。

url = f"https://www.dongchedi.com/motor/pc/car/rank_data?aid=1839&app_name=auto_web_pc&city_name=%E5%8C%97%E4%BA%AC&count=10&offset={i}&month=202311&new_energy_type=&rank_data_type=11&brand_id=&price=&manufacturer=&outter_detail_type=&nation=0"
response = requests.get(url=url, headers=headers)
cars_msg = response.json()["data"]["list"]

👇👇👇 关注公众号,回复 “二手车可视化” 获取源码👇👇👇

2. 数据提取

使用for循环遍历每一组汽车信息,提取车名、图片链接、最低价、最高价、品牌等关键信息。

将提取的信息以列表形式存储在car列表中。

for message in cars_msg:
    car_name = message["series_name"]  # 车名
    car_img = message["image"]  # 图片链接
    car_price_lower, car_price_upper = message["price"].split("万")[0].split("")  # 最低/高价
    car_brand = message["sub_brand_name"]  # 商标名称
    car.append([car_name, car_brand, car_price_lower, car_price_upper, car_img])

3. 数据保存

将爬取的汽车信息以CSV格式保存在名为data.csv的文件中。

with open('data.csv', 'w', newline='') as csv_file:
    csv_writer = csv.writer(csv_file)
    csv_writer.writerows(car)

四、数据展示

4.1 数据预处理

包括处理异常值、缺失值以及计算最高价和最低价之差。不过,如果需要进一步的数据预处理,可以考虑以下几个方面:

数据类型转换:

确保价格列(最低价和最高价)的数据类型为数值型,以便进行后续的统计和可视化操作。

#将最低价和最高价转换为数值型
data['最低价'] = pd.to_numeric(data['最低价'], errors='coerce')
data['最高价'] = pd.to_numeric(data['最高价'], errors='coerce')
# 删除包含缺失值的行
data = data.dropna()
# 或者使用均值进行填充
data['最低价'].fillna(data['最低价'].mean(), inplace=True)
data['最高价'].fillna(data['最高价'].mean(), inplace=True)
其他数据清洗:
根据实际需求进行其他数据清洗操作,比如去除重复值、转换日期格式等。
# 去除重复值
data = data.drop_duplicates()

👇👇👇 关注公众号,回复 “二手车可视化” 获取源码👇👇👇

4.2 数据可视化

可视化部分的代码主要使用了matplotlib和wordcloud库,涵盖了柱状图、折线图、饼状图以及词云图的绘制。下面对每个可视化部分进行分析

  1. 柱状图最低价前十名和最高价前十名
    使用plt.bar函数分别绘制了最低价和最高价前十名的柱状图,通过颜色的选择使得图表更加直观。图表的横轴为车名,纵轴为价格。这样的柱状图清晰地展示了最低价和最高价的排名前十的车型,方便用户对价格的比较。

👇👇👇 关注公众号,回复 “二手车可视化” 获取源码👇👇👇

2. 折线图品牌 vs 最高价

使用plt.plot函数绘制了品牌与最高价的折线图,通过标明不同品牌,观察它们在最高价上的分布情况。这样的折线图有助于观察品牌之间的价格趋势。

3. 饼状图品牌占比

使用plt.pie函数绘制了品牌占比的饼状图,通过颜色和标签的搭配,直观地展示了不同品牌在数据集中的占比情况。

👇👇👇 关注公众号,回复 “二手车可视化” 获取源码👇👇👇

4. 词云图车名词云

使用WordCloud库绘制了车名的词云图。通过将车名的频次转化为图形展示,可以更形象地反映出车名的分布情况。

👇👇👇 关注公众号,回复 “二手车可视化” 获取源码👇👇👇


相关文章
|
12天前
|
数据可视化 数据挖掘 定位技术
Python和Geopandas进行地理数据可视化
【10月更文挑战第22天】本文介绍了如何使用Python和Geopandas进行地理数据可视化和分析,涵盖从准备工作、加载数据、数据探索与处理、地理数据可视化、空间分析与查询到交互式地理数据可视化等内容。通过丰富的代码示例和案例演示,帮助读者掌握地理数据分析的基本方法,为实际应用提供支持。
52 19
|
6天前
|
缓存 监控 测试技术
Python中的装饰器:功能扩展与代码复用的利器###
本文深入探讨了Python中装饰器的概念、实现机制及其在实际开发中的应用价值。通过生动的实例和详尽的解释,文章展示了装饰器如何增强函数功能、提升代码可读性和维护性,并鼓励读者在项目中灵活运用这一强大的语言特性。 ###
|
9天前
|
缓存 开发者 Python
探索Python中的装饰器:简化代码,增强功能
【10月更文挑战第35天】装饰器在Python中是一种强大的工具,它允许开发者在不修改原有函数代码的情况下增加额外的功能。本文旨在通过简明的语言和实际的编码示例,带领读者理解装饰器的概念、用法及其在实际编程场景中的应用,从而提升代码的可读性和复用性。
|
5天前
|
Python
探索Python中的装饰器:简化代码,提升效率
【10月更文挑战第39天】在编程的世界中,我们总是在寻找使代码更简洁、更高效的方法。Python的装饰器提供了一种强大的工具,能够让我们做到这一点。本文将深入探讨装饰器的基本概念,展示如何通过它们来增强函数的功能,同时保持代码的整洁性。我们将从基础开始,逐步深入到装饰器的高级用法,让你了解如何利用这一特性来优化你的Python代码。准备好让你的代码变得更加优雅和强大了吗?让我们开始吧!
13 1
|
10天前
|
设计模式 缓存 监控
Python中的装饰器:代码的魔法增强剂
在Python编程中,装饰器是一种强大而灵活的工具,它允许程序员在不修改函数或方法源代码的情况下增加额外的功能。本文将探讨装饰器的定义、工作原理以及如何通过自定义和标准库中的装饰器来优化代码结构和提高开发效率。通过实例演示,我们将深入了解装饰器的应用,包括日志记录、性能测量、事务处理等常见场景。此外,我们还将讨论装饰器的高级用法,如带参数的装饰器和类装饰器,为读者提供全面的装饰器使用指南。
|
7天前
|
移动开发 数据可视化 数据挖掘
利用Python实现数据可视化:以Matplotlib和Seaborn为例
【10月更文挑战第37天】本文旨在引导读者理解并掌握使用Python进行数据可视化的基本方法。通过深入浅出的介绍,我们将探索如何使用两个流行的库——Matplotlib和Seaborn,来创建引人入胜的图表。文章将通过具体示例展示如何从简单的图表开始,逐步过渡到更复杂的可视化技术,帮助初学者构建起强大的数据呈现能力。
|
6天前
|
存储 缓存 监控
掌握Python装饰器:提升代码复用性与可读性的利器
在本文中,我们将深入探讨Python装饰器的概念、工作原理以及如何有效地应用它们来增强代码的可读性和复用性。不同于传统的函数调用,装饰器提供了一种优雅的方式来修改或扩展函数的行为,而无需直接修改原始函数代码。通过实际示例和应用场景分析,本文旨在帮助读者理解装饰器的实用性,并鼓励在日常编程实践中灵活运用这一强大特性。
|
10天前
|
存储 算法 搜索推荐
Python高手必备!揭秘图(Graph)的N种风骚表示法,让你的代码瞬间高大上
在Python中,图作为重要的数据结构,广泛应用于社交网络分析、路径查找等领域。本文介绍四种图的表示方法:邻接矩阵、邻接表、边列表和邻接集。每种方法都有其特点和适用场景,掌握它们能提升代码效率和可读性,让你在项目中脱颖而出。
24 5
|
8天前
|
机器学习/深度学习 数据采集 人工智能
探索机器学习:从理论到Python代码实践
【10月更文挑战第36天】本文将深入浅出地介绍机器学习的基本概念、主要算法及其在Python中的实现。我们将通过实际案例,展示如何使用scikit-learn库进行数据预处理、模型选择和参数调优。无论你是初学者还是有一定基础的开发者,都能从中获得启发和实践指导。
19 2
|
10天前
|
数据库 Python
异步编程不再难!Python asyncio库实战,让你的代码流畅如丝!
在编程中,随着应用复杂度的提升,对并发和异步处理的需求日益增长。Python的asyncio库通过async和await关键字,简化了异步编程,使其变得流畅高效。本文将通过实战示例,介绍异步编程的基本概念、如何使用asyncio编写异步代码以及处理多个异步任务的方法,帮助你掌握异步编程技巧,提高代码性能。
29 4