【python】python懂车帝数据可视化(代码+报告)

简介: 【python】python懂车帝数据可视化(代码+报告)


👉博__主👈:米码收割机

👉技__能👈:C++/Python语言

👉公众号👈:测试开发自动化【获取源码+商业合作】

👉荣__誉👈:阿里云博客专家博主、51CTO技术博主

👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。



一、研究背景

在当今社会,汽车已经成为人们生活中不可或缺的一部分,而汽车的购车决策往往受到各种因素的影响。为了更好地了解市场上不同汽车的价格分布情况,以及为购车者提供更全面的信息,我们对懂车帝网站上的汽车数据进行了深入研究和分析。该数据包含了各种品牌和型号的汽车,涵盖了最低价、最高价等关键信息,为我们提供了一个全面洞察汽车市场的机会。

总体而言,通过对懂车帝网站上爬取的汽车数据进行综合分析,我们有望揭示汽车市场中价格的分布特征,为购车者提供更为全面的参考,为汽车制造商提供更为明智的市场定价策略,促使汽车市场更好地满足消费者需求,推动整个行业的可持续发展。

👇👇👇 关注公众号,回复 “二手车可视化” 获取源码👇👇👇


二、研究目的

本研究的目的在于深入分析懂车帝网站上的汽车数据,主要关注汽车的最低价和最高价这两个关键指标。通过对这些价格数据的综合研究,我们旨在揭示不同汽车在市场上的价格分布情况,以及探究价格背后可能存在的因素。具体而言,我们的研究目的包括以下几个方面

首先,我们旨在了解不同汽车型号的最低价和最高价的分布特征。通过对这两个关键价格指标的统计学分析,我们可以得知市场上汽车价格的整体水平和波动情况。这有助于消费者更全面地了解不同车型在价格上的差异,为购车决策提供更为明智的依据。

其次,我们将通过分析最低价和最高价的最大、最小、中位数和方差等统计指标,揭示价格分布的规律。通过了解价格的最大值和最小值,我们可以确定市场上价格最高和最低的汽车型号,为购车者提供关键信息。同时,中位数和方差的分析将揭示价格的中间趋势和波动幅度,有助于我们更全面地了解市场的价格变化趋势。


三、数据采集过程

3.1 反爬情况

从提供的代码中,虽然没有直接看到网站反爬虫的措施,但我们可以根据代码的一些特征和编写方式来进行分析。以下是一些可能的反爬情况的分析

1. UserAgent头部

代码中设置了请求头的UserAgent字段,模拟了浏览器访问,这是常见的反爬手段。一些网站会检测UserAgent,如果发现是爬虫或非正常浏览器访问,可能会限制或拒绝访问。

headers = {
    "UserAgent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"
}

2. IP封锁或限制

在较为严格的反爬情况下,网站可能会对请求的IP地址进行监控。频繁的大量请求可能导致IP被封锁或限制访问。为了规避这种情况,可以考虑使用代理池,轮换IP进行请求。

3. 请求频率控制

代码中没有显式的设置请求频率控制,但在实际爬取中,为了规避被反爬,建议合理控制请求频率,避免短时间内发送过多请求。

👇👇👇 关注公众号,回复 “二手车可视化” 获取源码👇👇👇

3.2 爬取过程

这段爬取数据的代码主要包括两个Python脚本懂车帝爬虫.py 和 懂车帝可视化.py。首先,我们来分析懂车帝爬虫.py中的数据爬取过程

1. 爬取数据源

使用requests库向懂车帝网站发送HTTP请求,模拟浏览器访问行为。

通过json()方法解析HTTP响应,获取JSON格式的汽车信息数据。

url = f"https://www.dongchedi.com/motor/pc/car/rank_data?aid=1839&app_name=auto_web_pc&city_name=%E5%8C%97%E4%BA%AC&count=10&offset={i}&month=202311&new_energy_type=&rank_data_type=11&brand_id=&price=&manufacturer=&outter_detail_type=&nation=0"
response = requests.get(url=url, headers=headers)
cars_msg = response.json()["data"]["list"]

👇👇👇 关注公众号,回复 “二手车可视化” 获取源码👇👇👇

2. 数据提取

使用for循环遍历每一组汽车信息,提取车名、图片链接、最低价、最高价、品牌等关键信息。

将提取的信息以列表形式存储在car列表中。

for message in cars_msg:
    car_name = message["series_name"]  # 车名
    car_img = message["image"]  # 图片链接
    car_price_lower, car_price_upper = message["price"].split("万")[0].split("")  # 最低/高价
    car_brand = message["sub_brand_name"]  # 商标名称
    car.append([car_name, car_brand, car_price_lower, car_price_upper, car_img])

3. 数据保存

将爬取的汽车信息以CSV格式保存在名为data.csv的文件中。

with open('data.csv', 'w', newline='') as csv_file:
    csv_writer = csv.writer(csv_file)
    csv_writer.writerows(car)

四、数据展示

4.1 数据预处理

包括处理异常值、缺失值以及计算最高价和最低价之差。不过,如果需要进一步的数据预处理,可以考虑以下几个方面:

数据类型转换:

确保价格列(最低价和最高价)的数据类型为数值型,以便进行后续的统计和可视化操作。

#将最低价和最高价转换为数值型
data['最低价'] = pd.to_numeric(data['最低价'], errors='coerce')
data['最高价'] = pd.to_numeric(data['最高价'], errors='coerce')
# 删除包含缺失值的行
data = data.dropna()
# 或者使用均值进行填充
data['最低价'].fillna(data['最低价'].mean(), inplace=True)
data['最高价'].fillna(data['最高价'].mean(), inplace=True)
其他数据清洗:
根据实际需求进行其他数据清洗操作,比如去除重复值、转换日期格式等。
# 去除重复值
data = data.drop_duplicates()

👇👇👇 关注公众号,回复 “二手车可视化” 获取源码👇👇👇

4.2 数据可视化

可视化部分的代码主要使用了matplotlib和wordcloud库,涵盖了柱状图、折线图、饼状图以及词云图的绘制。下面对每个可视化部分进行分析

  1. 柱状图最低价前十名和最高价前十名
    使用plt.bar函数分别绘制了最低价和最高价前十名的柱状图,通过颜色的选择使得图表更加直观。图表的横轴为车名,纵轴为价格。这样的柱状图清晰地展示了最低价和最高价的排名前十的车型,方便用户对价格的比较。

👇👇👇 关注公众号,回复 “二手车可视化” 获取源码👇👇👇

2. 折线图品牌 vs 最高价

使用plt.plot函数绘制了品牌与最高价的折线图,通过标明不同品牌,观察它们在最高价上的分布情况。这样的折线图有助于观察品牌之间的价格趋势。

3. 饼状图品牌占比

使用plt.pie函数绘制了品牌占比的饼状图,通过颜色和标签的搭配,直观地展示了不同品牌在数据集中的占比情况。

👇👇👇 关注公众号,回复 “二手车可视化” 获取源码👇👇👇

4. 词云图车名词云

使用WordCloud库绘制了车名的词云图。通过将车名的频次转化为图形展示,可以更形象地反映出车名的分布情况。

👇👇👇 关注公众号,回复 “二手车可视化” 获取源码👇👇👇


相关文章
|
3月前
|
运维 监控 算法
时间序列异常检测:MSET-SPRT组合方法的原理和Python代码实现
MSET-SPRT是一种结合多元状态估计技术(MSET)与序贯概率比检验(SPRT)的混合框架,专为高维度、强关联数据流的异常检测设计。MSET通过历史数据建模估计系统预期状态,SPRT基于统计推断判定偏差显著性,二者协同实现精准高效的异常识别。本文以Python为例,展示其在模拟数据中的应用,证明其在工业监控、设备健康管理及网络安全等领域的可靠性与有效性。
654 13
时间序列异常检测:MSET-SPRT组合方法的原理和Python代码实现
|
3月前
|
SQL 自然语言处理 数据库
【Azure Developer】分享两段Python代码处理表格(CSV格式)数据 : 根据每列的内容生成SQL语句
本文介绍了使用Python Pandas处理数据收集任务中格式不统一的问题。针对两种情况:服务名对应多人拥有状态(1/0表示),以及服务名与人名重复列的情况,分别采用双层for循环和字典数据结构实现数据转换,最终生成Name对应的Services列表(逗号分隔)。此方法高效解决大量数据的人工处理难题,减少错误并提升效率。文中附带代码示例及执行结果截图,便于理解和实践。
|
11天前
|
机器学习/深度学习 人工智能 PyTorch
200行python代码实现从Bigram模型到LLM
本文从零基础出发,逐步实现了一个类似GPT的Transformer模型。首先通过Bigram模型生成诗词,接着加入Positional Encoding实现位置信息编码,再引入Single Head Self-Attention机制计算token间的关系,并扩展到Multi-Head Self-Attention以增强表现力。随后添加FeedForward、Block结构、残差连接(Residual Connection)、投影(Projection)、层归一化(Layer Normalization)及Dropout等组件,最终调整超参数完成一个6层、6头、384维度的“0.0155B”模型
200行python代码实现从Bigram模型到LLM
|
11天前
|
机器学习/深度学习 算法 PyTorch
从零开始200行python代码实现LLM
本文从零开始用Python实现了一个极简但完整的大语言模型,帮助读者理解LLM的工作原理。首先通过传统方法构建了一个诗词生成器,利用字符间的概率关系递归生成文本。接着引入PyTorch框架,逐步重构代码,实现了一个真正的Bigram模型。文中详细解释了词汇表(tokenizer)、张量(Tensor)、反向传播、梯度下降等关键概念,并展示了如何用Embedding层和线性层搭建模型。最终实现了babyGPT_v1.py,一个能生成类似诗词的简单语言模型。下一篇文章将在此基础上实现自注意力机制和完整的GPT模型。
从零开始200行python代码实现LLM
|
1月前
|
数据采集 运维 API
把Postman调试脚本秒变Python采集代码的三大技巧
本文介绍了如何借助 Postman 调试工具快速生成 Python 爬虫代码,并结合爬虫代理实现高效数据采集。文章通过“跨界混搭”结构,先讲解 Postman 的 API 调试功能,再映射到 Python 爬虫技术,重点分享三大技巧:利用 Postman 生成请求骨架、通过 Session 管理 Cookie 和 User-Agent,以及集成代理 IP 提升稳定性。以票务信息采集为例,展示完整实现流程,探讨其在抗封锁、团队协作等方面的价值,帮助开发者快速构建生产级爬虫代码。
把Postman调试脚本秒变Python采集代码的三大技巧
|
20天前
|
机器学习/深度学习 算法 测试技术
图神经网络在信息检索重排序中的应用:原理、架构与Python代码解析
本文探讨了基于图的重排序方法在信息检索领域的应用与前景。传统两阶段检索架构中,初始检索速度快但结果可能含噪声,重排序阶段通过强大语言模型提升精度,但仍面临复杂需求挑战
53 0
图神经网络在信息检索重排序中的应用:原理、架构与Python代码解析
|
22天前
|
存储 机器学习/深度学习 人工智能
多模态RAG实战指南:完整Python代码实现AI同时理解图片、表格和文本
本文探讨了多模态RAG系统的最优实现方案,通过模态特定处理与后期融合技术,在性能、准确性和复杂度间达成平衡。系统包含文档分割、内容提取、HTML转换、语义分块及向量化存储五大模块,有效保留结构和关系信息。相比传统方法,该方案显著提升了复杂查询的检索精度(+23%),并支持灵活升级。文章还介绍了查询处理机制与优势对比,为构建高效多模态RAG系统提供了实践指导。
203 0
多模态RAG实战指南:完整Python代码实现AI同时理解图片、表格和文本
|
2月前
|
开发框架 Java .NET
Python中main函数:代码结构的基石
在Python中,`main`函数是程序结构化和模块化的重要组成部分。它实现了脚本执行与模块导入的分离,避免全局作用域污染并提升代码复用性。其核心作用包括:标准化程序入口、保障模块复用及支持测试驱动开发(TDD)。根据项目复杂度,`main`函数有基础版、函数封装版、参数解析版和类封装版四种典型写法。 与其他语言相比,Python的`main`机制更灵活,支持同一文件作为脚本运行或模块导入。进阶技巧涵盖多文件项目管理、命令行参数处理、环境变量配置及日志集成等。此外,还需注意常见错误如全局变量污染和循环导入,并通过延迟加载、多进程支持和类型提示优化性能。
200 0
|
4月前
|
API 开发工具 Python
【Azure Developer】编写Python SDK代码实现从China Azure中VM Disk中创建磁盘快照Snapshot
本文介绍如何使用Python SDK为中国区微软云(China Azure)中的虚拟机磁盘创建快照。通过Azure Python SDK的Snapshot Class,指定`location`和`creation_data`参数,使用`Copy`选项从现有磁盘创建快照。代码示例展示了如何配置Default Azure Credential,并设置特定于中国区Azure的`base_url`和`credential_scopes`。参考资料包括官方文档和相关API说明。
|
4月前
|
数据采集 供应链 API
实战指南:通过1688开放平台API获取商品详情数据(附Python代码及避坑指南)
1688作为国内最大的B2B供应链平台,其API为企业提供合法合规的JSON数据源,直接获取批发价、SKU库存等核心数据。相比爬虫方案,官方API避免了反爬严格、数据缺失和法律风险等问题。企业接入1688商品API需完成资质认证、创建应用、签名机制解析及调用接口四步。应用场景包括智能采购系统、供应商评估模型和跨境选品分析。提供高频问题解决方案及安全合规实践,确保数据安全与合法使用。立即访问1688开放平台,解锁B2B数据宝藏!

热门文章

最新文章

推荐镜像

更多