一、设计要求
本研究的主要目的是通过对汽车之家汽车数据抓取、数据处理和数据可视化技术,深入探索汽车行业的市场动态、价格趋势和消费者偏好,以提供有关汽车市场的有价值见解和信息。具体目标包括:
1.数据收集与清洗:使用网络抓取技术从汽车相关网站获取广泛的汽车信息,包括车型、价格、级别等。随后,对所收集的数据进行有效的清洗和预处理,以确保数据的准确性和一致性。
2.价格趋势分析:通过数据可视化,探索汽车价格与不同因素(例如车型、级别、价格区间)之间的关系和趋势。这有助于了解不同市场部分的价格变化,以及汽车价格在不同条件下的表现。
3.市场细分研究:基于抓取的数据,对汽车市场进行细分分析,包括不同价格区间内的车型数量和价格分布。这有助于识别潜在市场机会和市场细分的竞争格局。
4.消费者偏好洞察:通过数据可视化,分析消费者对不同汽车级别和价格区间的偏好。这可以为制造商提供有关产品定位和市场推广策略的有用信息。
5.洞察与策略建议:基于研究结果,提出关于汽车市场的实用见解和策略建议。这些建议可以用于制定产品定价策略、市场推广决策以及未来发展规划。
👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 汽车之家数据抓取 ” 获取。👈👈👈
网页内容如下:
抓取内容存储格式如下:
👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 汽车之家数据抓取 ” 获取。👈👈👈
二、设计思路
网页爬虫用于从汽车之家网站上抓取关于汽车型号、级别、价格和价格区间的数据。
- 导入模块:
- 代码导入了必要的模块:
csv
:用于处理 CSV 文件。requests
:用于发起 HTTP 请求。lxml.etree
:用于解析 HTML。
- 函数定义:
write_csv(new_row)
:定义了一个函数,将数据行写入到 CSV 文件中。它接受一个列表(new_row
)作为输入,并将其追加到名为“处理前的数据.csv”的 CSV 文件中。
3.初始化:
new_row
:初始化一个包含列标题的列表:‘车名’、‘级别’、‘价格’ 和 ‘价格区间’。然后将这个列表写入到 CSV 文件中。
4.HTTP 请求和解析:
- 对于每个构造的 URL,代码使用适当的标头发送了 HTTP GET 请求。
- 然后,使用 XPath 表达式解析 HTML 响应,以提取车名、级别和价格等相关数据。
5.数据提取和写入:
- 在循环内部,代码提取了每辆车在页面上的数据。
- 它使用 XPath 表达式提取车辆的标签、名称、级别和价格。
- 将这些数据打印到控制台,并使用
write_csv()
函数将其写入到 CSV 文件中。
👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 汽车之家数据抓取 ” 获取。👈👈👈
三、分析可视化
3.1. 车名 vs 平均价格
该图表通过横轴的车名和纵轴的平均价格展示了不同车型的价格差异。每个车型对应一个条形,条形的高度表示平均价格的水平。通过这个图表,可以直观地比较不同车型之间的价格差异,从而了解不同车型的价格水平。plt.figure(figsize=(10, 5)):设置图表的大小为10x5英寸。
plt.bar(data['车名'], data['平均价格']):创建一个条形图,其中x轴是“车名”,y轴是“平均价格”。plt.xlabel("车名") 和 plt.ylabel("平均价格 (万)"):分别设置x轴和y轴的标签。plt.title("车名 vs 平均价格"):设置图表的标题。plt.xticks(rotation=45):将x轴标签旋转45度,以避免标签重叠。plt.show():显示图表。 # 图1: 车名 vs 平均价格的条形图。 plt.figure(figsize=(10, 5)) plt.bar(data['车名'], data['平均价格']) plt.xlabel("车名") plt.ylabel("平均价格 (万)") plt.title("车名 vs 平均价格") plt.xticks(rotation=45) plt.show()
👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 汽车之家数据抓取 ” 获取。👈👈👈
3.2 价格区间 vs 平均价格的条形图
这个图表通过横轴的价格区间和纵轴的平均价格展示了不同价格区间内的车辆平均价格。每个价格区间对应一个条形,条形的高度表示平均价格的水平。通过这个图表,可以比较不同价格区间内车辆的平均价格,进一步了解价格区间与平均价格之间的关系。
plt.figure(figsize=(10, 5)) plt.bar(data['价格区间'], data['平均价格']) plt.xlabel("价格区间") plt.ylabel("平均价格 (万)") plt.title("价格区间 vs 平均价格") plt.xticks(rotation=45) plt.show()
👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 汽车之家数据抓取 ” 获取。👈👈👈
3.3 价格区间 vs 车的数量
图表展示了不同价格区间内的车辆数量。横轴表示价格区间,纵轴表示车的数量。每个价格区间对应一个条形,条形的高度表示该价格区间内的车辆数量。通过这个图表,我们可以对不同价格区间内车辆的分布情况有一个直观的了解,可以看出哪个价格区间内的车辆数量较多或较少。
调整x轴标签的角度:plt.xticks(rotation=45):这行代码将x轴的标签旋转45度。这在标签较长或者数量较多时特别有用,可以帮助避免标签之间的重叠,使得每个标签都清晰可读。
# 图4: 价格区间 vs 车的数量的条形图 plt.figure(figsize=(10, 5)) price_range_counts = data['价格区间'].value_counts() plt.bar(price_range_counts.index, price_range_counts.values) plt.xlabel("价格区间") plt.ylabel("车的数量") plt.title("价格区间 vs 车的数量") plt.xticks(rotation=45) plt.show()
3.4车名 vs 价格区间的条形图
该图表展示了不同车型对应的价格区间。横轴表示车名,纵轴表示价格区间。每个车型对应一个条形,条形的高度表示该车型所属的价格区间。这个图表可以帮助我们观察不同车型的价格区间分布情况。
# 图3: 车名 vs 价格区间的条形图 plt.figure(figsize=(10, 5)) plt.bar(data['车名'], data['价格区间']) plt.xlabel("车名") plt.ylabel("价格区间") plt.title("车名 vs 价格区间") plt.xticks(rotation=45) plt.show()
👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 汽车之家数据抓取 ” 获取。👈👈👈