基于阿里云平台的大数据教学案例 —— 中国二手车市场盈利部分数据分析

简介: 中国二手车市场潜力很大,面对如此市场行情,我们将用数据分析的方法,分析过去并使用机器学习进行建模和预测,以让即将接触或者正处于经营的商家对市场有着新的认识,且可以通过对历史数据分析后的可视化的图表展示,帮助买家在购买二手车方面提供帮助。

一、实验题目
中国二手车市场盈利部分数据分析
二、实验目的
中国二手车市场潜力很大,面对如此市场行情,我们将用数据分析的方法,分析过去并使用机器学习进行建模和预测,以让即将接触或者正处于经营的商家对市场有着新的认识,且可以通过对历史数据分析后的可视化的图表展示,帮助买家在购买二手车方面提供帮助。
三、实验难点
1)原始数据的清洗:
在原始数据集中,只有四个字段。其中一个字段包含四个数据,且用竖线隔开。在二手车的价格中,一个字段里既有数字又有中文字“万”,因此要进行数据清洗。我们采用R语言进行数据清洗,将数据切割,保证一个字段里只有一种数据。同时也对价格字段进行了处理,去掉了中文字,只保留数字。
2)机器学习
由于对机器学习接触不多,所以在建模的时候不是很顺利。而且需要考虑维度的选取以及挑选对于预测结果有帮助的数据字段。

四、实验过程
1、数据处理部分
清洗前的数据集

image.png

清洗前原始数据集字段
image.png

数据清洗代码(R语言进行清洗)
image.png

清洗后导入MaxCompute的数据
image.png

清洗后数据集的字段
image.png

清洗后字段本地查看
image.png

2、可视化部分
1)北京连续三年二手车交易趋势
image.png

2)北京二手车市场的大众车辆中,型号与二手差价的关系
image.png

3)二手交易市场中,在2017年豪华型车辆交易居多
image.png

4)2017年,二手车数量前十的品牌
image.png

5)同一品牌,二车手行驶公里数与价格的关系
image.png

6)2017年,北京二手车差价较高的品牌
image.png

7)2017年,二手交易市场较活跃的地区

8)大众二手车较受欢迎地区
image.png

3、机器学习PAI部分
1)机器学习数据清洗
image.png

2)处理流程图
image.png

3)混淆矩阵结果
image.png

4)比例矩阵结果
image.png

5)分析结果统计信息
image.png

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
11月前
|
存储 分布式计算 大数据
【赵渝强老师】阿里云大数据存储计算服务:MaxCompute
阿里云MaxCompute是快速、全托管的TB/PB级数据仓库解决方案,提供海量数据存储与计算服务。支持多种计算模型,适用于大规模离线数据分析,具备高安全性、低成本、易用性强等特点,助力企业高效处理大数据。
550 0
|
9月前
|
人工智能 分布式计算 DataWorks
阿里云大数据AI产品月刊-2025年8月
阿里云大数据& AI 产品技术月刊【2025年 8 月】,涵盖 8 月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
683 2
|
9月前
|
存储 分布式计算 资源调度
【赵渝强老师】阿里云大数据MaxCompute的体系架构
阿里云MaxCompute是快速、全托管的EB级数据仓库解决方案,适用于离线计算场景。它由计算与存储层、逻辑层、接入层和客户端四部分组成,支持多种计算任务的统一调度与管理。
814 1
|
9月前
|
机器学习/深度学习 传感器 分布式计算
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
624 14
|
11月前
|
数据采集 分布式计算 DataWorks
ODPS在某公共数据项目上的实践
本项目基于公共数据定义及ODPS与DataWorks技术,构建一体化智能化数据平台,涵盖数据目录、归集、治理、共享与开放六大目标。通过十大子系统实现全流程管理,强化数据安全与流通,提升业务效率与决策能力,助力数字化改革。
397 4
|
11月前
|
分布式计算 DataWorks 数据处理
在数据浪潮中前行:记录一次我与ODPS的实践、思考与展望
本文详细介绍了在 AI 时代背景下,如何利用阿里云 ODPS 平台(尤其是 MaxCompute)进行分布式多模态数据处理的实践过程。内容涵盖技术架构解析、完整操作流程、实际部署步骤以及未来发展方向,同时结合 CSDN 博文深入探讨了多模态数据处理的技术挑战与创新路径,为企业提供高效、低成本的大规模数据处理方案。
489 3
|
10月前
|
机器学习/深度学习 运维 监控
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
974 0
|
9月前
|
传感器 人工智能 监控
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
291 14
|
9月前
|
机器学习/深度学习 传感器 监控
吃得安心靠数据?聊聊用大数据盯紧咱们的餐桌安全
吃得安心靠数据?聊聊用大数据盯紧咱们的餐桌安全
304 1