一、实验题目
中国二手车市场盈利部分数据分析
二、实验目的
中国二手车市场潜力很大,面对如此市场行情,我们将用数据分析的方法,分析过去并使用机器学习进行建模和预测,以让即将接触或者正处于经营的商家对市场有着新的认识,且可以通过对历史数据分析后的可视化的图表展示,帮助买家在购买二手车方面提供帮助。
三、实验难点
1)原始数据的清洗:
在原始数据集中,只有四个字段。其中一个字段包含四个数据,且用竖线隔开。在二手车的价格中,一个字段里既有数字又有中文字“万”,因此要进行数据清洗。我们采用R语言进行数据清洗,将数据切割,保证一个字段里只有一种数据。同时也对价格字段进行了处理,去掉了中文字,只保留数字。
2)机器学习
由于对机器学习接触不多,所以在建模的时候不是很顺利。而且需要考虑维度的选取以及挑选对于预测结果有帮助的数据字段。
四、实验过程
1、数据处理部分
清洗前的数据集
清洗前原始数据集字段
数据清洗代码(R语言进行清洗)
清洗后导入MaxCompute的数据
清洗后数据集的字段
清洗后字段本地查看
2、可视化部分
1)北京连续三年二手车交易趋势
2)北京二手车市场的大众车辆中,型号与二手差价的关系
3)二手交易市场中,在2017年豪华型车辆交易居多
4)2017年,二手车数量前十的品牌
5)同一品牌,二车手行驶公里数与价格的关系
6)2017年,北京二手车差价较高的品牌
7)2017年,二手交易市场较活跃的地区
8)大众二手车较受欢迎地区
3、机器学习PAI部分
1)机器学习数据清洗
2)处理流程图
3)混淆矩阵结果
4)比例矩阵结果
5)分析结果统计信息