相关视频
任务 / 目标
根据印度二手车交易市场1996-2019年数据,进行清洗,建模,预测。
数据源准备
7253笔交易数据包括汽车属性和交易日期、地点等信息。分析数据构成:
将数据分为NA和非NA组,分析缺失值是否均匀分布:
对于的因变量“交易价格”,可见其缺失值基本均匀分布。
其他自变量的缺失值也基本均匀分布。
特征转换
对一些因变量进行dummy variable转换。对大数值变量如引擎容量,已行驶的公里数进行log transformation。
划分训练集和测试集
75% training data, 25 test data. RMSE作为衡量模型精度的标准。
建模
10 folds Validation when training models to choose best model tuning parameters .
1. Linear Regression with mixing Lasso & Ridge Penalty:
包含三种模型的混合预测。
点击标题查阅往期内容
R语言二手车汽车销售数据可视化探索:预处理、平滑密度图、地理空间可视化
左右滑动查看更多
Best tune: Cost(M) = 10.
1. Random Forests:
随着随机选定的因变量数量提高,10 folds Cross Validation所展示的拟合效果也有波折地逐渐提高。
1. Stochastic Gradient Boosting Machine
调整的参数为树深,树层数达到6时拟合效果最好。
模型优化
各个模型都进行了调参过程。主要依据为10 folds cross validation
结果
在此案例中,Stochastic Gradient Boosting Machine 所得到的RMSE值最小,预测效果最好。
预测结果仅作为参考一个权重值,还需要专家意见,按照一定的权重来计算。
以下为预测集和测试集的部分展示: