实验目的与要求
结合问题理解,描述三种适用于本题的模型。
掌握数据挖掘的基本流程,包括数据分析与预处理,特征过程,模型训练与测试,实验内容文件中给出了一些可以参考的步骤,大家可以自行选择或自由发挥完成各阶段的工作。
最后将预测结果文件上传到比赛网站上进行测试,将结果截图,记录分数和排名。
试验环境
本次实验采用PC机进行数据分析,采用服务器进行训练模型并进行预测。
【PC机配置】
CPU:11th Gen Intel® Core™ i7-11700K @ 3.60GHz 3.60 GHz
GPU:NVIDIA GeForce RTX 3060
操作系统:Windows 10 专业版
【服务器配置】
CPU:Intel® Xeon® CPU E5-2680 v4 @ 2.40GHz
GPU:2张NVIDIA A100
操作系统:Linux
实验内容及过程
一、数据分析
1、基础数据分析:
首先引入必须的库,然后将训练集数据和测试集数据合并,以便后面的操作。
查看前几行数据:
通过分析,以及查阅资料,可知数据中共包含31个字段,其中包含15个匿名变量,其余变量展示如下:
首先大致观察数据:
使用describe总览数据情况
通过info()来熟悉数据类型
发现除了“notRepairedDamage”之外其他都是数值特征,说明后续需要对这个特征进行数值化处理。
2、特征相关性分析:
绘制特征相关度的热度图。发现与价格相关度比较高的特征有regDate,匿名特征v_0、v_3、v_8、v_12,则在特征工程中需要重点对这些属性进行处理。
3、特征值重复度分析:
统计每个特征中不重复的值的数目。对于重复度很高的特征,后续缺失值可以考虑使用众数填充的方法来处理。
4、缺失值统计分析:
接下来,对数据缺失以及异常情况进行统计:
可以发现bodyType,fuelType,gearbox三个字段缺失较多。
进行数据可视化
5、价格分布分析:
绘制价格的直方图、密度图,可以得出,价格大致呈长尾分布,说明后续需要将数据进行正态化的处理。
正态化后: