数据挖掘导论——综合实验(上)

简介: 数据挖掘导论——综合实验

实验目的与要求


结合问题理解,描述三种适用于本题的模型。

掌握数据挖掘的基本流程,包括数据分析与预处理,特征过程,模型训练与测试,实验内容文件中给出了一些可以参考的步骤,大家可以自行选择或自由发挥完成各阶段的工作。

最后将预测结果文件上传到比赛网站上进行测试,将结果截图,记录分数和排名。


试验环境


本次实验采用PC机进行数据分析,采用服务器进行训练模型并进行预测。


【PC机配置】

CPU:11th Gen Intel® Core™ i7-11700K @ 3.60GHz 3.60 GHz

GPU:NVIDIA GeForce RTX 3060

操作系统:Windows 10 专业版


【服务器配置】

CPU:Intel® Xeon® CPU E5-2680 v4 @ 2.40GHz

GPU:2张NVIDIA A100

操作系统:Linux


实验内容及过程


一、数据分析


1、基础数据分析:


首先引入必须的库,然后将训练集数据和测试集数据合并,以便后面的操作。


查看前几行数据:

4e52d89aa6ad4ff08f59a0701944fc71.png

通过分析,以及查阅资料,可知数据中共包含31个字段,其中包含15个匿名变量,其余变量展示如下:

image.png

image.png


首先大致观察数据:

17141ac78143437aaa133298b41c866e.png

使用describe总览数据情况

38a22b6f29a744228f00a6aebcec1b1d.png


通过info()来熟悉数据类型

8e27b60ecb76466d82be775dfbcadc36.png

发现除了“notRepairedDamage”之外其他都是数值特征,说明后续需要对这个特征进行数值化处理。


2、特征相关性分析:


绘制特征相关度的热度图。发现与价格相关度比较高的特征有regDate,匿名特征v_0、v_3、v_8、v_12,则在特征工程中需要重点对这些属性进行处理。


6f2006f04bba4726a87f655ddd575e5b.png

3、特征值重复度分析:


统计每个特征中不重复的值的数目。对于重复度很高的特征,后续缺失值可以考虑使用众数填充的方法来处理。

9662776ac7ec4351bc13dfa86ab5e9f4.png


4、缺失值统计分析:


接下来,对数据缺失以及异常情况进行统计:

379795f4386c407a8fd456418a920030.png

可以发现bodyType,fuelType,gearbox三个字段缺失较多。


进行数据可视化

00cc7336711a411a99800e2a824226fc.png


5、价格分布分析:


绘制价格的直方图、密度图,可以得出,价格大致呈长尾分布,说明后续需要将数据进行正态化的处理。

1fe760a01d304887bbd5bb65b94a3a18.png

正态化后:


8319d1906deb4c7989a171f167f36229.png

相关文章
|
8月前
|
机器学习/深度学习 人工智能 算法
04 机器学习 - 数据挖掘与机器学习导论
04 机器学习 - 数据挖掘与机器学习导论
114 0
|
机器学习/深度学习 数据采集 算法
数据挖掘导论——综合实验(下)
数据挖掘导论——综合实验
167 0
数据挖掘导论——综合实验(下)
|
数据采集 机器学习/深度学习 数据可视化
数据挖掘导论——分类与预测(三)
数据挖掘导论——分类与预测
228 0
数据挖掘导论——分类与预测(三)
|
数据挖掘
数据挖掘导论——分类与预测(二)
数据挖掘导论——分类与预测
165 0
数据挖掘导论——分类与预测(二)
|
数据挖掘
数据挖掘导论——分类与预测(一)
数据挖掘导论——分类与预测
243 0
数据挖掘导论——分类与预测(一)
|
数据可视化 数据挖掘 Linux
数据挖掘导论——可视化分析实验
数据挖掘导论——可视化分析实验
131 0
数据挖掘导论——可视化分析实验
|
数据挖掘 数据安全/隐私保护 索引
数据挖掘导论——Python练习
数据挖掘导论——Python练习
259 0
数据挖掘导论——Python练习
|
数据采集 运维 算法
【数据挖掘导论】书籍小册(一)绪论
【数据挖掘导论】书籍小册(一)绪论
115 0
【数据挖掘导论】书籍小册(一)绪论

热门文章

最新文章