数学建模之数据预处理-------数据异常值的处理

简介: 数学建模之数据预处理-------数据异常值的处理

1.数据集成:把不同类型的数据转换成统一的类型;,即格式的统一化;

2.数据规约:包括数据降维,降数据,数据压缩

当不同数据相关性很大时,我们采用降维的方法;当数据的相关性很小时,我们采用降数据的方法

数据降维的主成分分析即PCA,如上图所显示的那样,即旋转坐标轴,x轴上的数据波动范围比较大,而y轴上数据的波动范围比较小,我们便把二维降成一维。

降数据主要采用分层抽样,简单随机抽样;

数据压缩包括压缩感知,图像压缩;

3.数据清洗

数据删除,数据插值(拉格朗日,牛顿插值)最近邻插值(某地势山的高度缺失),线性回归插值,异常数据(必须删除,用平均值,插值代替)

4.数据规划

包括归一化,标准化,线性变换。

二.缺失值的处理

拉格朗日插值法,一维插值,二维插值;

两个不同的函数mesh,meshc第一个是绘制曲面,第二个是绘制带有等高线的。

区别:interp2主要处理的是巨均匀排列的数据,griddata主要处理的是波动起伏比较大的数据。

三.异常值的处理

必须用科学的方法说明该数据异常,主要有正态分布3σ原则,箱型图

3σ代码完成后,输入inlier便可以得出删除异常值之后的数据,因为符合该原则的数据被录入inlier.

2.画箱型图是用boxplot函数

boxplot函数在使用时,需要对矩阵进行转置的操作,即把他化作列向量。

上面的案例是XY的数据相同时的处理方法

这个是XYZ数据量不相同时的处理方法。。

四.数据变换

我们一致的处理原则是极大型(利润),极小型指标(垃圾,污染程度,科研经费),中间型指标(水的PH值),区间型指标(一个学校里老师,学生的比例,体温的范围,水里面植物营养物质的含量)区间性指标需要进行转置变换;这些数据指标。可能有越大越好,也有越小越好,我们需要统一指标。无量纲化处理可以去除单位对于我们最后结果的影响。

极小型指标(可以进行取倒数的操作,得到我们想要的),标准差方法的取值范围不固定,极值差方法(可以变到固定范围,但容易受极大值,极小值的影响)功效系数法(可以变换到我们所需要的范围)----这三种方法均可以取消量纲。

定性指标的量化------不同人的等级评价-----构建模糊隶属函数。

相关文章
|
机器学习/深度学习 数据采集 数据可视化
机器学习入门----线性回归实验记录
机器学习入门----线性回归实验记录
129 0
|
6月前
|
机器学习/深度学习 运维 算法
Python基于局部离群因子LOF算法(LocalOutlierFactor)实现信用卡数据异常值检测项目实战
Python基于局部离群因子LOF算法(LocalOutlierFactor)实现信用卡数据异常值检测项目实战
|
8月前
|
算法 异构计算
基于直方图的图像曝光量分析FPGA实现,包含tb测试文件和MATLAB辅助验证
该内容包括了算法的运行效果展示、软件版本信息、理论概述和核心程序代码。在正常图像中,`checkb`位于`f192b`和`f250b`之间,而多度曝光图像中`checkb`超出此范围,判断为曝光过度。使用的软件为Vivado 2019.2和MATLAB 2022a。理论依据未详细给出,但提及主要方法。提供的Verilog代码段用于处理图像数据,包括读取文件、时钟控制及图像histogram计算等,其中模块`im_hist`似乎是关键部分。
|
8月前
|
算法 TensorFlow 算法框架/工具
基于直方图的图像阈值计算和分割算法FPGA实现,包含tb测试文件和MATLAB辅助验证
这是一个关于图像处理的算法实现摘要,主要包括四部分:展示了四张算法运行的效果图;提到了使用的软件版本为VIVADO 2019.2和matlab 2022a;介绍了算法理论,即基于直方图的图像阈值分割,通过灰度直方图分布选取阈值来区分图像区域;并提供了部分Verilog代码,该代码读取图像数据,进行处理,并输出结果到"result.txt"以供MATLAB显示图像分割效果。
|
8月前
|
算法 计算机视觉 异构计算
基于FPGA的图像累积直方图verilog实现,包含tb测试文件和MATLAB辅助验证
该内容展示了FPGA实现图像累积直方图的算法。使用Vivado2019.2和matlab2022a,通过FPGA的并行处理能力优化图像处理。算法基于像素值累加分布,计算图像中像素值小于等于特定值的像素个数。核心代码为`test_image`模块,读取二进制图像文件并传递给`im_hist`单元,生成直方图和累积直方图。
|
8月前
|
算法 计算机视觉 异构计算
基于直方图相似性的图像分类算法FPGA实现,包括tb测试文件和MATLAB辅助验证
该内容包含了一段关于图像处理算法的摘要,主要包括: 1. 展示了MATLAB和FPGA的测试结果图像,显示了图像读取完成的标志和相似性指标,其中图1与图2有较强相似性,图1与图3相似性较弱。 2. 算法使用的是vivado 2019.2和matlab 2022A版本。 3. 算法原理涉及图像直方图统计和直方图相似性度量,通过计算直方图的差异来衡量图像相似度,FPGA实现包括图像采集、直方图计算、比较和分类决策步骤。 4. 提供了一个部分核心Verilog程序,用于读取图像数据并在FPGA上进行直方图相似性计算。
|
8月前
|
机器学习/深度学习 存储
matlab使用分位数随机森林(QRF)回归树检测异常值
matlab使用分位数随机森林(QRF)回归树检测异常值
|
8月前
|
人工智能 算法 数据可视化
R语言DTW(Dynamic Time Warping) 动态时间规整算法分析序列数据和可视化
R语言DTW(Dynamic Time Warping) 动态时间规整算法分析序列数据和可视化
|
存储 算法 数据格式
基于LUT查找表方法的图像gamma校正算法FPGA实现,包括tb测试文件和MATLAB辅助验证
基于LUT查找表方法的图像gamma校正算法FPGA实现,包括tb测试文件和MATLAB辅助验证
|
8月前
|
存储 算法 异构计算
基于FPGA的图像直方图统计实现,包括tb测试文件和MATLAB辅助验证
基于FPGA的图像直方图统计实现,包括tb测试文件和MATLAB辅助验证