数学建模之数据预处理-------数据异常值的处理

简介: 数学建模之数据预处理-------数据异常值的处理

1.数据集成:把不同类型的数据转换成统一的类型;,即格式的统一化;

2.数据规约:包括数据降维,降数据,数据压缩

当不同数据相关性很大时,我们采用降维的方法;当数据的相关性很小时,我们采用降数据的方法

数据降维的主成分分析即PCA,如上图所显示的那样,即旋转坐标轴,x轴上的数据波动范围比较大,而y轴上数据的波动范围比较小,我们便把二维降成一维。

降数据主要采用分层抽样,简单随机抽样;

数据压缩包括压缩感知,图像压缩;

3.数据清洗

数据删除,数据插值(拉格朗日,牛顿插值)最近邻插值(某地势山的高度缺失),线性回归插值,异常数据(必须删除,用平均值,插值代替)

4.数据规划

包括归一化,标准化,线性变换。

二.缺失值的处理

拉格朗日插值法,一维插值,二维插值;

两个不同的函数mesh,meshc第一个是绘制曲面,第二个是绘制带有等高线的。

区别:interp2主要处理的是巨均匀排列的数据,griddata主要处理的是波动起伏比较大的数据。

三.异常值的处理

必须用科学的方法说明该数据异常,主要有正态分布3σ原则,箱型图

3σ代码完成后,输入inlier便可以得出删除异常值之后的数据,因为符合该原则的数据被录入inlier.

2.画箱型图是用boxplot函数

boxplot函数在使用时,需要对矩阵进行转置的操作,即把他化作列向量。

上面的案例是XY的数据相同时的处理方法

这个是XYZ数据量不相同时的处理方法。。

四.数据变换

我们一致的处理原则是极大型(利润),极小型指标(垃圾,污染程度,科研经费),中间型指标(水的PH值),区间型指标(一个学校里老师,学生的比例,体温的范围,水里面植物营养物质的含量)区间性指标需要进行转置变换;这些数据指标。可能有越大越好,也有越小越好,我们需要统一指标。无量纲化处理可以去除单位对于我们最后结果的影响。

极小型指标(可以进行取倒数的操作,得到我们想要的),标准差方法的取值范围不固定,极值差方法(可以变到固定范围,但容易受极大值,极小值的影响)功效系数法(可以变换到我们所需要的范围)----这三种方法均可以取消量纲。

定性指标的量化------不同人的等级评价-----构建模糊隶属函数。

相关文章
|
10月前
|
算法
数学建模-------误差来源以及误差分析
数学建模-------误差来源以及误差分析
403 0
|
机器学习/深度学习 数据采集 数据可视化
机器学习入门----线性回归实验记录
机器学习入门----线性回归实验记录
137 0
|
机器学习/深度学习 存储 数据采集
机器学习(十三)缺失值处理的处理方法总结
机器学习(十三)缺失值处理的处理方法总结
929 0
|
7月前
|
机器学习/深度学习 计算机视觉
【机器学习】回归树生成过程及举例理解
【8月更文挑战第6天】本文介绍了回归树的生成过程,并通过一个打高尔夫球时间预测的例子详细解释了如何选择分支节点和评估标准方差,以及如何确定停止条件来构建最终的树模型。
115 10
【机器学习】回归树生成过程及举例理解
|
5月前
|
机器学习/深度学习 程序员
【机器学习】朴素贝叶斯原理------迅速了解常见概率的计算
【机器学习】朴素贝叶斯原理------迅速了解常见概率的计算
|
9月前
|
机器学习/深度学习 数据采集 人工智能
人工智能平台PAI产品使用合集之在使用ARIMA模型预测时,目标是预测输出12个值,但只打印了5个值,是什么原因
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
10月前
|
机器学习/深度学习 SQL 人工智能
人工智能平台PAI 操作报错合集之机器学习PAI缺失值补充报错,从odps读取数据正常 进行下一步时,补充缺失值报错如何解决
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。
|
10月前
|
数据可视化
结构方程模型 SEM 多元回归和模型诊断分析学生测试成绩数据与可视化
结构方程模型 SEM 多元回归和模型诊断分析学生测试成绩数据与可视化
|
机器学习/深度学习 数据挖掘 Python
统计回归模型中的一些概念解释
统计回归模型中的一些概念解释
185 0
|
算法 数据挖掘 知识图谱
LINE算法复现 图表示学习 基于line 算法的节点分类 聚类显示 完整代码+数据
LINE算法复现 图表示学习 基于line 算法的节点分类 聚类显示 完整代码+数据
73 0