Matlab中的偏最小二乘法(PLS)回归模型,离群点检测和变量选择

简介: Matlab中的偏最小二乘法(PLS)回归模型,离群点检测和变量选择

本文建立偏最小二乘法(PLS)回归(PLSR)模型,以及预测性能评估。为了建立一个可靠的模型,我们还实现了一些常用的离群点检测和变量选择方法,可以去除潜在的离群点和只使用所选变量的子集来 "清洗 "你的数据。

步骤

  • 建立PLS回归模型
  • PLS的K-折交叉验证
  • PLS的蒙特卡洛交叉验证(MCCV)。
  • PLS的双重交叉验证(DCV)
  • 使用蒙特卡洛抽样方法进行离群点检测
  • 使用CARS方法进行变量选择。
  • 使用移动窗口PLS(MWPLS)进行变量选择。
  • 使用蒙特卡洛无信息变量消除法(MCUVE)进行变量选择
  • 进行变量选择

建立PLS回归模型

这个例子说明了如何使用基准近红外数据建立PLS模型。

plot(X');               % 显示光谱数据。
xlabel('波长指数');
ylabel('强度');

参数设定

A=6;                    % 潜在变量(LV)的数量。
method='center';        % 用于建立PLS模型的X的内部预处理方法
PLS(X,y,A,method);  % 建立模型的命令

pls.m函数返回一个包含成分列表的对象PLS。结果解释。

regcoef_original:连接X和y的回归系数。

X_scores:X的得分。

VIP:预测中的变量重要性,评估变量重要性的一个标准。

变量的重要性。

RMSEF:拟合的均方根误差。

y_fit:y的拟合值。

R2:Y的解释变异的百分比。

PLS的K折交叉验证

说明如何对PLS模型进行K折交叉验证

clear;
A=6;                          % LV的数量
K=5;                          % 交叉验证的次数

plot(CV.RMSECV)               % 绘制每个潜在变量(LVs)数量下的RMSECV值
xlabel('潜在变量(LVs)数量')          % 添加x标签
ylabel('RMSECV')              % 添加y标签

返回的值CV是带有成分列表的结构数据。结果解释。

RMSECV:交叉验证的均方根误差。越小越好

Q2:与R2含义相同,但由交叉验证计算得出。

optLV:达到最小RMSECV(最高Q2)的LV数量。

蒙特卡洛交叉验证(MCCV)的PLS

说明如何对PLS建模进行MCCV。与K-fold CV一样,MCCV是另一种交叉验证的方法。

% 参数设置
A=6;
method='center';
N=500;                          % Monte Carlo抽样的数量
% 运行mccv.
plot(MCCV.RMSECV);              % 绘制每个潜在变量(LVs)数量下的RMSECV值
xlabel('潜在变量(LVs)数量');

MCCV

MCCV是一个结构性数据。结果解释。

Ypred:预测值

Ytrue:真实值

RMSECV:交叉验证的均方根误差,越小越好。

Q2:与R2含义相同,但由交叉验证计算得出。

PLS的双重交叉验证(DCV)

说明如何对PLS建模进行DCV。与K-fold CV一样,DCV是交叉验证的一种方式。

% 参数设置
N=50;                                 % Monte Carlo抽样的数量
dcv(X,y,A,k,method,N);
DCV

使用蒙特卡洛抽样方法的离群点检测

说明离群点检测方法的使用情况

A=6;
method='center';
F=mc(X,y,A,method,N,ratio);

结果解释。

predError:每个抽样中的样本预测误差

MEAN:每个样本的平均预测误差

STD:每个样本的预测误差的标准偏差

plot(F) % 诊断图

注:MEAN值高或SD值高的样本更可能是离群值,应考虑在建模前将其剔除。

使用CARS方法进行变量选择。

A=6;
fold=5;
car(X,y,A,fold);

结果解释。

optLV:最佳模型的LV数量

vsel:选定的变量(X中的列)。

plotcars(CARS); % 诊断图

注:在这幅图中,顶部和中间的面板显示了选择变量的数量和RMSECV如何随着迭代而变化。底部面板描述了每个变量的回归系数(每条线对应一个变量)如何随着迭代而变化。星形垂直线表示具有最低RMSECV的最佳模型。

使用移动窗口PLS(MWPLS)进行变量选择

load corn_m51;                      % 示例数据
width=15;                           % 窗口大小
mw(X,y,width);
plot(WP,RMSEF);
xlabel('窗口位置');

注:从该图中建议将RMSEF值较低的区域纳入PLS模型中。

使用蒙特卡洛无信息变量消除法(MCUVE)进行变量选择

N=500;
method='center';
UVE

plot(abs(UVE.RI))

结果解释。RI:UVE的可靠性指数,是对变量重要性的测量,越高越好。

进行变量选择

A=6;
N=10000;
method='center';
FROG=rd_pls(X,y,A,method,N);
              N: 10000
              Q: 2
          model: \[10000x700 double\]
        minutes: 0.6683
         method: 'center'
          Vrank: \[1x700 double\]
         Vtop10: \[505 405 506 400 408 233 235 249 248 515\]
    probability: \[1x700 double\]
           nVar: \[1x10000 double\]
          RMSEP: \[1x10000 double\]

xlabel('变量序号');
ylabel('选择概率');

结果解释:

模型结果是一个矩阵,储存了每一个相互关系中的选择变量。

概率:每个变量被包含在最终模型中的概率。越大越好。这是一个衡量变量重要性的有用指标。


相关文章
|
27天前
|
监控 算法 数据安全/隐私保护
基于视觉工具箱和背景差法的行人检测,行走轨迹跟踪,人员行走习惯统计matlab仿真
该算法基于Matlab 2022a,利用视觉工具箱和背景差法实现行人检测与轨迹跟踪,通过构建背景模型(如GMM),对比当前帧与模型差异,识别运动物体并统计行走习惯,包括轨迹、速度及停留时间等特征。演示三维图中幅度越大代表更常走的路线。完整代码含中文注释及操作视频。
|
19天前
|
算法 5G 数据安全/隐私保护
SCM信道模型和SCME信道模型的matlab特性仿真,对比空间相关性,时间相关性,频率相关性
该简介展示了使用MATLAB 2022a进行无线通信信道仿真的结果,仿真表明信道的时间、频率和空间相关性随间隔增加而减弱,并且宏小区与微小区间的相关性相似。文中介绍了SCM和SCME模型,分别用于WCDMA和LTE/5G系统仿真,重点在于其空间、时间和频率相关性的建模。SCME模型在SCM的基础上进行了扩展,提供了更精细的参数化,增强了模型的真实性和复杂度。最后附上了MATLAB核心程序,用于计算不同天线间距下的空间互相关性。
23 0
|
21天前
|
算法 5G 数据安全/隐私保护
3D-MIMO信道模型的MATLAB模拟与仿真
该研究利用MATLAB 2022a进行了3D-MIMO技术的仿真,结果显示了不同场景下的LOS概率曲线。3D-MIMO作为5G关键技术之一,通过三维天线阵列增强了系统容量和覆盖范围。其信道模型涵盖UMa、UMi、RMa等场景,并分析了LOS/NLOS传播条件下的路径损耗、多径效应及空间相关性。仿真代码展示了三种典型场景下的LOS概率分布。
46 1
|
29天前
|
算法
基于GA遗传优化的离散交通网络双层规划模型设计matlab仿真
该程序基于GA遗传优化设计了离散交通网络的双层规划模型,以路段收费情况的优化为核心,并通过一氧化碳排放量评估环境影响。在MATLAB2022a版本中进行了验证,显示了系统总出行时间和区域排放最小化的过程。上层模型采用多目标优化策略,下层则确保总阻抗最小,实现整体最优解。
|
29天前
|
监控 算法 安全
基于颜色模型和边缘检测的火焰识别FPGA实现,包含testbench和matlab验证程序
本项目展示了基于FPGA的火焰识别算法,可在多种应用场景中实时检测火焰。通过颜色模型与边缘检测技术,结合HSV和YCbCr颜色空间,高效提取火焰特征。使用Vivado 2019.2和Matlab 2022a实现算法,并提供仿真结果与测试样本。FPGA平台充分发挥并行处理优势,实现低延迟高吞吐量的火焰检测。项目包含完整代码及操作视频说明。
|
1月前
|
算法
基于SIR模型的疫情发展趋势预测算法matlab仿真
该程序基于SIR模型预测疫情发展趋势,通过MATLAB 2022a版实现病例增长拟合分析,比较疫情防控力度。使用SIR微分方程模型拟合疫情发展过程,优化参数并求解微分方程组以预测易感者(S)、感染者(I)和移除者(R)的数量变化。![]该模型将总人群分为S、I、R三部分,通过解析或数值求解微分方程组预测疫情趋势。
|
16天前
|
算法 数据挖掘 vr&ar
基于ESTAR指数平滑转换自回归模型的CPI数据统计分析matlab仿真
该程序基于ESTAR指数平滑转换自回归模型,对CPI数据进行统计分析与MATLAB仿真,主要利用M-ESTAR模型计算WNL值、P值、Q值及12阶ARCH值。ESTAR模型结合指数平滑与状态转换自回归,适用于处理经济数据中的非线性趋势变化。在MATLAB 2022a版本中运行并通过ADF检验验证模型的平稳性,适用于复杂的高阶自回归模型。
|
2月前
|
存储 算法 数据可视化
MATLAB - 模型预测控制入门教程(MPC)
MATLAB - 模型预测控制入门教程(MPC)
78 9
|
2月前
|
调度 容器
MATLAB - 连续搅拌釜式反应器模型(Continuous Stirred Tank Reactor,CSTR)
MATLAB - 连续搅拌釜式反应器模型(Continuous Stirred Tank Reactor,CSTR)
72 2
|
2月前
|
机器人
MATLAB - 机器人任务空间运动模型
MATLAB - 机器人任务空间运动模型
33 1

热门文章

最新文章

下一篇
无影云桌面