偏最小二乘(Partial Least Squares,PLS)原理及模型建立

简介: 偏最小二乘(Partial Least Squares,PLS)原理及模型建立

随着对数据驱动的工业检测与诊断方法的逐步深入,过程监测的多元统计需要总结的东西越来越多,那么今天来整理一下。


内容较多,理论较复杂,建议细品,你品!最好推一遍~


It’s time to conclude PLS!!!


PCA和偏最小二乘(PLS)是从数据中描述正常情况的首选方法。


天气热,冰凉一下吧~


image.png

image.png

偏最小二乘法(PLS)

基本原理

偏最小二乘多用于寻求两个矩阵(X和Y)的基本关系,也就是一种在这两个向量空间中对协方差结构建模的隐变量方法。


偏最小二乘模型将试图找到X空间的多维方向来解释Y空间方差最大的多维方向。


偏最小二乘回归特别适合当预测矩阵比观测的有更多变量,以及X的值中有多重共线性的时候。通过投影预测变量和观测变量到一个新空间来寻找一个线性回归模型。


公式

偏最小二乘回归 ≈ ≈≈ 多元线性回归分析 + ++ 典型相关分析 + ++ 主成分分析


特点

与传统多元线性回归模型相比,偏最小二乘回归的特点是:

(1)能够在自变量存在严重多重相关性的条件下进行回归建模;

(2)允许在样本点个数少于变量个数的条件下进行回归建模;

(3)偏最小二乘回归在最终模型中将包含原有的所有自变量;

(4)偏最小二乘回归模型更易于辨识系统信息与噪声(甚至一些非随机性的噪声);

(5)在偏最小二乘回归模型中,每一个自变量的回归系数将更容易解释。

在计算方差和协方差时,求和号前面的系数有两种取法:当样本点集合是随机抽取得到时,应该取1/(n-1);如果不是随机抽取的,这个系数可取1/n。


在过程监控中,PLS类型的监控,包括非线性PLS,使用质量数据指导过程数据的分解,并提取与产品质量最相关的潜在变量。由于使用了质量数据,在质量相关性方面的诊断能力得到了增强,误报率降低。


首先让我们回顾一下 CCA 的知识。在CCA中,我们将X和Y分别投影到直线得到U和V,然后计算u和v的Pearson系数(也就是Corr(u,v)),认为相关度越大越好。形式化表示:

image.png

image.png

image.png

image.png

PLS算法

image.png

image.png

看似比CCA的简单,这里附上CCA的目标函数:

image.png

上面CCA是一次求解的过程,而我们的PLS回归只是对目前的第一主成分做了优化计算,剩下的主成分还得再计算。

关于优化的目标求解的办法,和CCA一样,也是引用了拉格朗日乘数法来求解。(下面给出详细计算步骤)

首先,引入拉格朗日乘子:

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

PLSR 回归算法

让我们回到上面的介绍,从新建立我们的回归方程

image.png

这里的c 和d 不同于上面的p 和q ,但是它们之间有一定联系,待会下面证明。其中,E 和G 是残差矩阵。


然后,进行以下几步操作:

image.png

image.png

image.png

image.png

image.png

image.png

image.png

计算得到第二组回归系数:

image.png

image.png

image.png

image.png

image.png

image.png

从上一步得到回归方程:

image.png

若还有残差矩阵的话,可以继续计算下去。

如此计算下去,最终得到:

image.png

image.png

image.png

image.png

image.png

image.png

到此,所有的PLSR回归模型的计算结束,下面再度请出我的灵魂画手,来言简意赅的总结一下上述流程:

image.png

手绘大致流程图

PLS 模型

虽然类似PCA的过程监控可以检测和诊断过程数据中的异常情况,但它无法判断检测到的异常情况是否会导致产品质量问题。这是PCA从业者经常提出的投诉,如监测和干扰警报,若检测到的过程故障最终不会导致质量问题,则会发生。


为了检测与质量相关的过程问题,PLS模型用于利用质量输出数据中的信息划分输入数据空间,如下图所示。PLS还将输入空间划分为以PLS分数为特征的主子空间和与分数互补的剩余子空间。早期文献表明,主子空间由T2监控,T2被认为反映了与Y相关的主要变化,剩余子空间由Q监控,Q被认为包含与输出Y无关的变化。

image.png

image.png

image.png

image.png

image.png

image.png

image.png

为了计算新数据样本x上的模型估计值和残差,PLS模型将斜投影引入输入数据空间

image.png

image.png

CPLS 模型(潜在结构的并行投影)

最近读的一篇Paper提出了一种并行PLS(CPLS)算法和相关监测指标,以提供对输出变化的完整监测,并将输入数据空间简洁地分解为输出相关子空间和输入相关子空间。


下面具体介绍模型建立的思路。


为了提供质量数据和过程操作数据的完整监控方案,提出了一种并行PLS(CPLS)模型,以实现三个目标:(i)从标准PLS投影中提取与输出的可预测变化直接相关的分数,形成协变量子空间(CVS)(ii)将不可预测的输出变化进一步投影到输出主子空间(OPS)和输出剩余子空间(ORS),以监测这些子空间中的异常变化;和(iii)将与预测输出无关的输入变化进一步投影到输入主子空间(IPS)和输出子空间(IRS),以监测这些子空间中的异常变化。


基于CPLS算法,数据矩阵X和Y分解如下:

image.png

image.png

image.png

给出了CPLS的模型关系。

根据上面给出的CPLS模型,设计故障监测指标非常简单。输出相关得分可通过以下方法进行监控:

image.png

image.png

image.png

image.png

image.png

image.png

并行 PLS 算法

将原始数据缩放为零平均值和单位方差,得到X和Y。使用(1)对X和Y执行PLS,得出T、Q和R。PLS因子l的数量通过交叉验证确定。

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

相关文章
|
机器学习/深度学习 监控 算法
线性与非线性数据降维方法汇总(Python代码实现)
线性与非线性数据降维方法汇总(Python代码实现)
线性与非线性数据降维方法汇总(Python代码实现)
|
机器学习/深度学习 算法 数据可视化
浅析特征数据离散化的几种方法(上)
什么是离散化? 离散化就是把无限空间中有限的个体映射到有限的空间中去,以此提高算法的时空效率。通俗的说,离散化是在不改变数据相对大小的条件下,对数据进行相应的缩小。例如:
|
机器学习/深度学习 Python
【机器学习】包裹式特征选择之递归特征消除法
【机器学习】包裹式特征选择之递归特征消除法
1739 4
|
机器学习/深度学习 数据采集 监控
机器学习-特征选择:如何使用递归特征消除算法自动筛选出最优特征?
机器学习-特征选择:如何使用递归特征消除算法自动筛选出最优特征?
1586 0
|
11月前
|
机器学习/深度学习 编解码 监控
目标检测实战(六): 使用YOLOv8完成对图像的目标检测任务(从数据准备到训练测试部署的完整流程)
这篇文章详细介绍了如何使用YOLOv8进行目标检测任务,包括环境搭建、数据准备、模型训练、验证测试以及模型转换等完整流程。
17653 59
目标检测实战(六): 使用YOLOv8完成对图像的目标检测任务(从数据准备到训练测试部署的完整流程)
|
数据可视化 数据挖掘
SmartPLS 4.0
SmartPLS 4.0
1524 3
|
机器学习/深度学习 数据采集 算法
回归算法全解析!一文读懂机器学习中的回归模型
回归算法全解析!一文读懂机器学习中的回归模型
1334 0
|
计算机视觉
Matlab中的偏最小二乘法(PLS)回归模型,离群点检测和变量选择
Matlab中的偏最小二乘法(PLS)回归模型,离群点检测和变量选择
Matlab中的偏最小二乘法(PLS)回归模型,离群点检测和变量选择
|
XML JSON 监控
API 开发完全指南
本指南将详尽探讨API开发的基本要素,包括涉及的概念、类型和协议,以及可用的最佳实践和工具。我们将从揭示API在现代软件开发中的作用开始,阐明它们如何促进不同软件组件之间的无缝通信。之后,我们将深入研究各种API类型,如RESTful、GraphQL和SOAP,并分析它们独特的特点和理想用例。 接下来将讨论API设计的关键方面,重点关注API安全性、可扩展性和可维护性。我们将讨论常见的身份验证和授权机制、速率限制以及API版本控制等其他基本主题。最后,我们将介绍领先的API开发工具和框架以及文档和测试的价值,确保你具备开发高质量、高效且安全API所需的知识和资源。
2350 0
|
编译器 开发工具 C语言
vscode安装+配置+使用+调试【保姆级教程】
vscode安装+配置+使用+调试【保姆级教程】
53028 8