偏最小二乘(Partial Least Squares,PLS)原理及模型建立

简介: 偏最小二乘(Partial Least Squares,PLS)原理及模型建立

随着对数据驱动的工业检测与诊断方法的逐步深入,过程监测的多元统计需要总结的东西越来越多,那么今天来整理一下。


内容较多,理论较复杂,建议细品,你品!最好推一遍~


It’s time to conclude PLS!!!


PCA和偏最小二乘(PLS)是从数据中描述正常情况的首选方法。


天气热,冰凉一下吧~


image.png

image.png

偏最小二乘法(PLS)

基本原理

偏最小二乘多用于寻求两个矩阵(X和Y)的基本关系,也就是一种在这两个向量空间中对协方差结构建模的隐变量方法。


偏最小二乘模型将试图找到X空间的多维方向来解释Y空间方差最大的多维方向。


偏最小二乘回归特别适合当预测矩阵比观测的有更多变量,以及X的值中有多重共线性的时候。通过投影预测变量和观测变量到一个新空间来寻找一个线性回归模型。


公式

偏最小二乘回归 ≈ ≈≈ 多元线性回归分析 + ++ 典型相关分析 + ++ 主成分分析


特点

与传统多元线性回归模型相比,偏最小二乘回归的特点是:

(1)能够在自变量存在严重多重相关性的条件下进行回归建模;

(2)允许在样本点个数少于变量个数的条件下进行回归建模;

(3)偏最小二乘回归在最终模型中将包含原有的所有自变量;

(4)偏最小二乘回归模型更易于辨识系统信息与噪声(甚至一些非随机性的噪声);

(5)在偏最小二乘回归模型中,每一个自变量的回归系数将更容易解释。

在计算方差和协方差时,求和号前面的系数有两种取法:当样本点集合是随机抽取得到时,应该取1/(n-1);如果不是随机抽取的,这个系数可取1/n。


在过程监控中,PLS类型的监控,包括非线性PLS,使用质量数据指导过程数据的分解,并提取与产品质量最相关的潜在变量。由于使用了质量数据,在质量相关性方面的诊断能力得到了增强,误报率降低。


首先让我们回顾一下 CCA 的知识。在CCA中,我们将X和Y分别投影到直线得到U和V,然后计算u和v的Pearson系数(也就是Corr(u,v)),认为相关度越大越好。形式化表示:

image.png

image.png

关于CCA的缺点:对特征的处理方式比较粗糙,用的是线性回归来表示U和X的关系,U也是X在某条线上的投影,因此会存在线性回归的一些缺点。我们想把PCA的成分提取技术引入CCA,使得U和V尽可能更多的携带样本的最主要信息。Most important thing!CCA是寻找X和Y投影后U和V的关系,通过系数矩阵求其最优解使得R ( U , V )最大,显然不能通过该关系来还原出X和Y,也就是找不到X到Y的直接映射。这也是使用CCA预测时大多配上KNN的原由吧。(关于KNN算法后续本菜研究后更新)


PLS兼顾了PCA和CCA,解决了X和Y在投影上映射问题

image.png

image.png

PLS算法

image.png

简而言之,为了实现偏最小二乘回归的基本思想,要求p1和q1的协方差最大,即求解下面优化后的目标函数:

image.png

看似比CCA的简单,这里附上CCA的目标函数:

image.png

上面CCA是一次求解的过程,而我们的PLS回归只是对目前的第一主成分做了优化计算,剩下的主成分还得再计算。

关于优化的目标求解的办法,和CCA一样,也是引用了拉格朗日乘数法来求解。(下面给出详细计算步骤)

首先,引入拉格朗日乘子:

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

PLSR 回归算法

让我们回到上面的介绍,从新建立我们的回归方程

image.png

这里的c cc和d dd不同于上面的p 和q ,但是它们之间有一定联系,待会下面证明。其中,E 和G 是残差矩阵。


然后,进行以下几步操作:

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

手绘大致流程图

PLS 模型

虽然类似PCA的过程监控可以检测和诊断过程数据中的异常情况,但它无法判断检测到的异常情况是否会导致产品质量问题。这是PCA从业者经常提出的投诉,如监测和干扰警报,若检测到的过程故障最终不会导致质量问题,则会发生。


为了检测与质量相关的过程问题,PLS模型用于利用质量输出数据中的信息划分输入数据空间,如下图所示。PLS还将输入空间划分为以PLS分数为特征的主子空间和与分数互补的剩余子空间。早期文献表明,主子空间由T2监控,T2被认为反映了与Y相关的主要变化,剩余子空间由Q监控,Q被认为包含与输出Y无关的变化。

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

CPLS 模型(潜在结构的并行投影)

最近读的一篇Paper提出了一种并行PLS(CPLS)算法和相关监测指标,以提供对输出变化的完整监测,并将输入数据空间简洁地分解为输出相关子空间和输入相关子空间。


下面具体介绍模型建立的思路。


为了提供质量数据和过程操作数据的完整监控方案,提出了一种并行PLS(CPLS)模型,以实现三个目标:(i)从标准PLS投影中提取与输出的可预测变化直接相关的分数,形成协变量子空间(CVS)(ii)将不可预测的输出变化进一步投影到输出主子空间(OPS)和输出剩余子空间(ORS),以监测这些子空间中的异常变化;和(iii)将与预测输出无关的输入变化进一步投影到输入主子空间(IPS)和输出子空间(IRS),以监测这些子空间中的异常变化。


基于CPLS算法,数据矩阵X和Y分解如下:

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

相关文章
|
机器学习/深度学习 算法 数据挖掘
马尔科夫链(Markov Chain, MC)算法详解及Python实现
马尔科夫链(Markov Chain, MC)算法详解及Python实现
7963 1
马尔科夫链(Markov Chain, MC)算法详解及Python实现
|
监控 算法
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
|
7月前
R语言实现偏最小二乘回归法 partial least squares (PLS)回归
R语言实现偏最小二乘回归法 partial least squares (PLS)回归
|
7月前
R语言Copula函数股市相关性建模:模拟Random Walk(随机游走)
R语言Copula函数股市相关性建模:模拟Random Walk(随机游走)
|
7月前
|
vr&ar
R语言如何做马尔可夫转换模型markov switching model
R语言如何做马尔可夫转换模型markov switching model
|
7月前
|
vr&ar
R语言如何做马尔科夫转换模型markov switching model
R语言如何做马尔科夫转换模型markov switching model
|
7月前
R语言中的马尔科夫机制转换(Markov regime switching)模型
R语言中的马尔科夫机制转换(Markov regime switching)模型
|
7月前
R语言连续时间马尔科夫链模拟案例 Markov Chains
R语言连续时间马尔科夫链模拟案例 Markov Chains
|
7月前
|
机器学习/深度学习 存储 计算机视觉
R语言中的偏最小二乘回归PLS-DA
R语言中的偏最小二乘回归PLS-DA
|
7月前
R语言中广义线性模型(GLM)中的分布和连接函数分析
R语言中广义线性模型(GLM)中的分布和连接函数分析