偏最小二乘(Partial Least Squares，PLS)原理及模型建立-阿里云开发者社区

偏最小二乘(Partial Least Squares，PLS)原理及模型建立

2021-12-21 1132

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 偏最小二乘(Partial Least Squares，PLS)原理及模型建立

随着对数据驱动的工业检测与诊断方法的逐步深入，过程监测的多元统计需要总结的东西越来越多，那么今天来整理一下。

内容较多，理论较复杂，建议细品，你品！最好推一遍~

It’s time to conclude PLS！！！

PCA和偏最小二乘（PLS）是从数据中描述正常情况的首选方法。

天气热，冰凉一下吧~

偏最小二乘法（PLS）

基本原理

偏最小二乘多用于寻求两个矩阵（X和Y）的基本关系，也就是一种在这两个向量空间中对协方差结构建模的隐变量方法。

偏最小二乘模型将试图找到X空间的多维方向来解释Y空间方差最大的多维方向。

偏最小二乘回归特别适合当预测矩阵比观测的有更多变量，以及X的值中有多重共线性的时候。通过投影预测变量和观测变量到一个新空间来寻找一个线性回归模型。

公式

偏最小二乘回归 ≈ ≈≈ 多元线性回归分析 + ++ 典型相关分析 + ++ 主成分分析

特点

与传统多元线性回归模型相比，偏最小二乘回归的特点是：

（1）能够在自变量存在严重多重相关性的条件下进行回归建模；

（2）允许在样本点个数少于变量个数的条件下进行回归建模；

（3）偏最小二乘回归在最终模型中将包含原有的所有自变量；

（4）偏最小二乘回归模型更易于辨识系统信息与噪声（甚至一些非随机性的噪声）；

（5）在偏最小二乘回归模型中，每一个自变量的回归系数将更容易解释。

在计算方差和协方差时，求和号前面的系数有两种取法：当样本点集合是随机抽取得到时，应该取1/(n-1)；如果不是随机抽取的，这个系数可取1/n。

在过程监控中，PLS类型的监控，包括非线性PLS，使用质量数据指导过程数据的分解，并提取与产品质量最相关的潜在变量。由于使用了质量数据，在质量相关性方面的诊断能力得到了增强，误报率降低。

首先让我们回顾一下 CCA 的知识。在CCA中，我们将X和Y分别投影到直线得到U和V，然后计算u和v的Pearson系数（也就是Corr(u,v)），认为相关度越大越好。形式化表示：

关于CCA的缺点：对特征的处理方式比较粗糙，用的是线性回归来表示U和X的关系，U也是X在某条线上的投影，因此会存在线性回归的一些缺点。我们想把PCA的成分提取技术引入CCA，使得U和V尽可能更多的携带样本的最主要信息。Most important thing！CCA是寻找X和Y投影后U和V的关系，通过系数矩阵求其最优解使得R ( U ， V )最大，显然不能通过该关系来还原出X和Y，也就是找不到X到Y的直接映射。这也是使用CCA预测时大多配上KNN的原由吧。（关于KNN算法后续本菜研究后更新）

PLS兼顾了PCA和CCA，解决了X和Y在投影上映射问题

PLS算法

简而言之，为了实现偏最小二乘回归的基本思想，要求p1和q1的协方差最大，即求解下面优化后的目标函数：

看似比CCA的简单，这里附上CCA的目标函数：

上面CCA是一次求解的过程，而我们的PLS回归只是对目前的第一主成分做了优化计算，剩下的主成分还得再计算。

关于优化的目标求解的办法，和CCA一样，也是引用了拉格朗日乘数法来求解。（下面给出详细计算步骤）

首先，引入拉格朗日乘子：

PLSR 回归算法

让我们回到上面的介绍，从新建立我们的回归方程：

这里的c cc和d dd不同于上面的p 和q ，但是它们之间有一定联系，待会下面证明。其中，E 和G 是残差矩阵。

然后，进行以下几步操作：

手绘大致流程图

PLS 模型

虽然类似PCA的过程监控可以检测和诊断过程数据中的异常情况，但它无法判断检测到的异常情况是否会导致产品质量问题。这是PCA从业者经常提出的投诉，如监测和干扰警报，若检测到的过程故障最终不会导致质量问题，则会发生。

为了检测与质量相关的过程问题，PLS模型用于利用质量输出数据中的信息划分输入数据空间，如下图所示。PLS还将输入空间划分为以PLS分数为特征的主子空间和与分数互补的剩余子空间。早期文献表明，主子空间由T2监控，T2被认为反映了与Y相关的主要变化，剩余子空间由Q监控，Q被认为包含与输出Y无关的变化。

CPLS 模型（潜在结构的并行投影）

最近读的一篇Paper提出了一种并行PLS（CPLS）算法和相关监测指标，以提供对输出变化的完整监测，并将输入数据空间简洁地分解为输出相关子空间和输入相关子空间。

下面具体介绍模型建立的思路。

为了提供质量数据和过程操作数据的完整监控方案，提出了一种并行PLS（CPLS）模型，以实现三个目标：（i）从标准PLS投影中提取与输出的可预测变化直接相关的分数，形成协变量子空间（CVS）(ii）将不可预测的输出变化进一步投影到输出主子空间（OPS）和输出剩余子空间（ORS），以监测这些子空间中的异常变化；和（iii）将与预测输出无关的输入变化进一步投影到输入主子空间（IPS）和输出子空间（IRS），以监测这些子空间中的异常变化。

基于CPLS算法，数据矩阵X和Y分解如下：