【数据挖掘算法】(一)MSET 算法

简介: 【数据挖掘算法】(一)MSET 算法

文章目录


一、算法介绍

二、算法步骤

三、过程说明


一、算法介绍


MSET(Multivariate State Estimation Technique)是由Singer等提出的一种非线性的多元预测诊断技术,是一种通过分析对比实际监测参数与设备正常运行时的健康数据为基础,对正常运行时的各个参数进行运算并做出估计,以这种正常的状态估计作为标准。当得到实际的运行数据时,同样以健康数据为基础,并找到实际数据与健康数据的关联程度,以此对实际运行状态做出估计,这种"程度"是通过权值向量来决定的,用于衡量实际状态与正常状态的相似性。最终对健康状态与实际运行状态的估计结果进行对比分折,并引入残差的概念,最终进行诊断。目前在核电站传感器校验、设备监测、电子产品寿命预测等方面有成功的应用。


二、算法步骤


假设某一设备的“相关变量集”中共有n个相互关联的变量,将在某一时刻i观测到的这n个变量记为观测向量,即


X(i)=[x1 x2 ⋯xn ]^T (1)


过程记忆矩阵D的构造是MSET建模的第一个步骤。在该过程或设备正常工作的时段内,在不同运行工况下采集m个历史观测向量,组成过程记忆矩阵为


image.png


过程记忆矩阵中的每一列观测向量代表设备的一个正常工作状态。经过合理选择的过程记忆矩阵中的m个历史观测向量所张成的子空间(用D代表)能够代表过程或设备正常运行的整个动态过程。因此,过程记忆矩阵的构造实质就是对过程或设备正常运行特性的学习和记忆过程。MSET模型的输入为某一时刻过程或设备的新观测向量Xobs,模型的输出为对该输入向量的预测值Xest。对任何一个输入观测向量Xobs,MSET生成一个m维的权值向量为


W=[w1 w2 ⋯ wm ]^T (3)


使得:


Xest=D∙W=w1∙X(1)+w2∙X(2)+ ⋯+wm∙X(m) (4)


即MSET模型的预测输出为过程记忆矩阵中m个历史观测向量的线性组合。权值向量W采用以下方法确定。构造MSET模型输入观测向量和输出预测向量之间的残差为


ε=Xobs - Xest (5)


选择W使残差的平方和达到最小。残差的平方和为


image.png


将S(w)分别对w1, w2, ⋯,wm 求偏导数并令其等于0,得


image.png



image.png


如仅对相关变量集或观测向量中的某一变量如式(1)中的变量xn 进行预测,则只需取过程记忆矩阵的第n行与m维的权值向量相乘,即


x_est=[x_n (1) x_n (2) ⋯ x_n (m)]∙W


=[x_n (1) x_n (2) ⋯ x_n (m)]∙(DT∙D)(-1)∙(D^T∙X_obs) (12)


从式(12)可看出,对观测向量中任一变量的预测是过程记忆矩阵中该变量的m个历史观测值的线性组合。在组合权值W的计算式(10)中,DT∙D反映了过程记忆矩阵中的历史观测向量两两之间的点乘关系,而DT∙X_obs反映了新的输入观测向量与过程记忆矩阵中历史观测向量两两之间的点乘关系。点乘是数量积,是两向量之间关系的一种反映。为使非线性状态估计方法具有更直观的物理意义,并且避免变量之间相关性造成的点乘之后不可逆的情况出现,本文用欧氏距离来反映两两向量之间的关系,即两两向量之间的相似性。在权值W的计算式(10)中,DT∙D和DT∙X_obs中的点乘运算改为欧氏距离运算,式(10)变为:


image.png


式(15)的物理意义如下。新的观测向量X_obs与过程记忆矩阵中的m个历史观测向量两两之间通过计算欧氏距离来反映它们之间的相似性。假设X_obs与过程记忆矩阵中的历史观测向量X(i)最相似,则两者之间的欧氏距离最小,在式(4)或(15)中,X(i)对应的权值wi最大,对预测结果的贡献也最大。


当模型新的输入观测向量是在过程或设备正常工作状态获得的,由于过程记忆矩阵覆盖了过程和设备的正常工作空间,该新观测向量总会和过程记忆矩中某些历史观测向量相似,这些相似历史观测向量的组合可以对输入给出精度很高的预测值。模型预测的精度可以用某变量的预测值和该变量的实际测量值之间的残差来衡量。


ε=x_est - x_n (16)


式中:x_n为MSET模型新输入观测向量的第n个变量的实际测量值;x_est为MSET模型输出的x_n预测值。


当过程或设备工作状态发生变化出现故障隐患时,由于动态特性的改变,输入观测向量将偏离正常工作空间,其与D矩阵中历史观测向量均不相似,通过D矩阵中历史观测向量的组合无法构造其对应的精确预测值,将会导致预测精度下降,残差增大。


三、过程说明


1)用来生成历史观测向量集合K 的历史数据应该满足以下要求:


(1)涵盖了一段足够长的运行时间;


(2)每组数据都表达了设备对象的一个正常状态;


(3)满足每一组采样值中各个变量的同时性,必须是同一时刻的采样值;


(4)涵盖了机组在不同季节、不同负荷下的运行情况。


image.png


其中,M表示不同运行工况下M个历史观测向量,n表示设备有n个变量。


2)数据归一化处理


在选用数据库中实时数据构造过程记忆矩阵和预测输出时,由于风电机中某一设备模型相关测点的量纲不同,且不同测点数据绝对值相差很大,为保证使用非线性算子正确衡量不同观测向量之间的距离,需要对各个测点的n个变量分别根据各自的极值进行归一化处理,使实际测量值映射到[0,1] 区间。


3)过程记忆矩阵D的构造


过程记忆矩阵的构造需要使其内部的m个观测向量X(1), X(2),…,X(m)能够尽量覆盖设备正常工作空间。设备正常工作空间的每一个观测向量由n个变量组成,且其观测值已被归一化。对每一个变量,将[0,1]之间等分为100份,以0.01为步距从集合K中查找出若干个观测向量加入矩阵D 中。以变量x_1为例,向过程矩阵D 中添加观测向量的方法如图所示。图中δ为一小的正数。对剩余的n-1个变量,均采用与图示相同的流程以0.01为步距从集合K中选择观测向量添加到D中。采用此方法构造过程记忆矩阵,能够将组成观测向量的n个变量的不同测量值对应的历史记录选入矩阵D中,从而使其能较好地覆盖设备正常工作空间。对于某些重要的变量,选取历史观测向量的步距可以取得更小如0.005(等分为200份)。构造过程记忆矩阵完成后,即可利用式(8)对MSET温度模型新的输入观测向量进行预测。


image.png


目录
相关文章
|
4月前
|
机器学习/深度学习 自然语言处理 算法
【数据挖掘】金山办公2020校招大数据和机器学习算法笔试题
金山办公2020校招大数据和机器学习算法笔试题的解析,涵盖了编程、数据结构、正则表达式、机器学习等多个领域的题目和答案。
105 10
|
4月前
|
算法 数据挖掘 Python
【数据挖掘】十大算法之Apriori关联算法
Apriori关联算法,这是一种用于发现数据集中频繁项集和关联规则的数据挖掘技术,通过迭代过程找出满足最小支持度阈值的项集。
71 8
|
4月前
|
自然语言处理 算法 数据挖掘
【数据挖掘】十大算法之PageRank连接分析算法
文章介绍了PageRank算法的基本概念和数学模型,包括如何通过一阶马尔科夫链定义随机游走模型以及如何计算网页的重要性评分,并提供了PageRank迭代算法的具体步骤。
79 0
|
3月前
|
机器学习/深度学习 数据采集 算法
数据挖掘和机器学习算法
数据挖掘和机器学习算法
|
4月前
|
机器学习/深度学习 存储 人工智能
【数据挖掘】2022年2023届秋招知能科技公司机器学习算法工程师 笔试题
本文是关于2022-2023年知能科技公司机器学习算法工程师岗位的秋招笔试题,包括简答题和编程题,简答题涉及神经网络防止过拟合的方法、ReLU激活函数的使用原因以及条件概率计算,编程题包括路径行走时间计算和两车相向而行相遇时间问题。
77 2
【数据挖掘】2022年2023届秋招知能科技公司机器学习算法工程师 笔试题
|
4月前
|
机器学习/深度学习 自然语言处理 算法
【数据挖掘】2020奇安信秋招算法方向试卷1 笔试题解析
2020年奇安信秋招算法方向试卷1的题目解析,覆盖了数据结构、机器学习、深度学习、自然语言处理、排序算法、激活函数、主题模型、采样方法、图像处理等多个领域的知识点。
51 1
【数据挖掘】2020奇安信秋招算法方向试卷1 笔试题解析
|
4月前
|
机器学习/深度学习 存储 算法
【数据挖掘】2020奇安信秋招算法方向试卷3 笔试题解析
2020年奇安信秋招算法方向试卷3的题目解析,涵盖了数据结构、机器学习、深度学习、自然语言处理、排序算法、激活函数、PCA、词嵌入库等多个领域的知识点。
63 1
【数据挖掘】2020奇安信秋招算法方向试卷3 笔试题解析
|
4月前
|
机器学习/深度学习 人工智能 算法
【数据挖掘】2022年2023届秋招奇虎360机器学习算法工程师 笔试题
本文提供了奇虎360公司2022年秋招机器学习算法工程师岗位的笔试题内容,包括选择题和编程题,涉及概率统计、数据结构、机器学习、计算机组成原理等多个领域。
98 5
|
4月前
|
机器学习/深度学习 算法 数据挖掘
【数据挖掘】2022年2023届秋招宏瓴科技公司机器学习算法工程师 笔试题
关于宏瓴科技有限公司2022-2023年秋招机器学习算法工程师岗位的笔试题目及作者个人对部分题目的解答尝试,涉及贝叶斯误差和贝叶斯最优分类器的概念、贝叶斯误差的重要性和估算方法,以及如何有效利用训练集和测试集进行深度学习模型训练的数据集划分策略。
61 4
|
4月前
|
数据采集 资源调度 算法
【数据挖掘】十大算法之K-Means K均值聚类算法
K-Means聚类算法的基本介绍,包括算法步骤、损失函数、优缺点分析以及如何优化和改进算法的方法,还提到了几种改进的K-Means算法,如K-Means++和ISODATA算法。
117 4

热门文章

最新文章