R语言有限混合模型(FMM,finite mixture model)EM算法聚类分析间歇泉喷发时间

简介: R语言有限混合模型(FMM,finite mixture model)EM算法聚类分析间歇泉喷发时间

摘要

本文提供了一套用于分析各种有限混合模型的方法。既包括传统的方法,如单变量和多变量正态混合的EM算法,也包括反映有限混合模型的一些最新研究的方法。许多算法都是EM算法或基于类似EM的思想,因此本文包括有限混合模型的EM算法的概述。

1.有限混合模型介绍

人群中的个体往往可以被划分为群。然而,即使我们观察到这些个体的特征,我们也可能没有真正观察到这些成员的群体。这项任务在文献中有时被称为 "无监督聚类",事实上,混合模型一般可以被认为是由被称为 "基于模型的聚类 "的聚类方法的子集组成。

有限混合模型也可用于那些对个体聚类感兴趣的情况之外。首先,有限混合模型给出了整个子群的描述,而不是将个体分配到这些子群中。有时,有限混合模型只是提供了一种充分描述特定分布的手段,例如线性回归模型中存在异常值的残差分布。

无论建模者在采用混合模型时的目标是什么,这些模型的大部分理论都涉及到一个假设,即子群是按照一个特定的参数形式分布的--而这个形式往往是单变量或多变量正态。

最近的研究目标是放宽或修改多变量正态假设,有限混合模型分析的计算技术,其中的成分是回归、多变量数据离散化产生的向量,甚至是完全未指定的分布。

2. 有限混合模型的EM算法

EM算法迭代最大化,而不是观察到的对数似然Lx(θ),算式为

1. E步:计算Q(θ|θ(t))

2. M步骤:设定θ(t+1)=argmaxθ∈Φ Q(θ|θ(t))

对于有限混合模型,E步骤不依赖于F的结构,因为缺失数据部分只与Z有关。

Z是离散的,它们的分布是通过贝叶斯定理给出的。M步骤本身可以分成两部分,与λ有关的最大化,它不依赖于F,与φ有关的最大化,它必须为每个模型专门处理(例如,参数化、半参数化或非参数化)。因此,模型的EM算法有以下共同特点。

11. E步。计算成分包含的 "后验 "概率(以数据和θ(t)为条件)。

对于所有i = 1, . . . ,n和j = 1, . . . 从数值上看,完全按照公式(2)的写法来实现是很危险的,因为在xi离任何一个成分都很远的情况下,所有的φ(t)j 0(xi)值都会导致数值下溢为零,所以可能会出现不确定的形式0/0。因此,许多例程实际上使用的是等价表达式

或其某种变体。

2.  λ的M步骤。设

2.3. 一个EM算法的例子

作为一个例子,我们考虑对图1中描述的间歇泉喷发间隔时间等待数据进行单变量正态混合分析。这种完全参数化的情况对应于第1节中描述的单变量高斯家族的混合分布,其中(1)中的第j个分量密度φj(x)为正态,均值为μj,方差为σ 2 j。

对于参数(µj , σ2 j )的M步,j = 1, . . 这个EM算法对这种单变量混合分布的M步骤是很简单的,例如可以在McLachlan和Peel(2000)中找到。

mixEM(waiting, lambda = .5)

上面的代码将拟合一个二成分的混合分布(因为mu是一个长度为2的向量),其中标准偏差被假定为相等(因为sigma是一个标量而不是一个向量)。

图1:对数似然值的序列,Lx(θ (t))

图2:用参数化EM算法拟合间歇泉等待数据。拟合的高斯成分。

R> plot(wait1, density = TRUE, cex.axis = 1.4, cex.lab = 1.4, cex.main = 1.8,
+ main2 = "Time between Old Faithful eruptions", xlab2 = "Minutes")

两个图:观察到的对数似然值的序列t 7→Lx(θ (t))和数据的直方图,其中有N(ˆµj , σˆ 2 j)的m(这里m=2)个拟合的高斯分量密度,j=1, . . . ,m,叠加在一起。估计θˆ

另外,使用summary也可以得到同样的输出。

summary(wait1)

3. Cutpoint methods切割点方法

传统上,大多数关于有限混合模型的文献都假设方程(1)的密度函数φj(x)来自一个已知的参数族。然而,一些作者最近考虑了这样的问题:除了确保模型中参数的可识别性所需的一些条件外,φj(x)是不指定的。我们使用Elmore等人(2004)的切割点方法。

我们参考Elmore等人从-63开始,一直到63大约以10.5的间隔采用切点。然后从原始数据中创建一个多指标数据集,如下所示。

R> cutpts <- 10.5*(-6:6)
R> mult(data, cuts = cutpts)

一旦创建了多指标数据,我们可以应用EM算法估计多指标参数。最后,计算并绘制出方程的估计分布函数。图3给出了3分量和4分量解决方案的图表;这些图表与Elmore等人(2004)的图1和图2中的相应图表非常相似。

R> plot(data, posterior, lwd = 2,
+ main = "三分量解")

图3(a)

图3(b)

同样可以用summary来总结EM输出。

单变量对称、位置偏移的半参数例子

在φ(-)相对于Lebesgue度量是绝对连续的额外假设下,Bordes等人(2007)提出了一种估计模型参数的随机算法,即(λ, µ, φ)。一个特例

R> plot(wait1, which = 2 )
R> wait2 <-EM(waiting)
R> plot(wait2, lty = 2)

图4(a)

图4(b)

因为半参数版本依赖于核密度估计步骤(8),所以有必要为这个步骤选择一个带宽。默认情况下,使用"Silverman的经验法则"(Silverman 1986)应用于整个数据集。

R> bw.nrd0(wait)

但带宽的选择会产生很大的不同,如图4(b)所示。

> wait2a <- EM(wait, bw = 1)
> plot(wait2a
> plot(wait2b

我们发现,在带宽接近2的情况下,半参数解看起来非常接近图2的正态混合分布解。进一步降低带宽会导致图4(b)中的实线所表现出的 "凹凸不平"。另一方面,在带宽为8的情况下,半参数解效果很差,因为算法试图使每个成分看起来与整个混合分布相似。


最受欢迎的见解

相关文章
|
4天前
|
机器学习/深度学习 人工智能 算法
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
车辆车型识别,使用Python作为主要编程语言,通过收集多种车辆车型图像数据集,然后基于TensorFlow搭建卷积网络算法模型,并对数据集进行训练,最后得到一个识别精度较高的模型文件。再基于Django搭建web网页端操作界面,实现用户上传一张车辆图片识别其类型。
12 0
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
|
21天前
|
机器学习/深度学习 数据采集 算法
如何在一夜之间成为模型微调大师?——从零开始的深度学习修炼之旅,让你的算法功力飙升!
【10月更文挑战第5天】在机器学习领域,预训练模型具有强大的泛化能力,但直接使用可能效果不佳,尤其在特定任务上。此时,模型微调显得尤为重要。本文通过图像分类任务,详细介绍如何利用PyTorch对ResNet-50模型进行微调,包括环境搭建、数据预处理、模型加载与训练等步骤,并提供完整Python代码。通过调整超参数和采用早停策略等技巧,可进一步优化模型性能。适合初学者快速上手模型微调。
77 8
|
2月前
|
机器学习/深度学习 人工智能 算法
鸟类识别系统Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+ResNet50算法模型+图像识别
鸟类识别系统。本系统采用Python作为主要开发语言,通过使用加利福利亚大学开源的200种鸟类图像作为数据集。使用TensorFlow搭建ResNet50卷积神经网络算法模型,然后进行模型的迭代训练,得到一个识别精度较高的模型,然后在保存为本地的H5格式文件。在使用Django开发Web网页端操作界面,实现用户上传一张鸟类图像,识别其名称。
92 12
鸟类识别系统Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+ResNet50算法模型+图像识别
|
19天前
|
机器学习/深度学习 算法 搜索推荐
django调用矩阵分解推荐算法模型做推荐系统
django调用矩阵分解推荐算法模型做推荐系统
16 4
|
2月前
|
存储 自然语言处理 算法
【算法精讲系列】MGTE系列模型,RAG实施中的重要模型
检索增强生成(RAG)结合检索与生成技术,利用外部知识库提升大模型的回答准确性与丰富性。RAG的关键组件包括文本表示模型和排序模型,前者计算文本向量表示,后者进行精细排序。阿里巴巴通义实验室推出的GTE-Multilingual系列模型,具备高性能、长文档支持、多语言处理及弹性向量表示等特性,显著提升了RAG系统的检索与排序效果。该系列模型已在多个数据集上展示出优越性能,并支持多语言和长文本处理,适用于各种复杂应用场景。
|
2月前
|
自然语言处理 监控 算法
【算法精讲系列】通义模型Prompt调优的实用技巧与经验分享
本文详细阐述了Prompt的设计要素,包括引导语、上下文信息等,还介绍了多种Prompt编写策略,如复杂规则拆分、关键信息冗余、使用分隔符等,旨在提高模型输出的质量和准确性。通过不断尝试、调整和优化,可逐步实现更优的Prompt设计。
|
2月前
|
算法
基于SIR模型的疫情发展趋势预测算法matlab仿真
该程序基于SIR模型预测疫情发展趋势,通过MATLAB 2022a版实现病例增长拟合分析,比较疫情防控力度。使用SIR微分方程模型拟合疫情发展过程,优化参数并求解微分方程组以预测易感者(S)、感染者(I)和移除者(R)的数量变化。![]该模型将总人群分为S、I、R三部分,通过解析或数值求解微分方程组预测疫情趋势。
|
8天前
|
算法 安全 数据安全/隐私保护
基于game-based算法的动态频谱访问matlab仿真
本算法展示了在认知无线电网络中,通过游戏理论优化动态频谱访问,提高频谱利用率和物理层安全性。程序运行效果包括负载因子、传输功率、信噪比对用户效用和保密率的影响分析。软件版本:Matlab 2022a。完整代码包含详细中文注释和操作视频。
|
26天前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于MSER和HOG特征提取的SVM交通标志检测和识别算法matlab仿真
### 算法简介 1. **算法运行效果图预览**:展示算法效果,完整程序运行后无水印。 2. **算法运行软件版本**:Matlab 2017b。 3. **部分核心程序**:完整版代码包含中文注释及操作步骤视频。 4. **算法理论概述**: - **MSER**:用于检测显著区域,提取图像中稳定区域,适用于光照变化下的交通标志检测。 - **HOG特征提取**:通过计算图像小区域的梯度直方图捕捉局部纹理信息,用于物体检测。 - **SVM**:寻找最大化间隔的超平面以分类样本。 整个算法流程图见下图。
|
5天前
|
人工智能 算法 数据安全/隐私保护
基于遗传优化的SVD水印嵌入提取算法matlab仿真
该算法基于遗传优化的SVD水印嵌入与提取技术,通过遗传算法优化水印嵌入参数,提高水印的鲁棒性和隐蔽性。在MATLAB2022a环境下测试,展示了优化前后的性能对比及不同干扰下的水印提取效果。核心程序实现了SVD分解、遗传算法流程及其参数优化,有效提升了水印技术的应用价值。